Abstract:
在数据科学中,ETL 是从海量信息中获得关键数据并进行后续机器学习、深度学习的关键。 ETL 的处理速度直接关系到整个过程的处理能力。随着商业智能的发展及大数据的爆发,ETL 的处理速度变得越来越重要。 RAPIDS CUDA Dataframe(cuDF)将 ETL 性能提高了 60 倍。直接将数据流传输到 cuDF 中,可确保用户可以充分利用 RAPIDS 提供的性能优势,同时最大程度地减少数据准备带来的延迟。我们将介绍如何创建用户定义的 cuDF 的数据源以将数据从第三方系统直接传递到 GPU dataframe 的。我们还将介绍架构设计模式,并展示开发人员如何编写有效的代码来将数据从外部系统直接传递到 GPU 中的。