- Spark SQL入门与数据分析实践
- 杨虹 谢显中 周前能 张安文编著
- 146字
- 2025-03-12 17:54:24
1.2 Spark SQL简介
Spark SQL是Spark用来处理结构化数据的一个模块。用户可以在Spark应用程序中直接使用SQL语句对数据进行操作。SQL语句通过Spark SQL模块解析为弹性分布式数据集(Resillient Distributed Dataset,RDD)算子,并最终交给Spark底层(Spark Core)执行,如图1-1所示。

图1-2 Spark SQL执行过程
Spark的核心模块包括Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX,本书仅介绍Spark的结构化处理模块Spark SQL。