1.2 Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块。用户可以在Spark应用程序中直接使用SQL语句对数据进行操作。SQL语句通过Spark SQL模块解析为弹性分布式数据集(Resillient Distributed Dataset,RDD)算子,并最终交给Spark底层(Spark Core)执行,如图1-1所示。

图1-2 Spark SQL执行过程

Spark的核心模块包括Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX,本书仅介绍Spark的结构化处理模块Spark SQL。