前言

随着大数据技术的发展以及各行业对数据分析工具的迫切需要，大规模并行数据分析变得越来越流行，于是Spark SQL应运而生，并且迅速地占据了技术市场的主流地位。Spark SQL是Spark为结构化数据处理引入的一个编程模块，它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。

作为Spark技术的核心模块之一，Spark SQL具有以下几个优点。第一，集成。Spark SQL无缝地将SQL查询与Spark程序混合。Spark SQL允许用户将结构化数据作为Spark中的分布式数据集（RDD）进行查询，在Python、Scala和Java中集成了API。这种紧密的集成使得Spark SQL可以轻松地运行SQL查询以及复杂的分析算法。第二，统一数据访问。Spark SQL可以加载和查询来自各种来源的数据。Schema-RDDs提供了一个有效处理结构化数据的单一接口，包括Apache Hive表和JSON文件。第三，标准连接。Spark SQL可以通过JDBC或ODBC连接。Spark SQL包括具有行业标准JDBC和ODBC连接的服务器模式。第四，可扩展性。对于交互式查询和长查询，Spark使用相同的引擎。Spark SQL利用RDD模型来支持查询容错，使其能够扩展到大型作业，而不用担心为历史数据使用不同的引擎。

本书主要介绍Spark SQL，使读者能够轻松入门并掌握Spark SQL。读者能从本书中学到如何利用Spark SQL技术进行数据分析，以及Spark SQL数据分析的原理以及相关的分布式技术逻辑。最后，本书会带读者学习一些Spark SQL数据分析的编程实例，以此来加深读者对Spark SQL的理解和认识。我们希望本书能够使读者深入了解Spark SQL，并且在应用场景中可以运用自如。

本书具有5个鲜明的特点：第一，本书以源码分析为基础，从理论阐述到代码实践，内容由浅入深、由深到广，使初学者可以快速入门；第二，本书用大量的图来展示原理，并配以详细的介绍与讲解，加速读者对内容的掌握；第三，本书列举了大量的实例，以便于读者对源码能有更好的理解，使读者学习之后，能有所收获，并在工作中进行实践；第四，本书在文中安排了很多“提示”小板块，使读者可以在学习过程中更轻松地理解相关知识点及概念，更快地掌握个别技术的应用技巧；第五，本书在每一章最后都对本章的内容做了简要的总结，并布置了一些针对本章内容的习题（除第8章），读者通过对习题的练习可以巩固本章所学知识。

由于作者本人知识水平有限，书中难免有所纰漏，真诚希望大家提出宝贵意见。

作者

2021年3月