1.2.1 Spark SQL的特点

Spark SQL的特点主要包括以下几点。

1.易集成

Spark SQL与Spark程序的无缝集成使Spark SQL可使用SQL或DataFrame API在Spark应用程序中处理结构化数据,且Spark SQL支持Java、Scala、Python、R等语言。

2.统一的数据访问

Spark SQL提供了一种访问各种数据源的通用方法,数据源包括Hive、Avro、Parquet、Orc、JSON、JDBC等。因此,Spark SQL可以使用相同的方法连接到这些数据源,甚至可以跨源关联数据。

3.兼容Hive

Spark SQL可以在现有的Hive上运行SQL或HiveQL进行查询,并且Spark SQL支持HiveQL语法,从而可以访问现有的Hive。

4.标准的数据连接

Spark SQL可以通过行业标准的JDBC和ODBC连接数据源。