µÚ5ÕÂ¡þSpark SQL±à³Ìª¥

Spark SQLÊÇÓÃÓÚ½á¹¹»¯Êý¾Ý´¦ÀíµÄSparkÄ£¿é¡£²»Í¬ÓÚRDD API£¬Spark SQLÌá¹©ÁË¸ü¶àÓÐ¹ØÊý¾ÝºÍ¼ÆËãµÄ½á¹¹ÐÅÏ¢£¬²¢¸ù¾ÝÕâÐ©ÐÅÏ¢¶Ô¼ÆËã¹ý³Ì½øÐÐÓÅ»¯¡£Spark SQL½Ó¿Ú°üÀ¨SQLºÍDataset API¡£µ«ÎÞÂÛÄÄÖÖ½Ó¿Ú»ò¿ª·¢ÓïÑÔ(Scala¡¢Java¡¢Python»òRµÈ)£¬¶¼Ê¹ÓÃÏàÍ¬µÄÖ´ÐÐÒýÇæ£¬¿ª·¢ÈËÔ±¿ÉÒÔÔÚ²»Í¬µÄAPIÖ®¼ä½øÐÐÇÐ»»¡£

Spark SQLÊÇSparkÖÐ×îÖØÒªµÄ¸ÅÄîÖ®Ò»£¬Spark SQLÔÊÐíÓÃ»§¶Ô×éÖ¯µ½Êý¾Ý¿âÖÐµÄÊÓÍ¼»ò±íÖ´ÐÐSQL²éÑ¯¡£ÓÃ»§»¹¿ÉÒÔÊ¹ÓÃÏµÍ³º¯Êý»ò×Ô¶¨Òåº¯Êý·ÖÎö²éÑ¯¼Æ»®£¬ÓÅ»¯¹¤×÷¸ºÔØ¡£±¾ÕÂ½«½éÉÜSpark SQLÖÐµÄºËÐÄ¸ÅÄî£¬½ÏÉÙÉæ¼°ANSIª²SQL¹æ·¶»ò¾ßÌåµÄSQL±í´ïÊ½¡£SQL¹æ·¶µÈÇë²Î¿¼Ïà¹ØÎÄµµ¡£

Spark SQLÓÃÓÚÖ´ÐÐSQL²éÑ¯£¬¿ÉÒÔ´ÓJDBC/ODBCÊý¾ÝÔ´»òHiveµÈÊý¾Ý²Ö¿âÖÐ¶ÁÈ¡Êý¾Ý£¬¿ÉÒÔ½«²éÑ¯½á¹ûÒÔDataset/DataFrameµÄÐÎÊ½·µ»Ø¸øÆäËû±à³ÌÓïÑÔ½Ó¿Ú¡£

Êý¾Ý¼¯DatasetÊÇ·Ö²¼Ê½Êý¾Ý¼¯ºÏ£¬ÊÇSpark 1.6°æ±¾ÖÐÌí¼ÓµÄ½Ó¿Ú£¬¼¯³ÉÁËRDDµÄÓÅµã(Ç¿ÀàÐÍ¡¢Ê¹ÓÃlambdaº¯Êý)ºÍSpark SQLÒýÇæÓÅ»¯Ö´ÐÐµÄÓÅµã¡£Dataset¿ÉÒÔ´ÓJVM¶ÔÏó¹¹Ôì£¬Ê¹ÓÃ×ª»»º¯Êý½øÐÐ²Ù×÷¡£Dataset APIÌá¹©Scala
ºÍJava½Ó¿Ú¡£

Êý¾ÝÖ¡DataFrameÊÇÔªËØÀàÐÍÎªRowµÄDataset£¬¸ÅÄîÉÏµÈÐ§ÓÚ¹ØÏµÊý¾Ý¿âÖÐµÄ±í£¬µ«Ôö¼ÓÁË¸ü¶àµÄÓÅ»¯¡£DataFrame¿ÉÒÔ´Ó¶àÖÖÊý¾ÝÔ´¹¹½¨£¬Èç£¬½á¹¹»¯µÄÊý¾ÝÎÄ¼þ¡¢HiveÖÐµÄ±í¡¢Íâ²¿Êý¾Ý¿â»òÒÑÓÐRDDµÈ¡£ÔÚScala APIÖÐ£¬DataFrameÖ»ÊÇDataset£ÛRow£ÝµÄÒ»¸ö±ðÃû¡£

5.1Spark SQL»ù´¡
5.1.1¸ÅÊö

Ò×ÓÃÐÔÊÇSparkÁ÷ÐÐµÄÔ­ÒòÖ®Ò»¡£Spark Ìá¹©ÁËÒ»¸ö±ÈHadoop MapReduce¸ü¼òµ¥µÄ±à³ÌÄ£ÐÍÀ´´¦Àí´óÊý¾Ý¡£ÓëSQL¿ª·¢Ïà±È£¬¾«Í¨SparkºËÐÄAPIµÄ¿ª·¢ÈËÔ±ÒªÉÙºÜ¶à¡£

SQLÊÇÓÃÓÚ´¦ÀíÊý¾ÝµÄÒ»ÖÖANSI/ISO±ê×¼ÓïÑÔ£¬²»½ö¿ÉÒÔ´æ´¢¡¢ÐÞ¸ÄºÍ¼ìË÷Êý¾Ý£¬»¹¿ÉÒÔ·ÖÎöÊý¾Ý¡£Ïà±ÈScala¡¢Java»òPythonµÈÍ¨ÓÃ±à³ÌÓïÑÔ£¬SQL¸üÈÝÒ×Ñ§Ï°ºÍÊ¹ÓÃ¡£SQLÍ¬Ê±¾ßÓÐÇ¿´óµÄÊý¾Ý´¦ÀíÄÜÁ¦£¬ÊÇÊý¾Ý·ÖÎöµÄÖ÷Òª¹¤¾ßÖ®Ò»¡£

HiveQLÊÇÒ»ÖÖÓëSQLÀàËÆµÄÓïÑÔ£¬ÔÚHadoopÖÐ¹ã·ºÊ¹ÓÃ£¬ÊÇHadoop MapReduceµÄÊ×Ñ¡½Ó¿ÚÖ®Ò»¡£ÔÚSparkáÈÆðÖ®Ç°£¬HiveÊÇÊÂÊµÉÏµÄ´óÊý¾ÝSQL·ÃÎÊ²ã¡£Hive×î³õÓÉFacebook¿ª·¢£¬ºóÀ´³ÉÎª´óÊý¾ÝÒµ½ç·Ç³£ÊÜ»¶Ó­µÄ¹¤¾ß¡£Spark×î³õÊÇRDDÍ¨ÓÃ´¦ÀíÒýÇæ£¬ÒòsqlContext½Ó¿ÚÖ§³ÖSQL×Ó¼¯¶ø¿ìËÙ·¢Õ¹£¬Spark 1.xÖÐµÄHiveContext½Ó¿ÚÖ§³ÖHiveµÄ¾ø´ó¶àÊý¹¦ÄÜ¡£Spark 2.0°æ±¾ÊÇHiveµÄ³¬¼¯£¬ÆäÖÐÄÚÖÃSQL½âÎöÆ÷£¬Í¬Ê±Ö§³ÖANSIª²SQLºÍHiveQL²éÑ¯¡£

Spark SQLµÄÇ¿´ó¹¦ÄÜ±íÏÖÔÚ¶à¸ö·½Ãæ£º SQL·ÖÎöÊ¦¿ÉÒÔÍ¨¹ý½ÓÈëThrift·þÎñÆ÷»òSparkµÄSQL½Ó¿ÚÀ´ÀûÓÃSparkµÄ¼ÆËãÄÜÁ¦£» ¶øÊý¾Ý¹¤³ÌÊ¦ºÍ¿ÆÑ§¼Ò¿ÉÒÔÍ¨¹ýÈÎÒ»SparkÖ§³ÖµÄ±à³ÌÓïÑÔ£¬Ê¹ÓÃSpark SQL±à³Ì½Ó¿Ú(ÈçSparkSession¶ÔÏóµÄ¸÷·½·¨)½øÐÐÓ¦ÓÃ¿ª·¢£» ´ËÍâ£¬DataFrame»¹¿ÉÒÔ´«µÝ¸øSpark MLlib(»úÆ÷Ñ§Ï°¿â)ÖÐµÄ¸÷¸ö»úÆ÷Ñ§Ï°Ëã·¨£¬½øÐÐ»úÆ÷Ñ§Ï°Ó¦ÓÃ¿ª·¢¡£

Spark SQLÖ¼ÔÚ×÷ÎªOLAP(Áª»ú·ÖÎö´¦Àí)Êý¾Ý¿âÔËÐÐ£¬¶ø²»ÊÇ×÷Îª OLTP(Áª»úÊÂÎñ´¦Àí)Êý¾Ý¿âÔËÐÐ£¬²»ÊÊºÏ·Ç³£µÍÑÓ³ÙµÄ²éÑ¯¡£





5.1.2Spark SQL¼Ü¹¹

Spark SQLÊÇ»ùÓÚSparkºËÐÄÖ´ÐÐÒýÇæµÄ¿â£¬Æä¼Ü¹¹ÈçÍ¼5ª²1ËùÊ¾¡£



Í¼5ª²1Spark SQL¼Ü¹¹


Spark SQLÊÇÔÚSpark CoreÖ´ÐÐÒýÇæÖ®ÉÏÔËÐÐµÄ¿â£¬Ìá¹©ÁË±ÈSparkºËÐÄAPI¸ü¸ß²ãµÄ³éÏóÀ´´¦Àí½á¹¹»¯Êý¾Ý¡£½á¹¹»¯Êý¾Ý°üÀ¨´æ´¢ÔÚ¹ØÏµÊý¾Ý¿â¡¢NoSQLÊý¾Ý¿â¡¢Parquet¡¢ORC¡¢Avro¡¢JSON¡¢CSV»òÈÎºÎÆäËû½á¹¹»¯ÐÎÊ½µÄÊý¾Ý¡£Spark SQL²»½öÎªSparkÌá¹©SQL½Ó¿Ú£¬Ê¹Spark¸üÒ×ÓÚÊ¹ÓÃ£¬»¹¿ÉÔÚÌáÉýSparkÓ¦ÓÃ³ÌÐòÔËÐÐËÙ¶ÈµÄÍ¬Ê±£¬Ìá¸ß¿ª·¢ÈËÔ±µÄ¹¤×÷Ð§ÂÊ¡£





Spark SQL¿ÉÓÃ×÷Scala¡¢Java¡¢Python»òRÓ¦ÓÃ³ÌÐòµÄÊý¾Ý´¦Àí¿ª·¢¿â£¬Ö§³Ö¶àÖÖ²éÑ¯ÓïÑÔ£¬°üÀ¨SQL¡¢HiveQLºÍÓïÑÔ¼¯³É²éÑ¯¡£´ËÍâ£¬»¹¿ÉÒÔ½öÍ¨¹ýSQL/HiveQL½øÐÐ½»»¥Ê½·ÖÎö¡£

Spark SQLÊ¹ÓÃJDBC/ODBCÎªÊý¾Ý²Ö¿âÓ¦ÓÃ³ÌÐòÌá¹©SQL½Ó¿Ú£¬»òÍ¨¹ýÃüÁîÐÐ¿ØÖÆÌ¨Ìá¹©SQL½»»¥²éÑ¯½Ó¿Ú¡£ÈÎºÎÉÌÒµÖÇÄÜ(Business Intelligence£¬BI)¹¤¾ß¶¼¿ÉÒÔÁ¬½Óµ½Spark SQL£¬ÔÚÄÚ´æÖÐÖ´ÐÐ·ÖÎö¡£¿É»ùÓÚAPI½øÐÐJava¡¢Scala¡¢Python»òRÓ¦ÓÃ³ÌÐò¿ª·¢£¬ÓÃ»§Ê¹ÓÃÊý¾ÝÔ´(Data Source)API¶ÁÐ´¶àÖÖÊý¾Ý£¬´´½¨Dataset/DataFrame¡£Í¼5ª²1
ÖÐÒ²ÏÔÊ¾ÁË´«Í³µÄ»ùÓÚSpark coreºÍRDD½øÐÐ¿ª·¢µÄ²Ù×÷·½Ê½¡£

5.1.3Ò»¸ö¼òµ¥µÄSpark SQL¿ª·¢Àý×Ó

ÒÔÏÂ´úÂëÕ¹Ê¾´ÓJSONÎÄ¼þ´´½¨DataFrame£¬²¢ÏÔÊ¾ÆäÄÚÈÝ£º 

/**

* SimpleSparkSqlApp.scala

*

* This example illustrates SparkSession / DataFrame

*

* @author Rujun Cao

* @date   2022/10/00

*/

package cn.edu.wzu.SparkExample

// SparkSessionÀàÊÇËùÓÐDataset/DataFrameº¯ÊýµÄÈë¿Úµã

import org.apache.spark.sql.SparkSession



object SimpleSparkSqlApp {

def main(args: Array£ÛString£Ý): Unit = {

// SparkSession.builder()´´½¨SparkSession

// ÔÚSpark shell (REPL)ÖÐÒÑ¾­´´½¨(ÎÞÐëÔÙ´Î´´½¨)£¬Ãû³ÆÎªspark

val spark = SparkSession.builder()

.appName("Simple Spark SQL example")

// ÉèÖÃÌØ¶¨µÄÅäÖÃÐÅÏ¢. ´Ë´¦½öÎªÊ¾Àý

.config("spark.some.config.option", "some-value")

// ´úÂëµ÷ÓÃ getOrCreate ·½·¨»ñÈ¡ÒÑÓÐ»òÐÂ½¨µÄsession¶ÔÏó

.getOrCreate()



// ´ÓJSONÎÄ¼þ´´½¨DataFrame

val df = spark.read.json("../tmp/person.json")

// ½«DataFrame µÄÄÚÈÝÊä³ö(µ½stdout)

df.show()

spark.stop()

}

}

JSONÎÄ¼þperson.jsonÄÚÈÝÊ¾ÀýÈçÏÂ£º 

{"name":"Michael"}

{"name":"Andy", "age":30}

{"name":"Justin", "age":19}

{"name":"Zhaoliu", "age":19, "gender":"male"}

ÔÚ½»»¥Ê½shellÖÐ¼ÓÔØJSONÎÄ¼þ²¢ÏÔÊ¾ÄÚÈÝµÄÖ´ÐÐÐ§¹û£¬ÈçÍ¼5ª²2ËùÊ¾¡£



Í¼5ª²2ÔÚSpark shellÖÐÔËÐÐ³ÌÐò


5.2Êý¾ÝÖ¡DataFrame

DataFrameÔÚSparkÓ¦ÓÃ³ÌÐòÖÐ·Ç³£ÖØÒª£¬ËüÍ¨¹ýÄ£Ê½(schema)À´°üº¬ÀàÐÍ»¯µÄÊý¾Ý£¬²¢Ìá¹©¹¦ÄÜÇ¿´óµÄAPI¡£

×÷ÎªÒ»¸ö·Ö²¼Ê½·ÖÎöÒýÇæ£¬SparkÔÚÄ³ÖÖ³Ì¶ÈÉÏÀàËÆÓÚÒ»¸ö²Ù×÷ÏµÍ³£¬Ìá¹©ÁË¹¹½¨Ó¦ÓÃ³ÌÐòºÍ¹ÜÀí×ÊÔ´ËùÐèµÄËùÓÐ·þÎñ(Î¬»ù°Ù¿Æ¶¨Òå²Ù×÷ÏµÍ³Îª¡°¹ÜÀí¼ÆËã»úÓ²¼þºÍÈí¼þ×ÊÔ´£¬²¢Îª¼ÆËã»ú³ÌÐòÌá¹©¹«¹²·þÎñµÄÏµÍ³Èí¼þ¡±)¡£ÈôÒªÒÔ±à³Ì·½Ê½Ê¹ÓÃSpark£¬ÔòÐèÒªÁË½âÆäÖÐÒ»Ð©¹Ø¼üµÄAPI¡£ÒªÖ´ÐÐ·ÖÎöºÍÊý¾Ý²Ù×÷£¬SparkÐèÒªÂß¼­(ÔÚÓ¦ÓÃ³ÌÐò²ã)´æ´¢ºÍÎïÀí(ÔÚÓ²¼þ²ã)´æ´¢¡£ÔÚÂß¼­²ã£¬SparkÁ÷ÐÐµÄ´æ´¢ÈÝÆ÷ÊÇÀàËÆÓÚ¹ØÏµ±íµÄDataFrame¡£

DataFrame¼ÈÊÇÊý¾Ý½á¹¹£¬Ò²ÊÇAPI£¬¿ÉÓÃÓÚSpark SQL¡¢Spark Streaming¡¢MLlib(ÓÃÓÚ»úÆ÷Ñ§Ï°)£¬²¢¿ÉÓÃÓÚ²Ù×÷»ùÓÚÍ¼½á¹¹Êý¾ÝµÄGraphX¡£

5.2.1DataFrame½á¹¹
1. DataFrameÊý¾Ý×éÖ¯

DataFrameÊÇ¶Ô¸÷ÁÐÃüÃûµÄ¼ÇÂ¼¼¯£¬µÈÐ§ÓÚ¹ØÏµÊý¾Ý¿âÖÐµÄ±í»òJavaÖÐµÄResultSet¡£Êý¾ÝÒÔ·ÖÇøµÄÐÎÊ½´æ´¢£¬ÈçÍ¼5ª²3
ËùÊ¾¡£



Í¼5ª²3DataFrame½á¹¹


Í¼5ª²4¸ø³öÁËÒ»¸öDataFrameµÄ¾ßÌåÊ¾Àý£º Ò»¸ö´øÓÐÄ£Ê½¼°Êý¾ÝµÄDataFrame£¬ÃüÃûÁÐÃèÊöÊý¾ÝµÄÊôÐÔ(°üº¬Êý¾ÝÀàÐÍ)£¬Êý¾ÝÊÇÐÐ(Row)µÄ¼¯ºÏ£¬´æ´¢ÓÚ·ÖÇøÖÐ¡£



Í¼5ª²4DataFrameµÄÐÐÓëÁÐ½á¹¹


2. Row

Row(ÐÐ)ÊÇÓÃÓÚ±íÊ¾Ò»ÐÐÊý¾ÝµÄSpark SQL³éÏó¡£´Ó¸ÅÄîÉÏ½²£¬µÈÐ§ÓÚ±íÖÐµÄ¹ØÏµÔª×é»òÐÐ¡£Row¶ÔÏóÊÇ½«Êý¾Ý´«ÈëºÍ´«³öSparkµÄ»ù±¾·½·¨£¬ÔÚ¸÷ÖÖSpark¿ª·¢ÓïÑÔ»·¾³ÖÐ¶¼¿ÉÒÔÊ¹ÓÃ¡£DataFrameÖÐµÄÃ¿Ìõ¼ÇÂ¼¶¼±ØÐëÊÇRowÀàÐÍ¡£Row¹¹ÔìÊ¾Àý´úÂëÈçÏÂ£º 

spark.range(2).toDF().collect()

Spark SQLÌá¹©ÁËÓÃÓÚ´´½¨Row¶ÔÏóµÄ¹¤³§·½·¨¡£Ê¾Àý´úÂëÈçÏÂ£º 

import org.apache.spark.sql.Row

val row1 = Row("Joe Biden", "President", "US")

val row2 = Row("Rishi Sunak", "Prime Minister", "UK")

µ±·ÃÎÊÐÐ¶ÔÏóµÄÊý¾ÝÊ±£¬½öÐèÒªÖ¸¶¨´ý·ÃÎÊµÄÎ»ÖÃ¡£ÓÉÓÚSparkÎ¬»¤×Ô¼ºµÄÄÚ²¿ÀàÐÍÐÅÏ¢£¬Òò´ËÔÚÊ¹ÓÃÊ±±ØÐëÊÖ¶¯½«Æä×ª»»ÎªÕýÈ·µÄ¿ÉÊ¹ÓÃµÄÀàÐÍ¡£

row1(1)// type any

row1.getString(1)// type String

3. Column

Column(ÁÐ)¼È¿ÉÒÔ±íÊ¾¼òµ¥Êý¾ÝÀàÐÍ(ÈçÕûÊý»ò×Ö·û´®)£¬Ò²¿ÉÒÔ±íÊ¾¸´ºÏÀàÐÍ(ÈçÊý×é»òÓ³Éä)»òÕß¿Õ(null)Öµ¡£Spark»á¼ÇÂ¼ËùÓÐÕâÐ©ÀàÐÍÐÅÏ¢£¬²¢Ìá¹©¶àÖÖÁÐ×ª»»·½·¨¡£

ÔÚ´ó¶àÊýÇé¿öÏÂ£¬¿ÉÒÔ½«Spark ColumnÀàÐÍÊÓÎª±íÖÐµÄÁÐ¡£ÁÐµÄ¼ÆËã»ùÓÚÊý¾ÝÖ¡ÖÐµÄÊý¾Ý£¬¿ÉÒÔ´ÓÖÐ½øÐÐÑ¡Ôñ¡¢²Ù×÷ºÍÉ¾³ýÁÐµÈ(ÕâÐ©²Ù×÷¾ùÎª±í´ïÊ½)¡£¶ÔÁÐ½øÐÐ²Ù×÷ÐèÒªÓÐRow¶ÔÏó£¬¶øRowµÄ´æÔÚÔòÒÔDataFrameÎª»ù´¡£¬Ò²¾ÍÊÇËµ£¬²»ÄÜÔÚDataFrameÖ®Íâ²Ù×÷Êµ¼ÊµÄÁÐ£¬Ö»ÄÜ²Ù×÷Âß¼­ÁÐµÄ±í´ïÊ½£¬È»ºóÔÚDataFrameÉÏÖ´ÐÐ¸Ã±í´ïÊ½¡£

Column¹¹ÔìÊ¾Àý£º 

import org.apache.spark.sql.functions.{col, column}

val col1 = col("column1")

val col2 = column("column2")

$"columnName"// ScalaÖÐÃüÃûÁÐµÄ¼òÐ´·¨

¿ÉÒÔ»ùÓÚ±í´ïÊ½¹¹ÔìÁÐ£º 

val col3 = $"a" + 1

»ùÓÚÒÑÓÐDataFrame¹¹Ôì»òÒýÓÃÁÐ£º 

val df = spark.range(1, 50, 2).toDF()

val id = df("id")

Row¶ÔÏóÖÐÁÐµÄÖµ¿ÉÒÔÊ¹ÓÃÁÐÐòºÅ½øÐÐ·ÃÎÊ£¬Èç£º 

val presidentName = row1.getString(0)

val country = row2.getString(2)

×¢Òâ£º Column½ö½öÊÇ±í´ïÊ½£¬¿ÉÄÜ´æÔÚÓÚÊý¾ÝÖ¡ÖÐ£¬Ò²¿ÉÄÜ²»´æÔÚ¡£ÔÚ¶ÔÁÐÃû³ÆÓëÄ¿Â¼ÖÐÎ¬»¤µÄÁÐÃû³Æ½øÐÐ±È½ÏÖ®Ç°£¬Spark²»»á½âÎöÁÐ¡£

4. Schema

Schema(Ä£Ê½)¶¨ÒåDataFrameµÄÁÐÃû³ÆºÍÀàÐÍ¡£¿ÉÒÔÖ±½ÓÊ¹ÓÃÊý¾ÝÔ´µÄSchema£¬Ò²¿ÉÒÔÏÔÊ½×Ô¶¨ÒåSchema¡£

SchemaÊÇÓÉ¶à¸öStructField(½á¹¹×Ö¶Î)×é³ÉµÄStructType(½á¹¹ÀàÐÍ)£¬ÕâÐ©×Ö¶Î¾ßÓÐÃû³Æ¡¢ÀàÐÍºÍ²¼¶û±êÖ¾(ÓÃÓÚÖ¸¶¨¸ÃÁÐÊÇ·ñ¿ÉÒÔ°üº¬È±Ê§Öµ»ò¿ÕÖµ)¡£ÔËÐÐÒÔÏÂÃüÁîºó½á¹ûÈçÍ¼5ª²5ËùÊ¾¡£

spark.read.format("json").load("../tmp/person.json").schema





Í¼5ª²5DataFrameµÄSchemaÊ¾Àý


5.2.2´´½¨DataFrame

Ê¹ÓÃSparkSession£¬Ó¦ÓÃ³ÌÐò¿ÉÒÔ´ÓÒÑÓÐµÄRDD¡¢Hive±í»òSparkÊý¾ÝÔ´´´½¨DataFrame¡£

´ÓÒÑÓÐRDD´´½¨DataFrameÖ÷ÒªÉæ¼°SparkSessionÀàµÄcreateDataFrame·½·¨£» ´ÓSparkÊý¾ÝÔ´´´½¨ÔòÖ÷ÒªÊÇ»ùÓÚDataFrameReaderÀàÌá¹©µÄ·½·¨£¬»òDataStreamReaderÀàµÄ·½·¨£¬»òÊÇSQL²éÑ¯µÄ½á¹û¡£´ËÍâ£¬SparkSession»¹Ìá¹©ÁË´´½¨¿ÕÊý¾ÝÖ¡µÄ·½·¨emptyDataFrame¡£

1. ´ÓDataset´´½¨DataFrame

¿ÉÒÔÖ±½Ó½«Dataset×ª»»ÎªDataFrame£¬ÀýÈç£¬ÔËÐÐÒÔÏÂÃüÁîºó½á¹ûÈçÍ¼5ª²6ËùÊ¾£º 

// spark.range¹¹ÔìDataset£¬toDF·½·¨×ª»»ÎªDataFrame

val df = spark.range(1, 50, 2).toDF()




Í¼5ª²6½«Dataset×ª»»ÎªDataFrame


2. ´ÓÊý¾ÝÔ´´´½¨DataFrame

¿ÉÒÔ´Ó¸÷½á¹¹»¯µÄÊý¾ÝÔ´Ö±½Ó´´½¨DataFrame£¬ÀýÈç£¬»ùÓÚJSONÎÄ¼þÄÚÈÝ´´½¨£º 

val df = spark.read.json("../tmp/person.json")

// »òÕß

val df = spark.read.format("json").load("../tmp/person.json")

// ´´½¨ÊÓÍ¼ÒÔÖ§³ÖSQL²éÑ¯

df.createOrReplaceTempView("dfTable") 


´Ó¸ü¶àÊý¾ÝÔ´´´½¨DataFrameµÈÄÚÈÝ£¬Çë²Î¿¼±¾ÕÂºóÐøÄÚÈÝ¡£

3. ´ÓRDD´´½¨DataFrame

ÎªÁË½«ÒÑÓÐµÄRDD×ª»»ÎªDataFrame£¬Spark SQLÌá¹©ÁËÁ½Àà²»Í¬·½·¨¡£µÚÒ»Àà·½·¨Ê¹ÓÃ·´Éä(reflection)À´ÍÆ¶Ï°üº¬ÌØ¶¨ÀàÐÍ¶ÔÏóµÄRDDÄ£Ê½¡£Èç¹ûÔÚ±àÐ´SparkÓ¦ÓÃ³ÌÐòÊ±Ä£Ê½ÒÑÖª£¬Ôò»ùÓÚ·´ÉäµÄ·½·¨´úÂë¸ü¼ò½à¡£µÚ¶þÀà·½·¨Ê¹ÓÃ±à³Ì½Ó¿Ú¹¹ÔìÄ£Ê½£¬ÔÙ½«Ä£Ê½Ó¦ÓÃÓÚRDD¡£ÕâÖÖ·½·¨±È½Ï·³Ëö£¬µ«ÔÚÄ£Ê½(ÁÐ¼°ÆäÀàÐÍ)Î´ÖªÊ±ÈÔ¿ÉÒÔ¹¹ÔìÊý¾Ý¼¯¡£

ÕâÁ½Àà·½·¨ËùÊ¹ÓÃµÄ¾ßÌå·½·¨Ãû³Æ·Ö±ðÊÇtoDFºÍcreateDataFrame¡£

(1) »ùÓÚ·´ÉäÍÆ¶ÏRDDÄ£Ê½¡£Spark SQLµÄScala½Ó¿ÚÖ§³Ö½«°üº¬ÑùÀýÀà(case class)µÄRDD×Ô¶¯×ª»»ÎªDataFrame¡£ÑùÀýÀà¶¨ÒåÆäÄ£Ê½£¬Àà²ÎÊýÃû³ÆÓ³ÉäÎªÁÐÃû³Æ¡£ÑùÀýÀàÒ²¿ÉÒÔÇ¶Ì×»ò°üº¬¸´ºÏÀàÐÍ£¬ÈçSeq »òArray¡£RDD¿ÉÒÔÒþÊ½×ª»»ÎªDataFrame£¬È»ºó×¢²áÎª±í(table)¡£±í¿ÉÒÔÔÚºóÐøµÄSQLÓï¾äÖÐÊ¹ÓÃ¡£ÀýÈç£¬ÔËÐÐÒÔÏÂ´úÂëºó½á¹ûÈçÍ¼5ª²7ËùÊ¾¡£

// RDDµ½DataFrameÒþÊ½×ª»»ÒÀÀµ°ü

import spark.implicits._

// ÑùÀýÀà

case class Person(name: String, age: Long)

// ´ÓÎÄ±¾ÎÄ¼þ´´½¨RDD(Person ¶ÔÏó¼¯ºÏ)£¬×ª»»ÎªDataFrame

val peopleDF = spark.sparkContext

.textFile("../tmp/people.txt")

.map(ln=> {val p = ln.split(","); Person(p(0), p(1).trim.toInt)})

.toDF()

// ½«DataFrame×¢²áÎªÁÙÊ±ÊÓÍ¼£¬ÒÔÖ§³ÖSQL²Ù×÷

peopleDF.createOrReplaceTempView("people")




Í¼5ª²7·´ÉäÍÆÀíRDDÄ£Ê½Ê¾Àý


(2) ±à³Ì¶¨ÒåRDDÄ£Ê½¡£µ±ÎÞ·¨Ô¤ÏÈ¶¨ÒåÑùÀýÀàÊ±(Èç£¬¼ÇÂ¼µÄ½á¹¹±»±àÂëÎª×Ö·û´®£¬½«½âÎöÎÄ±¾Êý¾Ý¼¯£¬»òÕß²»Í¬ÓÃ»§ÒÔ²»Í¬µÄ·½Ê½¶Ô×Ö¶Î½øÐÐÍ¶Ó°µÈ)£¬¿ÉÒÔÓÃ±à³Ì·½Ê½´´½¨DataFrame¡£Ö÷Òª°üÀ¨3¸ö²½Öè£º 

¢Ù ´ÓÔ­Ê¼RDD´´½¨Row(ÐÐ)RDD£» 

¢Ú ´´½¨ÓÉ½á¹¹ÀàÐÍStructType±íÊ¾µÄSchema£¬ÓëRow½á¹¹ÏàÆ¥Åä£» 

¢Û Í¨¹ýSparkSessionÌá¹©µÄcreateDataFrame·½·¨½«SchemaÓ¦ÓÃÓÚRow RDD¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²8ËùÊ¾¡£

import org.apache.spark.sql.Row

import org.apache.spark.sql.types._



// ´´½¨Ò»¸öRDD, ½«ÆäÔªËØ×ª»»ÎªRow

val rowRDD = spark.sparkContext.textFile("../tmp/people.txt")

.map(ln=> {val p = ln.split(","); Row(p(0), p(1).trim)})



// schemaÊÇ±àÂë×Ö·û´®

val schemaString = "name age"

// »ùÓÚ×Ö·û´®Éú³Éschema

val fields = schemaString.split(" ")

.map(field=> StructField(field, StringType, nullable=true))

val schema = StructType(fields)

// ½«Ä£Ê½Ó¦ÓÃÓÚRDD

val peopleDF = spark.createDataFrame(rowRDD, schema)

// ½«DataFrame×¢²áÎªÁÙÊ±ÊÓÍ¼£¬ÒÔÖ§³ÖSQL²Ù×÷

peopleDF.createOrReplaceTempView("people")

// SQL²âÊÔ£ºÐÕÃû¡¢ÄêÁä²éÑ¯

val results = spark.sql("SELECT name, age FROM people")

results.show(5)



Í¼5ª²8×Ô¶¨ÒåRDDÄ£Ê½Ê¾Àý


ÌáÊ¾£º ÊÇ·ñÐèÒªÊ¹ÓÃ×Ô¶¨ÒåSchema¶ÁÈ¡Êý¾Ý£¬È¡¾öÓÚÓ¦ÓÃ³¡¾°¡£½«SparkÓÃÓÚETLÊ±£¬×îºÃÊÖ¶¯¶¨ÒåSchema£¬ÓÈÆäÊÇÔÚÊ¹ÓÃCSV¡¢JSONµÈ·ÇÀàÐÍ»¯Êý¾ÝÔ´Ê±£¬ÒòÎªSchemaÍÆ¶Ï¿ÉÄÜÒòËù¶ÁÈ¡µÄÊý¾ÝÀàÐÍ¶ø±ä»¯¡£

5.2.3DataFrame³£ÓÃ²Ù×÷

ÓëRDDÀàËÆ£¬DataFrameÖ§³ÖÐí¶à²Ù×÷£¬ÒÔÏÂ¸ø³ö²¿·Ö³£ÓÃ²Ù×÷¡£

1. select/selectExpr

select/selectExpr¶ÔDataFrameÖ´ÐÐÏàµ±ÓÚSQLµÄÊý¾Ý²éÑ¯£¬ÔÊÐí²Ù×÷Êý¾ÝÖ¡ÖÐµÄÁÐ¡£×î¼òµ¥µÄ·½·¨ÊÇ½«ÁÐÃû×Ö·û´®×÷Îªselect·½·¨µÄ²ÎÊý¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²9ËùÊ¾¡£

val df = spark.read.format("json").load("../tmp/person.json")

df.select("name", "age").show(5)





Í¼5ª²9select²Ù×÷


¿ÉÒÔÊ¹ÓÃ²»Í¬µÄ·½Ê½ÒýÓÃÁÐ£¬¸øÁÐ±í´ïÊ½Ó¦ÓÃ±ðÃûµÈ£¬Èç£º 

df.select(df.col("name"), col("gender"), expr("age")+2).show(5)

selectºó¸úexprµÄÓÃ·¨£¬¼òÐ´ÎªselectExpr¡£ÒÔÏÂÁ½ÌõÓï¾äµÈ¼Û£¬ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²10ËùÊ¾¡£

df.select($"name", expr("age+2 AS age_after_two_years")).show(5)

df.selectExpr("name", "age+2 AS age_after_two_years").show(5)





Í¼5ª²10selectExpr²Ù×÷


¿ÉÒÔÔÚÁÐ±í´ïÊ½ÖÐÓ¦ÓÃ¾ÛºÏº¯Êý£¬ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²11ËùÊ¾¡£

df.selectExpr("avg(age+2)", "count(distinct(gender))").show()




Í¼5ª²11selectExpr²Ù×÷ÖÐµÄ¾ÛºÏº¯Êý


×¢Òâ£º ²»ÒªÔÚselectÖÐ»ìºÏÁÐ¶ÔÏóÓëÁÐÃû×Ö·û´®¡£

2. withColumn

withColumn·½·¨Ìí¼ÓÐÂÁÐ»òÌæ»»Ô´Êý¾ÝÖ¡ÖÐµÄÁÐ£¬·µ»ØÐÂµÄDataFrame¡£¸Ã·½·¨ÐèÒªÁ½¸ö²ÎÊý£º µÚÒ»¸ö²ÎÊýÊÇÐÂÁÐµÄÃû³Æ£¬µÚ¶þ¸ö²ÎÊýÊÇÓÃÓÚÉú³ÉÐÂÁÐÖµµÄ±í´ïÊ½¡£Èç¹ûÁÐÃû³Æ²ÎÊýÓëÒÑÓÐÁÐÃû³ÆÏàÍ¬£¬ÔòÌæ»»Ô­ÓÐÁÐ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
2ËùÊ¾¡£

val df2 = df.select(expr("*"), lit(1).alias("One"))

df2.withColumn("age_1", $"age" + $"One").show(5)



Í¼5ª²12withColumn²Ù×÷


3. withColumnRenamed

withColumnRenamed·½·¨ÖØÃüÃûÁÐ¡£Èç£¬

df2.withColumnRenamed("age_plus_1", "age_1")

ÌáÊ¾£º Ê¹ÓÃwithColumn·½·¨Ò²¿ÉÒÔÖØÃüÃûÁÐ¡£

4. drop

drop·½·¨É¾³ýÁÐ¡£Èç¹ûÍ¬Ê±É¾³ý¶à¸öÁÐ£¬ÓÃ¶ººÅ·Ö¸ô´ýÉ¾³ýµÄÁÐÃû³Æ¡£É¾³ýµ¥¸öÁÐÊ±£¬¿ÉÒÔÊ¹ÓÃÁÐÃû³Æ£¬Ò²¿ÉÒÔÊ¹ÓÃÁÐ¶ÔÏó¡£´úÂëÊ¾ÀýÈçÏÂ£º 

df2.drop($"One")

df2.drop("age_plus_1", "One")

5. printSchema

printSchema·½·¨ÔÚ¿ØÖÆÌ¨ÉÏÒÔÊ÷×´ÐÎÊ½´òÓ¡DataFrameµÄÄ£Ê½schema¡£Èç¹ûÒª¿ØÖÆÊä³öÊ÷µÄÉî¶È£¬¿É´«µÝÊ÷²ã´Î²ÎÊý¡£²»Ö¸¶¨²ãÊýÊ±£¬Êä³öÕû¸öÊ÷½á¹¹¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²13ËùÊ¾¡£

df.printSchema(2)





Í¼5ª²13printSchema²Ù×÷


6. createTempView/createOrReplaceTempView

¶ÔDataFrameÊ¹ÓÃspark.sqlº¯ÊýÖ´ÐÐSQL²éÑ¯Ç°£¬ÐèÒª½«Æä×ª»»ÎªÊý¾Ý±í»òÊÓÍ¼¡£

createTempViewÊ¹ÓÃ¸ø¶¨Ãû³Æ´´½¨±¾µØÁÙÊ±ÊÓÍ¼¡£´ËÁÙÊ±ÊÓÍ¼µÄÉú´æÆÚÓëÓÃÓÚ´´½¨´ËÊý¾Ý¼¯µÄSparkSessionÏà¹ØÁª¡£±¾µØÁÙÊ±ÊÓÍ¼ÊÇ»á»°·¶Î§µÄ£¬ÆäÉú´æÆÚÊÇ´´½¨ËüµÄ»á»°µÄÉú´æÆÚ£¬»á»°ÖÕÖ¹Ê±½«×Ô¶¯É¾³ý¡£±¾µØÁÙÊ±ÊÓÍ¼²»°ó¶¨µ½ÈÎºÎÊý¾Ý¿â£¬²»ÄÜÊ¹ÓÃdb1.view1À´ÒýÓÃ±¾µØÁÙÊ±ÊÓÍ¼¡£

µ±ÁÙÊ±ÊÓÍ¼ÒÑ´æÔÚÊ±£¬createOrReplaceTempView¸üÐÂ±¾µØÁÙÊ±ÊÓÍ¼¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
4ËùÊ¾¡£

df2.createOrReplaceTempView("person") 

spark.sql("select * from person order by age desc").show(5)





Í¼5ª²14createOrReplaceTempView²Ù×÷


7. createGlobalTempView/createOrReplaceGlobalTempView

createGlobalTempViewÊ¹ÓÃ¸ø¶¨Ãû³Æ´´½¨È«¾ÖÁÙÊ±ÊÓÍ¼¡£È«¾ÖÁÙÊ±ÊÓÍ¼µÄÉú´æÆÚÓëSparkÓ¦ÓÃ³ÌÐòÏà¹ØÁª¡£È«¾ÖÁÙÊ±ÊÓÍ¼ÊÇ¿ç»á»°µÄ£¬ÆäÉú´æÆÚÊÇSparkÓ¦ÓÃ³ÌÐòµÄÉú´æÆÚ£¬Ó¦ÓÃ³ÌÐòÖÕÖ¹Ê±×Ô¶¯É¾³ý¡£È«¾ÖÁÙÊ±ÊÓÍ¼ÓëÏµÍ³±£ÁôÊý¾Ý¿âglobal_tempÏà¹ØÁª£¬±ØÐëÊ¹ÓÃÏÞ¶¨Ãû³ÆÀ´ÒýÓÃÈ«¾ÖÁÙÊ±ÊÓÍ¼(Èç£¬SELECT * FROM global_temp.view1)¡£

createOrReplaceGlobalTempViewµ±È«¾ÖÁÙÊ±ÊÓÍ¼ÒÑ´æÔÚÊ±¸üÐÂÖ®£¬·ñÔò´´½¨¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
5ËùÊ¾¡£

df2.createOrReplaceGlobalTempView("people") 

spark.sql("SELECT * FROM global_temp.people").show(5)





Í¼5ª²15createOrReplaceGlobalTempView²Ù×÷


8. filter/where

¶ÔDataFrameµÄÐÐ½øÐÐ¹ýÂËÊ±£¬¿ÉÒÔÊ¹ÓÃ²¼¶û±í´ïÊ½£¬»òÖ±½ÓÖ¸¶¨Ìõ¼þ×Ö·û´®¡£Èç£¬

// ÒÔÏÂ3ÐÐÓï¾äµÈ¼Û

df2.filter("age < 20")

df2.filter(col("age") < 20)

df2.where($"age" < 20)

ÌáÊ¾£º µ±Ê¹ÓÃANDÁ¬½Ó¶à¸ö¹ýÂËÌõ¼þÊ±£¬³ýÁËÔÚÍ¬Ò»±í´ïÊ½ÖÐÖ¸¶¨¶à¸öÌõ¼þÍâ£¬Ò²¿ÉÒÔÊ¹ÓÃSparkµÄÁ´Ê½²Ù×÷(SparkÒýÇæ¿ÉÒÔ¸üÓÐÐ§µØ¶Ô²éÑ¯½øÐÐÓÅ»¯)£¬¼´£¬ÀàËÆÒÔÏÂµÄ²éÑ¯£¬ÓÅÏÈÑ¡ÔñºóÒ»ÖÖ·½Ê½£º 

df2.filter($"age" < 20    &&    $"name" <=> "Zhaoliu")

df2.filter($"age" < 20).filter($"name" <=> "Zhaoliu")

9. union

union·µ»ØÁ½¸öDataFrameµÄ²¢¼¯¡£Ö´ÐÐunion²Ù×÷µÄÁ½¸öDataFrame½á¹¹±ØÐëÏàÍ¬£º 

df2.union(df.withColumn("Two", lit(2))).show(5)

10. distinct

distinctÈ¥µôDataFrameÖÐµÄÖØ¸´ÐÐ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
6ËùÊ¾¡£

df2.union(df.withColumn("One", lit(1))).distinct().show(5)





Í¼5ª²16distinct²Ù×÷


11. sort/orderBy

¶ÔDataFrameµÄÐÐ½øÐÐÅÅÐò£¬¿ÉÒÔÊ¹ÓÃsort/orderByµÈ·½·¨¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
7ËùÊ¾¡£

df2.sort("age", "name")// ÓëorderByµÈÐ§

¿ÉÒÔÊ¹ÓÃascºÍdescº¯ÊýÖ¸¶¨ÅÅÐò·½Ïò£º 

val df3 = df2.union(df.withColumn("Two", lit(2)))

df3.orderBy(desc("age"), asc("One")).show(9)





Í¼5ª²17orderBy²Ù×÷


12. groupBy

groupBy·½·¨Ê¹ÓÃÖ¸¶¨µÄÁÐ²ÎÊý¶ÔDataFrameµÄÐÐ½øÐÐ·Ö×é£¬·µ»ØµÄ½á¹û¿ÉÓÃÓÚÊý¾Ý¾ÛºÏ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²18ËùÊ¾¡£

val genderGroup = df.groupBy("gender")

genderGroup.count().show()





Í¼5ª²18groupBy²Ù×÷


×¢Òâ£º groupBy·½·¨·µ»ØµÄ½á¹ûÊÇRelationalGroupedDataset£¬¶ø²»ÊÇDataFrame¡£ÀàËÆµØ£¬cube/rollup/pivot·½·¨Ò²·µ»ØRelationalGroupedDataset¡£¸ÃÀàÖ÷ÒªÓÃÓÚÊý¾Ý¾ÛºÏ(aggº¯Êý)¡¢Í³¼Æ(avg/mean/sum)µÈ¡£

13. agg

agg·½·¨¶ÔÔ´ÖÐDataFrameµÄÒ»ÁÐ»ò¶àÁÐÖ´ÐÐÖ¸¶¨µÄ¾ÛºÏ£¬·µ»Ø½á¹ûDataFrame¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²1
9ËùÊ¾¡£

df2.agg(max("age"), count("gender")).show(1)




Í¼5ª²19agg²Ù×÷


14. describe/summary

describe·½·¨¿ÉÓÃÓÚÌ½Ë÷ÐÔÊý¾Ý·ÖÎö¡£Ëü·µ»ØÔ´DataFrameÖÐÁÐµÄÍ³¼ÆÕªÒªÐÅÏ¢£¬°üÀ¨¼ÆÊý¡¢×îÐ¡Öµ¡¢×î´óÖµ¡¢Æ½¾ùÖµºÍ±ê×¼²î¡£·½·¨µÄÊäÈë²ÎÊýÎªÁÐÃû³Æ£¬Ëü²ÉÓÃÒ»ÁÐ»ò¶àÁÐµÄÃû³Æ×÷Îª²ÎÊý¡£Èç¹ûÎ´Ö¸¶¨²ÎÊý£¬Ôò¼ÆËãËùÓÐÁÐ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²20ËùÊ¾¡£

df2.describe().show()





Í¼5ª²20describe²Ù×÷


ÀàËÆµØ£¬summary·½·¨¼ÆËãÊýÖµÁÐºÍ×Ö·û´®ÁÐµÄÍ³¼ÆÐÅÏ¢¡£¿ÉÓÃÍ³¼ÆÁ¿°üÀ¨count¡¢mean¡¢stddev¡¢min¡¢max¡¢·ÖÎ»Êý¡¢count_distinct¡¢approx_count_distinctµÈ¡£Èç¹ûÎ´Ö¸¶¨²ÎÊý£¬Ôò¼ÆËãcount/mean/stddev/min/quartiles (percentiles at 25%,50%,and 75%)/max¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²21
ËùÊ¾¡£

df3.summary().show()





Í¼5ª²21summary²Ù×÷


×¢Òâ£º describe/summaryº¯Êý½öÓÃÓÚÌ½Ë÷ÐÔÊý¾Ý·ÖÎö£¬²»±£Ö¤ËùÉú³ÉµÄ½á¹ûÊý¾Ý¼¯schemaµÄÏòºó¼æÈÝÐÔ¡£Èç¹ûÒªÒÔ±à³Ì·½Ê½¼ÆËã»ã×ÜÍ³¼ÆÐÅÏ¢£¬ÔòÊ¹ÓÃaggº¯Êý¡£

15. na/¿ÕÖµÊý¾Ý´¦Àí

na·½·¨·µ»ØµÄDataFrameNaFunctions¿ÉÓÃÓÚDataFrameÖÐµÄ¿ÕÖµÊý¾Ý´¦Àí£¬Èç£¬Ìî³ä¡¢É¾³ýµÈ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë½á¹ûÈçÍ¼5ª²22
ËùÊ¾¡£

df2.na.fill("female", Array("gender")).show()

df2.na.drop(Array("age")).show()





Í¼5ª²22na²Ù×÷


·Ö±ðÌî³ä¶à¸ö×Ö¶ÎµÄÊ¾Àý´úÂëÈçÏÂ£º 

val valuesToFill = Map("age"-> 22, "gender"-> "X")

df2.na.fill(valuesToFill).show()

5.2.4±£´æDataFrame

Spark SQLÊ¹ÓÃÍ³Ò»½Ó¿Ú£¬½«DataFrameÐ´Èë¹ØÏµÊý¾Ý¿â¡¢NoSQLÊý¾Ý¿â»ò¸÷ÖÖ¸ñÊ½µÄÎÄ¼þ¡£¿ÉÒÔÊ¹ÓÃDataFrameµÄwrite·½·¨½«DataFrame±£´æµ½¸÷ÖÖ´æ´¢ÏµÍ³¡£

write·½·¨·µ»ØDataFrameWriterÊµÀý£¬¸ÃÀàÌá¹©¶àÖÖ½«DataFrameÄÚÈÝ±£´æµ½Êý¾ÝÔ´µÄ·½·¨¡£DataFrameWriterÀàµÄbuilder·½·¨ÓÃÓÚÖ¸¶¨Êý¾Ý±£´æµÄ²»Í¬Ñ¡Ïî£¬Èç¸ñÊ½¡¢·ÖÇø¼°Êý¾Ý´¦Àí·½Ê½µÈ¡£write·½·¨µÄÒ»°ãÓÃ·¨ÀàËÆÈçÏÂ£º 

df.write.format("output-data-source-format").save()

¤r Èç¹ûÊä³öÎªJSONÎÄ¼þ£¬Ôòwrite·½·¨ÓÃ·¨ÈçÏÂ£º 

df.write.format("json").save("../tmp/json/path")

//»òÕß df.write.json("../tmp/json/path")

¤r Èç¹ûÊä³öÎªCSVÎÄ¼þ£¬Ôòwrite·½·¨µÄÓÃ·¨ÈçÏÂ£º 

df3.write.format("csv").option("header", true).save("path")

5.3Êý¾Ý¼¯Dataset

DatasetÊÇÌØ¶¨Óò(domainª²specific)µÄÇ¿ÀàÐÍ¼¯ºÏ(strongly typed collection)£¬¿ÉÒÔÊ¹ÓÃº¯Êý»ò¹ØÏµ²Ù×÷²¢ÐÐ×ª»»ÕâÐ©¶ÔÏó¡£DatasetÓÐÒ»¸öÎÞÀàÐÍÊÓÍ¼(untyped view)£¬¼´DataFrame£¬ÊÇÐÐ(Row
)Êý¾Ý¼¯¡£

ÔÚSpark 2.0ÖÐ£¬DataFrameÖ»ÊÇScalaºÍJava APIÖÐµÄÐÐÊý¾Ý¼¯£¬Æä¶¨ÒåÎª£º 

type DataFrame = Dataset£ÛRow£Ý

¶¨ÒåÔÚDataFrameÉÏµÄ²Ù×÷Ò²³ÆÎª¡°·ÇÀàÐÍ×ª»»¡±(untyped transformation)£¬×÷Îª¶Ô±È£¬Ç¿ÀàÐÍ(Scala/Java)DatasetÉÏ¶¨ÒåµÄ²Ù×÷³ÆÎª¡°ÀàÐÍ×ª»»¡±(typed transformation)¡£

DatasetÉÏ¿ÉÓÃµÄ²Ù×÷·ÖÎª×ª»»ºÍ¶¯×÷¡£×ª»»Éú³ÉÐÂµÄÊý¾Ý¼¯£¬¶¯×÷´¥·¢¼ÆËã²¢·µ»Ø½á¹û¡£×ª»»°üÀ¨map¡¢filter¡¢selectºÍaggregate(ÈçgroupBy)µÈ£¬¶¯×÷²Ù×÷°üÀ¨count¡¢show»òÐ´ÈëÎÄ¼þÏµÍ³µÈ¡£

Dataset²Ù×÷ÊÇ¡°¶èÐÔµÄ¡±£¬¼´½öÔÚµ÷ÓÃ¶¯×÷Ê±´¥·¢¼ÆËã¡£ÔÚSparkÄÚ²¿£¬Dataset±íÊ¾ÃèÊöÉú³ÉÊý¾ÝËùÐèµÄÂß¼­¼Æ»®¡£Ö´ÐÐ¶¯×÷µ÷ÓÃÊ±£¬SparkµÄ²éÑ¯ÓÅ»¯Æ÷»áÓÅ»¯¸ÃÂß¼­¼Æ»®£¬²¢Éú³ÉÎïÀí¼Æ»®£¬ÒÔ±ãÒÔ²¢ÐÐºÍ·Ö²¼Ê½·½Ê½¸ßÐ§Ö´ÐÐ¼Æ»®¡£ÏëÒªÁË½âÂß¼­¼Æ»®ÒÔ¼°ÓÅ»¯ºóµÄÎïÀí¼Æ»®£¬¿ÉÒÔÊ¹ÓÃexplainº¯Êý¡£

ÎªÓÐÐ§Ö§³ÖÌØ¶¨ÓòµÄ¶ÔÏó£¬ÐèÒª±àÂëÆ÷(encoder)¡£±àÂëÆ÷
½«ÌØ¶¨ÓòµÄÀàÐÍÓ³Éäµ½SparkµÄÄÚ²¿ÀàÐÍÏµÍ³¡£ÀýÈç£¬¸ø¶¨Ò»¸ö¾ßÓÐÁ½¸ö×Ö¶Îname (string)ºÍage (int)µÄÀàPerson£¬±àÂëÆ÷»á¸æËßSparkÔÚÔËÐÐÊ±Éú³É´úÂë£¬½«Person¶ÔÏóÐòÁÐ»¯Îª¶þ½øÖÆ½á¹¹¡£ÕâÖÖ¶þ½øÖÆ½á¹¹Í¨³£Ö»ÐèÕ¼ÓÃ½ÏÉÙµÄÄÚ´æ£¬²¢ÇÒÕë¶ÔÊý¾Ý´¦Àí½øÐÐ¹ýÓÅ»¯(Èç£¬ÁÐÊ½´æÈ¡)¡£¿ÉÒÔÊ¹ÓÃschemaº¯ÊýÁË½âÊý¾ÝµÄÄÚ²¿¶þ½øÖÆ±íÊ¾ÐÎÊ½¡£

DatasetÓëRDDÀàËÆ£¬µ«²»Ê¹ÓÃJavaÐòÁÐ»¯(serialization»òKryo)£¬¶øÊÇÊ¹ÓÃÌØ¶¨µÄ±àÂëÆ÷
À´ÐòÁÐ»¯¶ÔÏó£¬ÒÔ±ãÍ¨¹ýÍøÂç½øÐÐ´«Êä»ò´¦Àí¡£ËäÈ»±àÂëºÍ±ê×¼ÐòÁÐ»¯¶¼¸ºÔð½«¶ÔÏó×ª»»Îª×Ö½Ú£¬µ«±àÂëÆ÷¶¯Ì¬Éú³É´úÂë£¬ÔÊÐíSparkÖ´ÐÐÐí¶à²Ù×÷£¬¶øÎÞÐë½«×Ö½Ú·´ÐòÁÐ»¯Îª¶ÔÏó¡£

5.3.1´´½¨Dataset

´´½¨DatasetÓÐÁ½ÖÖ³£ÓÃ·½·¨¡£×î³£¼ûµÄ·½·¨ÊÇÓÃSparkSessionµÄread·½·¨¶ÁÈ¡´æ´¢ÏµÍ³ÖÐµÄÎÄ¼þ¡£ÔËÐÐÒÔÏÂ´´½¨DatasetµÄÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²23
ËùÊ¾¡£

case class Person(name: String, age: Int, gender: String)



// ÑùÀýÀà±àÂëÆ÷

val caseDS = Seq(Person("Wangwu", 22, "male")).toDS()

// µ¼Èëspark.implicits._£¬ÎªÐí¶à³£ÓÃÀàÐÍ×Ô¶¯Ìá¹©±àÂëÆ÷

val ds2 = Range(1, 5).toDS()

spark.range(2).toDS()



// Í¨¹ýÃû³ÆÓ³Éä½«DataFrame×ª»»ÎªDataset

val jsonDS = spark.read

.schema("name String, age Int, gender String")

.json("../tmp/person.json").as£ÛPerson£Ý

jsonDS.show(5,false)




Í¼5ª²23´´½¨Dataset


5.3.2Dataset³£ÓÃ·½·¨

DatasetµÄ·½·¨¿ÉÓÃÓÚDataFrame£¬ÒÔÏÂ¸ø³öÁË²¿·Ö³£ÓÃ²Ù×÷¡£

1. as

as·½·¨½«DatasetµÄ¼ÇÂ¼Ó³ÉäÎªÖ¸¶¨µÄÀàÐÍ¡£ÁÐÓ³Éä·½·¨È¡¾öÓÚ±àÂëÆ÷UµÄÀàÐÍ£º 

(1) UÊÇclass£¬¸ÃÀàµÄ×Ö¶Î½«Ó³Éäµ½Í¬ÃûµÄÁÐ(spark.sql.caseSensitiveÇø·Ö×ÖÄ¸´óÐ¡Ð´)£» 

(2) UÊÇÔª×étuple£¬ÁÐ½«°´ÐòÊýÓ³Éä(¼´½«µÚÒ»ÁÐ·ÖÅä¸ø_1)£» 

(3) UÊÇ»ù±¾ÀàÐÍ(×Ö·û´®¡¢ÕûÊýµÈ)£¬Ê¹ÓÃDataFrame µÄµÚÒ»ÁÐ¡£

Èç¹ûDatasetµÄschemaÓëËùÐèµÄEncoderÀàÐÍ²»Æ¥Åä£¬Ôò¿É¸ù¾ÝÐèÒª½øÐÐÑ¡Ôñ£¬Ê¹ÓÃ±ðÃû¡¢ÖØÐÂÅÅÁÐ»òÕßÖØÃüÃû¡£

×¢Òâ£º as½ö¸ü¸Ä´«µÝµ½ÀàÐÍ»¯²Ù×÷(Èç map)ÖÐµÄÊý¾ÝÊÓÍ¼£¬²»ÒÆ³ýÖ¸¶¨ÀàÖÐ²»´æÔÚµÄÈÎºÎÁÐ¡£

2. cache/persist

cache/persist·½·¨³Ö¾Ã»¯Dataset¡£cache¼°²»´ø²ÎÊýµÄpersistÊ¹ÓÃÄ¬ÈÏ´æ´¢Àà±ð(MEMORY_AND_DISK)¡£

3. checkpoint

checkpoint·½·¨·µ»Ø´ËÊý¾Ý¼¯µÄ¼ì²éµã°æ±¾ÐÅÏ¢¡£ÔÚ¼ÆËãÁ¿¿ÉÄÜ³ÊÖ¸ÊýÔö³¤µÄµü´úËã·¨ÖÐ£¬checkpoint·½·¨ÓÈÆäÓÐÓÃ¡£checkpoint±»±£´æµ½SparkContext#setCheckpointDirÉèÖÃµÄÄ¿Â¼ÖÐ¡£

5.4Êý¾ÝÔ´

Í¨¹ýDataFrame½Ó¿Ú£¬Spark SQLÖ§³Ö¶Ô¶àÖÖÊý¾ÝÔ´µÄ²Ù×÷¡£¿ÉÒÔÊ¹ÓÃ¹ØÏµ×ª»»¡¢´´½¨ÁÙÊ±ÊÓÍ¼µÈ¶ÔDataFrame½øÐÐ²Ù×÷¡£ÊÓÍ¼Ö§³ÖSQL²éÑ¯¡£±¾½Ú½éÉÜSparkÊý¾ÝÔ´µÄ¼ÓÔØºÍ±£´æ·½·¨£¬ÒÔ¼°¿ÉÓÃÓÚÄÚÖÃÊý¾ÝÔ´µÄÌØ¶¨Ñ¡Ïî¡£

SparkÖÐµÄÊý¾Ý¶ÁÈ¡½Ó¿ÚÔÚDataFrameReaderÖÐ¶¨Òå£¬Í¨¹ýSparkSession¶ÔÏóµÄreadÊôÐÔ·ÃÎÊ£» Êý¾Ý±£´æ½Ó¿ÚÔÚDataFrameWriterÖÐ¶¨Òå£¬Í¨¹ýDataset¶ÔÏóµÄwriteÊôÐÔ·ÃÎÊ¡£

5.4.1Í¨ÓÃload/saveº¯Êý

Spark SQLÖÐµÄÄ¬ÈÏÊý¾ÝÔ´ÊÇparquet¸ñÊ½(ÓÉspark.sql.sources.defaultÉèÖÃ)¡£Ê¾Àý´úÂëÈçÏÂ£º 

val userDF = spark.read.load("../tmp/users.parquet")

userDF.write.save("../tmp/users-parquet-dir")

1. ³£ÓÃÑ¡Ïî

Êý¾ÝÔ´ÀàÐÍÓÉÆäÈ«Ãû³Æ(Èçorg.apache.spark.sql.parquet)Ö¸¶¨£¬µ«¶ÔÄÚÖÃÊý¾ÝÔ´£¬¿ÉÒÔÊ¹ÓÃ¶ÌÃû³Æ(Èçjson¡¢parquet¡¢jdbc¡¢orc¡¢libsvm¡¢csv¡¢textµÈ)¡£ÔÚ¼ÓÔØ»ò±£´æÊý¾ÝÔ´Ê±£¬¿ÉÒÔÖ¸¶¨ÏàÓ¦µÄ²ÎÊý»òÑ¡Ïî¡£¾ßÌåµÄÄÚÖÃÊý¾ÝÔ´¼°ÆäÏà¹Ø²ÎÊý»òÑ¡Ïî£¬Çë²Î¿¼APIÎÄµµ¡£

¼ÓÔØµÄÊý¾ÝÔ´¿ÉÒÔ×ª»»ÎªÆäËûÊý¾ÝÔ´¡£ÀýÈç£¬½«jsonÎÄ¼þ±£´æÎªcsv¸ñÊ½£º 

val jsonDF = spark.read.format("json").load("people.json")

jsonDF.write.format("csv").save("../tmp/people-csv-dir")

2. read mode

ÒÔÏÂ´úÂëÊ¾ÀýÊ¹ÓÃÌØ¶¨Ñ¡Ïî¼ÓÔØcsvÎÄ¼þ£º 

val csvDF = spark.read.format("csv")

.option("header", "true")

.option("inferSchema", "true")

.option("sep", ";")

.load("people.csv")

¶ÁÈ¡Êý¾ÝÔ´Ê±£¬Í¨³£»áÖ¸¶¨format(¸ñÊ½)¡¢schema(Ä£Ê½)¡¢read mode(¶ÁÈ¡Ä£Ê½)¡¢option(Ñ¡Ïî)ÒÔ¼°path(Â·¾¶)¡£ÖÁÉÙ±ØÐëÌá¹©¸ñÊ½ºÍÂ·¾¶²ÎÊý¡£

¶ÁÈ¡Ä£Ê½ÉèÖÃSparkÓöµ½¸ñÊ½´íÎóµÄ¼ÇÂ¼Ê±µÄ´¦Àí·½Ê½£¬°üÀ¨£º 

(1) permissive ÔÚÓöµ½Ëð»µµÄ¼ÇÂ¼Ê±½«ËùÓÐ×Ö¶ÎÉèÖÃÎªnull(Ä¬ÈÏÖµ)£» 

(2) dropMalformed É¾³ý´íÎóÐÐ£» 

(3) failFast Óöµ½¸ñÊ½´íÎóµÄ¼ÇÂ¼Ê±Á¢¼´Ê§°Ü(Å×³öÒì³£)¡£

3. save mode

ÒÔÏÂ´úÂëÊ¾ÀýÊ¹ÓÃÌØ¶¨Ñ¡Ïî½«Êý¾Ý¼¯±£´æÎªcsv¸ñÊ½£º 

csvDF.write.format("csv")

.option("mode", "OVERWRITE")

.option("dateFormat", "yyyy-MM-dd")

.save("path/to/file")

Ê¹ÓÃDataFrameWritier±£´æÊý¾ÝÊ±£¬Í¨³£»áÖ¸¶¨format(¸ñÊ½)¡¢save mode(Ð´ÈëÄ£Ê½)¡¢option(Ñ¡Ïî)ÒÔ¼°path(Â·¾¶)£¬ÖÁÉÙ±ØÐëÌá¹©Â·¾¶²ÎÊý¡£

save modeÖ¸¶¨Èç¹ûÔÚÊä³öÎ»ÖÃÒÑ´æÔÚÊý¾ÝÊ±µÄ´¦Àí·½Ê½£¬°üÀ¨£º 

(1) append×·¼ÓÊý¾Ý£» 

(2) overwrite¸²¸ÇÏÖÓÐÊý¾Ý£» 

(3) errorIfExistsÖÐÖ¹²Ù×÷(Ä¬ÈÏÖµ£¬Å×³öÒì³££¬»òÐ´×÷error)£» 

(4) ignoreºöÂÔ(ÎÞ²Ù×÷)¡£

4. SQLÖ±Á¬ÎÄ¼þ

³ýÁËÊ¹ÓÃ¶ÁÈ¡API½«ÎÄ¼þ¼ÓÔØµ½DataFrameÔÙÖ´ÐÐ²éÑ¯Íâ£¬»¹¿ÉÒÔÖ±½ÓÊ¹ÓÃSQL²éÑ¯ÎÄ¼þ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²24
ËùÊ¾¡£

val sqlDF = spark.sql("SELECT * FROM parquet.`../tmp/users.parquet`")

sqlDF.show()





Í¼5ª²24Ö±½ÓÊ¹ÓÃSQL²éÑ¯ÎÄ¼þ


5. ½«Êý¾Ý±£´æµ½±í

Ê¹ÓÃsaveAsTable·½·¨¿ÉÒÔ½«DataFrame³Ö¾Ã±£´æµ½Hive metastoreµÄ±íÖÐ¡£Óë createOrReplaceTempViewÃüÁî²»Í¬£¬saveAsTable´æ´¢µÄÊÇÊý¾ÝÖ¡µÄÄÚÈÝ£¬²¢ÔÚHive metastoreÖÐ´æ´¢ÔªÊý¾Ý£¬¼´Ê¹ÖØÆôSpark£¬³Ö¾Ã±íÈÔÈ»´æÔÚ¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²25ËùÊ¾¡£

sqlDF.write.mode("overwrite").saveAsTable("t_user")

sql("select * from t_user").show(5)





Í¼5ª²25saveAsTable·½·¨±£´æÊý¾Ýµ½±í


µ±Ä£Ê½Îª×·¼ÓÊ±£¬Èç´æÔÚÍ¬Ãû±í£¬ÔòÊ¹ÓÃÒÑÓÐ±íµÄ¸ñÊ½ºÍÑ¡Ïî¡£DataFrame µÄschemaÖÐµÄÁÐµÄË³Ðò²»ÐèÒªÓëÏÖÓÐ±íµÄÁÐË³ÐòÏàÍ¬£¬saveAsTable½«Ê¹ÓÃÁÐÃûÀ´²éÕÒÕýÈ·µÄÎ»ÖÃ¡£

×¢Òâ£º ´Ë¹¦ÄÜ²»ÐèÒª²¿ÊðHive¡£SparkÊ¹ÓÃDerby´´½¨Ò»¸öÄ¬ÈÏµÄ±¾µØHive metastore¡£ 

5.4.2ÎÄ¼þÊý¾ÝÔ´
1. ÎÄ¼þÊý¾ÝÔ´Ñ¡Ïî

Í¨ÓÃµÄÎÄ¼þÊý¾ÝÔ´Ñ¡Ïî°üÀ¨ÒÔÏÂ¼¸ÖÖ¡£

(1) ºöÂÔËð»µµÄÎÄ¼þ¡£µ±spark.sql.files.ignoreCorruptFilesÉèÖÃÎªtrueÊ±£¬SparkÈÎÎñÔÚÓöµ½±»Ëð»µµÄÎÄ¼þÊ±¼ÌÐøÔËÐÐ£¬²¢ÇÒÈÔ»á·µ»ØÒÑ¶ÁÈ¡µÄÄÚÈÝ£¬Ê¾Àý´úÂëÈçÏÂ£º 

// enable ignore corrupt files

spark.sql("set spark.sql.files.ignoreCorruptFiles=true")

// Â·¾¶ÖÐ·ÇparquetÎÄ¼þ±»ºöÂÔ

val testCorruptDF = spark.read.parquet(

"examples/src/main/resources/dir1/",

"examples/src/main/resources/dir1/dir2/")

(2) ºöÂÔÈ±Ê§ÎÄ¼þ¡£Missing File(È±Ê§µÄÎÄ¼þ)ÊÇÖ¸ÔÚ¹¹ÔìÊý¾ÝÖ¡DataFrameÖ®ºó£¬Ä¿Â¼ÖÐÒÑÉ¾³ýµÄÎÄ¼þ¡£µ±spark.sql.files.ignoreMissingFilesÉèÖÃÎªtrueÊ±£¬Spark´ÓÎÄ¼þÖÐ¶ÁÈ¡Êý¾ÝÊ±ºöÂÔÈ±Ê§µÄÎÄ¼þ£¬SparkÈÎÎñÔÚÓöµ½ÎÄ¼þÈ±Ê§Ê±¼ÌÐøÔËÐÐ£¬²¢·µ»ØÒÑ¶ÁÈ¡µÄÄÚÈÝ¡£

(3) ÎÄ¼þ¹ýÂËÆ÷¡£pathGlobFilterÓÃÓÚ½ö°üº¬ÓëÄ£Ê½Æ¥ÅäµÄÎÄ¼þ£¬ÓÃ·¨Í¬org.apache.hadoop.fs.GlobFilter£¬²»¸Ä±ä·¢ÏÖ·ÖÇøµÄ·½Ê½¡£Ê¾Àý´úÂëÈçÏÂ£º 

// ½ö¼ÓÔØparquet¸ñÊ½ÎÄ¼þ£¬ÂË³öjsonµÈÆäËû¸ñÊ½ÎÄ¼þ

spark.read.format("parquet")

.option("pathGlobFilter", "*.parquet")

.load("examples/src/main/resources/dir1")

(4) µÝ¹éÎÄ¼þ²éÕÒ¡£recursiveFileLookupÓÃÓÚµÝ¹é¼ÓÔØÎÄ¼þ£¬²¢½ûÓÃ·ÖÇøÍÆÀí¡£Ä¬ÈÏÖµÎªfalse£¬Èç¹ûÊý¾ÝÔ´ÔÚrecursiveFileLookupÎªtrueÊ±ÏÔÊ½Ö¸¶¨ÁËpartitionSpec£¬Ôò»áÒý·¢Òì³£¡£Ê¾Àý´úÂëÈçÏÂ£º 

// µÝ¹é¼ÓÔØÖ¸¶¨Â·¾¶(¼°×ÓÄ¿Â¼)ÏÂµÄÎÄ¼þ

spark.read.format("parquet")

.option("recursiveFileLookup", "true")

.load("examples/src/main/resources/dir1")

(5) Â·¾¶ÐÞ¸ÄÊ±¼ä¹ýÂËÆ÷¡£modifiedBeforeºÍmodifiedAfter¿ÉÒÔÍ¬Ê±Ê¹ÓÃ»òµ¥¶ÀÊ¹ÓÃ£¬ÒÔÊµÏÖ¶ÔËù¼ÓÔØÊý¾ÝµÄ¸üÏ¸Á£¶ÈµÄ¿ØÖÆ(Structured StreamingÎÄ¼þÔ´²»Ö§³Ö)¡£

modifiedBefore/modifiedAfterÎª¿ÉÑ¡Ê±¼ä´Á£¬ÓÃÓÚ½ö°üº¬ÐÞ¸ÄÊ±¼äÔçÓÚ/ÍíÓÚÖ¸¶¨Ê±¼äµÄÎÄ¼þ¡£Ê±¼ä´Á¸ñÊ½Îª£º YYYYª²MMª²DDTHH:mm:ss(Èç£¬2022ª²11ª²02T11:02:02)¡£Èç¹ûÎ´Ìá¹©Ê±ÇøÑ¡Ïî£¬ÄÇÃ´½«¸ù¾ÝSpark»á»°Ê±Çø(spark.sql.session.timeZone)½âÊÍÊ±¼ä´Á¡£ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²26
ËùÊ¾¡£

// ¼ÓÔØÏÞ¶¨Ê±¼ä·¶Î§ÄÚµÄÎÄ¼þ

spark.read.format("parquet")

.option("pathGlobFilter", "*.parquet")

.option("modifiedBefore", "2022-11-02T11:02:02")

.option("modifiedAfter",  "2000-01-01T00:00:00")

.load("examples/src/main/resources/dir1")

.show(5)





Í¼5ª²26Êý¾Ý¼ÓÔØ¹ýÂËÆ÷Ê¾Àý


2. CSVÎÄ¼þÊý¾ÝÔ´

CSV(Commaª²Separated Value)ÊÇÒ»ÖÖ³£¼ûµÄÎÄ±¾ÎÄ¼þ¸ñÊ½£¬ÆäÖÐÃ¿ÐÐ±íÊ¾ÓÉ¶à¸öÁÐ×é³ÉµÄµ¥¸ö¼ÇÂ¼¡£

CSVÎÄ¼þËäÈ»¿´ÆðÀ´½á¹¹Á¼ºÃ£¬µ«Êµ¼Ê´¦Àí±È½Ï¸´ÔÓ£¬ÒòÎªÔÚÊµ¼ÊÉú²úÖÐÎÞ·¨¶ÔÆä°üº¬µÄÄÚÈÝ»ò½á¹¹·½Ê½×ö³öÌ«¶à¼ÙÉè¡£Òò´Ë£¬CSV reader¾ßÓÐ½Ï¶àµÄÑ¡Ïî£¬ÓÃÓÚ´¦ÀíÖîÈç×Ö·û×ªÒåÎÊÌâ¡£

Spark SQL Ìá¹©spark.read().csv("file_name")½«CSV¸ñÊ½µÄÎÄ¼þ»òÎÄ¼þÄ¿Â¼¶ÁÈ¡µ½ DataFrameÖÐ£¬Ìá¹©dataframe.write().csv("path")·½·¨Ð´Èë CSV ÎÄ¼þ¡£º¯Êýoption()¿ÉÓÃÓÚ×Ô¶¨Òå¶ÁÈ¡»òÐ´ÈëµÄÐÐÎª£¬ÀýÈç±êÌâÍ·¡¢·Ö¸ô·û¡¢×Ö·û¼¯µÈ¡£ÀýÈç£¬

// Read a csv with delimiter and a header

spark.read.option("delimiter", ";")

.option("header", "true").csv("path-to-csv")

CSVÊý¾ÝÔ´³£ÓÃÑ¡ÏîÈç±í5ª²1
ËùÊ¾¡£


±í5ª²1CSVÎÄ¼þÔ´³£ÓÃÑ¡Ïî



Ñ¡ÏîÃû
º¬Òå
Ä¬ÈÏÖµ
¶Á/Ð´

sep/delimiter
ÁÐ·Ö¸ô·û
,
RW
encoding
ÎÄ¼þ±àÂë·½Ê½
UTFª²8
RW
quote
ÉèÖÃÓÃÓÚ×ªÒåµ¥¸ö×Ö·ûµÄÒýºÅ¡£ÒýºÅÄÚµÄ·Ö¸ô·û×÷ÎªÆÕÍ¨×Ö·û
¡°
RW
escape
×ªÒå·û(µ¥×Ö·û)£¬ÓÃÒÔ×ªÒåÒýºÅÄÚµÄÒýºÅ·û(×÷ÎªÆÕÍ¨×Ö·û)
£Ü
RW
escapeQuotes
ÊÇ·ñ½«°üº¬ÒýºÅµÄÖµÀ¨ÔÚÒýºÅÖÐ
true
W
header
¶ÔÓÚ¶Á£¬Ê¹ÓÃµÚÒ»ÐÐ×÷ÎªÁÐµÄÃû³Æ

¶ÔÓÚÐ´£¬½«ÁÐÃû³ÆÐ´ÈëµÚÒ»ÐÐ
false
RW
dateFormat
ÈÕÆÚ¸ñÊ½
yyyyª²MMª²dd
RW
nanValue
Notª²aª²NumberµÄ×Ö·û´®±íÊ¾ÐÎÊ½
NaN
R
ignoreLeadingWhiteSpace
ºöÂÔÇ°µ¼¿Õ¸ñ·û
false
RW
ignoreTrailingWhiteSpace
ºöÂÔÎ²²¿¿Õ¸ñ·û
false
RW
mode
½âÎöÆÚ¼ä´¦ÀíËð»µ¼ÇÂ¼µÄÄ£Ê½
PERMISSIVE
R
locale
ÇøÓòÓïÑÔ±ê¼Ç£¬IETF BCP 47 ¸ñÊ½
enª²US
R
compression
Ñ¹Ëõ±à½âÂëÆ÷£¬none¡¢bzip2¡¢gzip¡¢lz4¡¢snappyºÍdeflate

W



3. JSONÊý¾ÝÔ´

JSON(JavaScript Object Notation)ÊÇJavaScriptµÄ³£ÓÃÊý¾Ý¸ñÊ½¡£ÔÚSparkÖÐÊ¹ÓÃµÄJSONÎÄ¼þ£¬ÊÇÐÐ·Ö¸ô(lineª²delimited)µÄJSONÎÄ¼þ(Ã¿ÐÐ°üº¬Ò»¸öµ¥¶ÀµÄ¡¢ÓÐÐ§JSON¶ÔÏó)£¬Çø±ðÓÚ¾ßÓÐ´óÐÍJSON¶ÔÏó»òÊý×éµÄÎÄ¼þ¡£ÐÐ·Ö¸ôµÄJSONÊÇÒ»ÖÖ¸üÎÈ¶¨µÄ¸ñÊ½£¬¿ÉÒÔ·½±ãµØ½«ÐÂ¼ÇÂ¼Ìí¼Óµ½ÎÄ¼þÖÐ(¶ø²»±Ø¶ÁÈ¡Õû¸öÎÄ¼þÈ»ºóÔÙÐ´)£¬¸üÈÝÒ×Ê¹ÓÃ¡£JSON¶ÔÏó¾ßÓÐ½á¹¹£¬JavaScript(JSONËù»ùÓÚµÄ)¾ßÓÐÀàÐÍ£¬Òò´Ë£¬Spark¿ÉÒÔ¶ÔÐÐ·Ö¸ôJSON×÷¸ü¶à¼ÙÉè(Ñ¡Ïî±ÈCSVÉÙ)¡£ÆÕÍ¨µÄ¶àÐÐJSONÎÄ¼þÐèÒª½«multiLineÑ¡ÏîÉèÖÃÎªtrue¡£

Spark SQL¿É×Ô¶¯ÍÆ¶ÏJSONÊý¾Ý¼¯µÄÄ£Ê½£¬½«Æä¼ÓÔØÎªDataFrame(¼´Dataset£ÛRow£Ý)¡£SparkSession.read.json()·½·¨¼È¿ÉÒÔ¼ÓÔØJSONÎÄ¼þ£¬Ò²¿ÉÒÔ×ª»»Dataset£ÛString£Ý¡£ÀýÈç(ÔËÐÐ½á¹û¼ûÍ¼5ª²27
)£º 

// ¶ÁJSONÎÄ¼þ£¬²ÎÊý¿ÉÒÔÊÇÎÄ¼þÃûÒ²¿ÉÒÔÊÇÄ¿Â¼

spark.read.option("mode", "FAILFAST")

.json("../tmp/person.json")

.show(5)

// ´ÓJSONÊý¾Ý¼¯(Dataset£ÛString£Ý)´´½¨DataFrame

val personDS = spark.createDataset("""

{"name":"Cao","addr":{"city":"Wenzhou","state":"Zhejiang"}}""" ::Nil)

val personDF = spark.read.json(personDS)



Í¼5ª²27JSONÊý¾ÝÔ´¼ÓÔØÎªDataFrame/DatasetÊ¾Àý


JSONÊý¾ÝÔ´³£ÓÃÑ¡Ïî¼û±í5ª²2¡£


±í5ª²2JSONÊý¾ÝÔ´³£ÓÃÑ¡Ïî




Ñ¡ÏîÃû
º¬Òå
Ä¬ÈÏÖµ
¶Á/Ð´

timeZone
Ê±Çø
spark.sql.session.timeZone
RW
allowComments
ºöÂÔJava/C++ÑùÊ½×¢ÊÍ
false
R
allowSingleQuotes
ÊÇ·ñÔÊÐíÊ¹ÓÃµ¥ÒýºÅ
false
R
mode
½âÎöÆÚ¼ä´¦ÀíËð»µ¼ÇÂ¼µÄÄ£Ê½
PERMISSIVE
R
dateFormat
ÈÕÆÚ¸ñÊ½
yyyyª²MMª²dd
RW
timestampFormat
Ê±¼ä´Á¸ñÊ½
yyyyª²MMª²dd'T'HH:mm:ss£Û.SSS£Ý
RW
multiLine
¼ÇÂ¼¿É¿ç¶àÐÐ
false
R
encoding
ÎÄ¼þ±àÂë·½Ê½
¶Á£¬×Ô¶¯¼ì²â£» Ð´£¬UTFª²8
RW
lineSep
ÐÐ·Ö¸ô·û
¶Á£¬£Ür,£Ün,£Ür£Ün£» Ð´£¬£Ün
RW
dropFieldIfAllNull
ºöÂÔÈ«null£¬»òÈ«¿ÕÊý×é/½á¹¹µÄÁÐ
false
R
ignoreNullFields
ºöÂÔ¿Õ×Ö¶Î
spark.sql.jsonGenerator.ignoreNullFields
W


4. ParquetÊý¾ÝÔ´

Apache ParquetÊÇÃæÏòÁÐµÄ¿ªÔ´Êý¾Ý´æ´¢¸ñÊ½£¬Ìá¹©¸÷ÖÖ´æ´¢ÓÅ»¯²ßÂÔ£¬ÓÈÆäÊÊÓÃÓÚÊý¾Ý·ÖÎö¡£Parquet¸ñÊ½ÎÄ¼þ¿ÉÒÔÍ¨¹ýÁÐÑ¹Ëõ½ÚÊ¡´æ´¢¿Õ¼ä£¬²¢ÔÊÐí¶ÁÈ¡µ¥¸öÁÐ¶ø·ÇÕû¸öÎÄ¼þ¡£ParquetÊÇSparkµÄÄ¬ÈÏÎÄ¼þ¸ñÊ½£¬¶ÁParquetÎÄ¼þ±ÈJSON»òCSV¸ü¸ßÐ§¡£ParquetÖ§³Ö¸´ÔÓÀàÐÍ£¬ÆäÁÐÊý¾Ý¿ÉÒÔÊÇÊý×é(CSVÎÄ¼þ²»Ö§³Ö)¡¢map»òstructµÈ¡£Ê¾Àý´úÂëÈçÏÂ£º 

val userDF = spark.read.parquet("../tmp/users.parquet")

userDF.write.save("../tmp/users-parquet-dir")

ParquetµÄ¿ÉÑ¡Ïî½ÏÉÙ¡£³ýÑ¹Ëõ·½Ê½compressionÍâ£¬ÁíÒ»¸öÑ¡ÏîÊÇmergeSchema£¬ÆäÄ¬ÈÏÉèÖÃÊÇÓÉspark.sql.parquet.mergeSchemaÈ·¶¨µÄ¡£ÓÐ¶àÖÖÊý¾Ý´¦ÀíÏµÍ³Ö§³ÖParquet¸ñÊ½¡£Spark SQLÖ§³Ö¶ÁÈ¡ºÍÐ´ÈëParquetÎÄ¼þÊ±×Ô¶¯±£ÁôÔ­Ê¼Êý¾ÝµÄSchema¡£¶ÁÈ¡ParquetÎÄ¼þÊ±£¬³öÓÚ¼æÈÝÐÔ¿¼ÂÇ£¬ËùÓÐÁÐ¶¼½«×Ô¶¯ÉèÖÃÎª¿ÉÎª¿Õ(nullable)¡£

ÀàËÆÓÚProtocol Buffer¡¢AvroºÍThrift£¬ParquetÒ²Ö§³ÖschemaÑÝ½ø¡£ÓÃ»§¿ÉÒÔ´Ó¼òµ¥µÄschema¿ªÊ¼£¬¸ù¾ÝÐèÒªÖð½¥Ìí¼Ó¸ü¶àÁÐ£¬×îÖÕ¿ÉÄÜ»áµÃµ½¶à¸ö¾ßÓÐ²»Í¬schemaµ«Ïà»¥¼æÈÝµÄParquetÎÄ¼þ¡£ParquetÊý¾ÝÔ´ÄÜ¹»×Ô¶¯¼ì²â²¢ºÏ²¢ËùÓÐÕâÐ©ÎÄ¼þµÄschema¡£

ÓÉÓÚÄ£Ê½ºÏ²¢±È½ÏºÄ·Ñ×ÊÔ´£¬ÇÒÔÚ¶àÊýÇé¿öÏÂ²»ÊÇ±ØÐèµÄ£¬Òò´ËÆäÄ¬ÈÏ×´Ì¬ÊÇ¹Ø±ÕµÄ¡£¿ÉÒÔ½«spark.sql.parquet.mergeSchemaÉèÖÃÎªtrue£¬»òÊÇÔÚ¶ÁÈ¡ÎÄ¼þÊ±½«mergeSchemaÉèÖÃÎª true¡£

ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²28
ËùÊ¾¡£

import spark.implicits._

// ÓÉRDD´´½¨DataFrame(value: Int, square: Int)

val squaredDF = spark.sparkContext.makeRDD(1 to 5)

.map(i => (i, i * i)).toDF("value", "square")

// ÁíÒ»DataFrame(value: Int, cube: Int)£¬cube <-- square

val cubedDF = spark.sparkContext.makeRDD(6 to 10)

.map(i => (i, i * i * i)).toDF("value", "cube")

// ½«Á½¸öDataFrame£¬´æ´¢µ½²»Í¬·ÖÇø

squaredDF.write.parquet("data/test_table/key=1")

cubedDF.write.parquet("data/test_table/key=2")

// ¼ÓÔØ·ÖÇøÊý¾Ý£¬schemaºÏ²¢

val mergedDF = spark.read.option("mergeSchema", "true")

.parquet("data/test_table")

mergedDF.printSchema()



Í¼5ª²28ParquetÊý¾ÝÔ´ºÏ²¢


×¢Òâ£º ²»Í¬°æ±¾µÄParquetÎÄ¼þ¿ÉÄÜ²»¼æÈÝ¡£Ê¹ÓÃSpark²»Í¬°æ±¾(ÓÈÆäÊÇ¾É°æ±¾)Ð´ParquetÎÄ¼þÊ±Òª×¢ÒâÎÄ¼þ¸ñÊ½°æ±¾¡£


5. ORCÊý¾ÝÔ´

Apache ORCÊÇÒ»ÖÖÁÐÊ½´æ´¢¸ñÊ½(Optimized Row Columnar£¬ORC)ÎÄ¼þ£¬¾ßÓÐzstdÑ¹Ëõ¡¢²¼Â¡¹ýÂËÆ÷(bloom filter)ºÍÁÐÊ½¼ÓÃÜµÈ¹¦ÄÜ¡£ORCÊÇ½è¼øHiveµÄÒ»ÖÖ¸ßÐ§ÎÄ¼þ¸ñÊ½¡£SparkÁË½âORCÎÄ¼þ¸ñÊ½Ï¸½Ú£¬¶ÁÊý¾ÝÊ±½öÌá¹©mergeSchemaÑ¡Ïî¡£ORCÓëParquet·Ç³£ÏàËÆ£¬µ«SparkÕë¶ÔParquet»áÓÐÌØÊâÓÅ»¯¡£

SparkÖ§³ÖÁ½ÖÖORCÊµÏÖ(ÄÚÖÃÊµÏÖºÍHiveÊµÏÖ)£¬ÓÉspark.sql.orc.impl¿ØÖÆ£¬Á½ÖÖÊµÏÖµÄ´ó¶àÊý¹¦ÄÜÏàÍ¬(Éè¼ÆÄ¿±ê²»Í¬)¡£ÄÚÖÃÊµÏÖ×ñÑ­ÓëParquetÒ»ÖÂµÄSparkÊý¾ÝÔ´ÐÐÎª£» HiveÊµÏÖÊ¹ÓÃHive SerDe£¬×ñÑ­Hive¹æ·¶¡£

ÔÚSparkÒ»Ð©ÀúÊ·°æ±¾µÄÄÚÖÃÊµÏÖÖÐ£¬Ê¹ÓÃÄÚÖÃString´¦ÀíCHAR/VARCHAR£¬¶øHiveÊµÏÖÊ¹ÓÃHive CHAR/VARCHAR(²éÑ¯½á¹û²»Í¬)¡£´ÓSpark 3.1.0¿ªÊ¼£¬Spark¶ËÖ§³ÖCHAR/VARCHAR(²îÒìÏû³ý)¡£

ORCÊý¾Ý¶ÁÐ´Ê¾Àý´úÂëÈçÏÂ£º 

val flights = spark.read.format("orc").load("../tmp/flight.orc")

csvDF.write.format("orc").save("../tmp/csv-to-orc")


6. TextÎÄ¼þÊý¾ÝÔ´

Spark SQL¿ÉÒÔÖ±½Ó¶ÁÐ´ÎÄ±¾ÎÄ¼þ£¬ÎÄ¼þÄÚÈÝ±»½âÎöÎªÒ»×é×Ö·û´®¡£¶ÁÎÄ±¾ÎÄ¼þµÄ·½·¨ÊÇspark.read().text()£¬¿ÉÒÔ½«ÎÄ±¾ÎÄ¼þ»òÄ¿Â¼¶ÁÈëDataFrame¡£¶ÁÎÄ±¾ÎÄ¼þÊ±£¬Ã¿ÐÐ¶¼ÊÇRow¶ÔÏó£¬Ä¬ÈÏÇé¿öÏÂ£¬ÆävalueÁÐµÄÄÚÈÝÊÇÎÄ±¾ÐÐÄÚÈÝ¡£Ð´ÎÄ¼þÊ¹ÓÃdataframe.write().text()·½·¨¡£option()·½·¨¿ÉÒÔÐÞ¸ÄÄ¬ÈÏµÄÐÐ·Ö¸ô·û¡¢ÉèÖÃÑ¹Ëõ·½Ê½µÈ¡£Ê¾Àý´úÂëÈçÏÂ£º 

val txt = spark.read.option("lineSep", ",").text("test.txt")

txt.write.option("compression","gzip").text("compressed_txt")

option·½·¨¿ÉÒÔÐÞ¸ÄÄ¬ÈÏµÄÐÐ·Ö¸ô·û(lineSep£¬¶Á»òÐ´£¬Ä¬ÈÏÖµÎª¡°£Ün¡±)£¬Ñ¹Ëõ·½Ê½(compression£¬Ð´£¬Ä¬ÈÏÎÞÑ¹Ëõ)¡£

5.4.3HiveÊý¾ÝÔ´

Spark SQLÖ§³ÖApache HiveÊý¾ÝÔ´µÄ¶ÁÐ´¡£µ«HiveÓÐ´óÁ¿ÒÀÀµÏî£¬ÕâÐ©ÒÀÀµÏî²»°üº¬ÔÚÄ¬ÈÏµÄSpark·¢ÐÐ°æ±¾ÖÐ¡£Èç¹ûÔÚÀàËÑË÷Â·¾¶ÉÏ¿ÉÒÔÕÒµ½HiveÒÀÀµÏî£¬ÄÇÃ´Spark½«×Ô¶¯¼ÓÔØËüÃÇ(ÕâÐ©HiveÒÀÀµÏî»¹±ØÐë´æÔÚÓÚËùÓÐµÄWorker½Úµã£¬ÒòÎªËüÃÇÐèÒª·ÃÎÊHiveÐòÁÐ»¯ºÍ·´ÐòÁÐ»¯¿âSerDes²ÅÄÜ·ÃÎÊHiveÖÐµÄÊý¾Ý)¡£

ÅäÖÃHiveÖ÷ÒªÊÇÍ¨¹ýconf/Ä¿Â¼ÖÐµÄHiveª²site.xml¡¢coreª²site.xml¼°hdfsª²site.xmlÀ´Íê³É¡£¾ßÌåÅäÖÃ¹ý³ÌÇë²Î¿¼HiveµÄÏà¹ØÎÄµµ¡£

Ê¹ÓÃHiveÊý¾ÝÔ´Ê±£¬±ØÐëÊ¹ÓÃÖ§³ÖHiveµÄSparkSessionÊµÀý£¬°üÀ¨Hive metastoreÁ¬½Ó¡¢Hive serdesµÄÖ§³Ö£¬ÒÔ¼°HiveÓÃ»§¶¨Òåº¯ÊýµÄÖ§³Ö¡£Î´²¿ÊðHiveÊ±ÒÀÈ»¿ÉÒÔÆôÓÃHiveÖ§³Ö¡£Î´ÅäÖÃhiveª²site.xmlÊ±£¬Spark context»á×Ô¶¯ÔÚµ±Ç°Ä¿Â¼ÏÂ´´½¨metastore_dbÄ¿Â¼£¬²¢´´½¨ÓÉspark.sql.warehouse.dirÅäÖÃµÄÄ¿Â¼£¬¸ÃÄ¿Â¼Ä¬ÈÏÎªSparkÓ¦ÓÃ³ÌÐòÆô¶¯Ê±µÄµ±Ç°Ä¿Â¼ÏÂµÄsparkª²warehouse£¬ÏàÓ¦µØ£¬Æô¶¯SparkÓ¦ÓÃ³ÌÐòµÄÓÃ»§ÐèÒªÐ´È¨ÏÞ¡£

HiveÊý¾ÝÔ´¶ÁÐ´Ê¾Àý´úÂëÈçÏÂ£º 

// ´´½¨Ö§³ÖHiveµÄSparkSession¶ÔÏó

val spark = SparkSession.builder()

.appName("Spark Hive Example")

.config("spark.sql.warehouse.dir", "spark-warehouse")

.enableHiveSupport()

.getOrCreate()

// ´´½¨HiveÊý¾Ý±í£¬¼ÓÔØÊý¾Ý

spark.sql("create TABLE src(key INT, value STRING) USING hive")

spark.sql("load DATA LOCAL INPATH 'kv1.txt' into TABLE src")

// ¶ÁHiveÊý¾Ý±í£¬´´½¨DataFrame

val hiveDF = spark.sql("select * FROM src WHERE key < 100")

// ´´½¨Hive±í£¬parquet´æ´¢¸ñÊ½£¬½«DataFrameÐ´Èë±íÖÐ

sql("create TABLE hive_t(key int, value string) STORED as PARQUET")

hiveDF.write.mode(SaveMode.Overwrite).saveAsTable("hive_t")

5.4.4SQLÊý¾ÝÔ´

Spark SQL¿ÉÒÔÁ¬½Óµ½¸÷ÖÖSQLÊý¾ÝÔ´£¬ÈçMySQL¡¢PostgreSQL£¬»òOracle¡¢SQLiteµÈÊý¾Ý¿â¡£ÓÐ±ðÓÚÎÄ¼þÊý¾ÝÔ´£¬ÔÚÈçºÎÁ¬½Óµ½Êý¾Ý¿âÊ±ÐèÒª¿¼ÂÇÊý¾Ý¿âÁ¬½ÓÑ¡Ïî£¬°üÀ¨Éí·ÝÈÏÖ¤ºÍÁ¬½Ó·½Ê½(Spark¼¯ÈºµÄÍøÂçÊÇ·ñÁ¬½Óµ½Êý¾Ý¿âÍøÂç)µÈ¡£

Spark SQL¿ÉÒÔÊ¹ÓÃJDBC´ÓÆäËûÊý¾Ý¿â¶ÁÈ¡Êý¾Ý£¬½á¹ûÒÔDataFrameµÄÐÎÊ½·µ»Ø¡£ÓëRDD(JdbcRDD)Ïà±È£¬Ó¦ÓÅÏÈÊ¹ÓÃ´Ë·½Ê½£¬ÒÔ±ãSpark SQL¶ÔÊý¾Ý½øÐÐ´¦Àí£¬»òÓëÆäËûÊý¾ÝÔ´Á¬½Ó¡£JDBCÊý¾ÝÔ´Ò²¸üÒ×ÓÃÓÚJava»òPython»·¾³£¬ÒòÆä²»ÐèÒªÓÃ»§Ìá¹©ClassTag(²»Í¬ÓÚSpark SQL JDBC·þÎñÆ÷£¬ÆäËûÓ¦ÓÃ³ÌÐòÊ¹ÓÃSpark SQLÔËÐÐ²éÑ¯)¡£

Ê¹ÓÃJDBCÁ¬½ÓÊý¾ÝÔ´Ê±£¬ÐèÒªÔÚSparkÀàÂ·¾¶ÖÐ°üº¬ÌØ¶¨Êý¾Ý¿âµÄJDBCÇý¶¯³ÌÐò¡£ÀýÈç£¬ÒªÏëÊ¹ÓÃSpark ShellÁ¬½ÓPostgreSQLÊý¾Ý¿â£¬ÐèÒªÔËÐÐÈçÏÂÃüÁî£º 

./bin/spark-shell --jars ./jars/postgresql-42.5.0.jar


1. PostgreSQLÊý¾ÝÔ´

SparkÖ§³ÖµÄJDBCÑ¡Ïî²»Çø·Ö×ÖÄ¸´óÐ¡Ð´¡£JDBCÊý¾ÝÔ´Ñ¡ÏîÍ¨¹ýÏàÓ¦µÄoption/options·½·¨ÉèÖÃ(DataFrameReader/DataFrameWriter)¡£

¶ÔJDBCÊý¾Ý¿âÁ¬½ÓÊôÐÔ£¬¿ÉÒÔÔÚÊý¾ÝÔ´Ñ¡ÏîÖÐÖ¸¶¨£¬ÈçÓÃ»§Ãû¡¢ÃÜÂë¡¢Êý¾Ý¿â·þÎñÆ÷Á´½ÓµØÖ·µÈ¡£¶ÁÐ´PostgreSQLÊý¾ÝÔ´£¬ÐèÒªÊ¹ÓÃPostgreSQL JDBCÇý¶¯³ÌÐò¡£

ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²29
ËùÊ¾¡£

// Ê¹ÓÃload·½·¨¼ÓÔØPostgreSQLÊý¾ÝÔ´

// option·½·¨ÉèÖÃÊý¾ÝÔ´Á¬½ÓÊôÐÔ

val pgDF = spark.read.format("jdbc")

.option("url", "jdbc:postgresql:dbserver")

.option("dbtable", "schema.tablename")

.option("user", "username")

.option("password", "password")

.load()



// ½«DataFrameÐ´µ½PostgreSQLÊý¾Ý±íÖÐ

pgDF.write.format("jdbc")

.option("url", "jdbc:postgresql:dbserver")

.option("dbtable", "write_to_table")

.option("user", "username")

.option("password", "password")

.save()



Í¼5ª²29Á¬½ÓPostgreSQLÊý¾ÝÔ´Ê¾Àý


2. MySQLÊý¾ÝÔ´

MySQLÊý¾ÝÔ´µÄ¶ÁÐ´ÓëPostgreSQLÀàËÆ£¬Á¬½ÓÊ±ÐèÒªÖ¸¶¨MySQLÊý¾Ý¿â·þÎñÆ÷¡£ÒÔÏÂÊ¾ÀýÊ¹ÓÃjava.util.Properties´«µÝMySQLÁ¬½ÓÐÅÏ¢(ÐèÒª¼ÓÔØMySQL JDBCÇý¶¯³ÌÐò)¡£

ÔËÐÐÒÔÏÂÊ¾Àý´úÂë£¬½á¹ûÈçÍ¼5ª²30ËùÊ¾¡£

// Ê¹ÓÃload·½·¨¼ÓÔØMySQLÊý¾ÝÔ´

// Ê¹ÓÃProperties´«µÝÊý¾ÝÔ´Á¬½ÓÊôÐÔ

val connProp = new java.util.Properties()

connProp.put("user", "username")

connProp.put("password", "password")

val myDF = spark.read

.jdbc("jdbc:mysql:dbserver", "tablename", connProp)



// ÀàËÆµØ£¬¿ÉÒÔ½«DataFrameÐ´µ½MySQLÊý¾Ý±í

myDF.write.jdbc("jdbc:mysql:dbserver", "to_table", connProp)



Í¼5ª²30·ÃÎÊMySQLÊý¾ÝÔ´


3. JDBCÊý¾ÝÔ´Ñ¡Ïî

Spark SQLÁ¬½ÓJDBCÊý¾ÝÔ´£¬³ýÓÃ»§Ãû¡¢ÃÜÂë(SQLiteÊý¾Ý¿â²»ÐèÒª)µÈÊôÐÔÖ®Íâ£¬»¹Ö§³Ö·ÖÇøµÈÑ¡Ïî¡£³£ÓÃÑ¡Ïî¼û±í5ª²3
¡£


±í5ª²3JDBCÊý¾ÝÔ´Ñ¡Ïî



Ñ¡ÏîÃû
º¬Òå
Ê¾Àý
¶Á/Ð´

url
JDBC URL£¬ÐÎÈç£º 

jdbc:subprotocol:subname

¿ÉÒÔÔÚURLÖÐÖ¸¶¨ÌØ¶¨µÄÁ¬½ÓÊôÐÔ
jdbc:postgresql://localhost/test?user=fry&password=secret
RW
dbtable
Êý¾Ý±íÃû¡£¶ÁÊý¾ÝÊ±¿ÉÒÔÊÇ×Ó²éÑ¯¡£

²»ÄÜÍ¬Ê±Ö¸¶¨dbtableºÍquery

RW
query
½«Êý¾Ý¶ÁÈëSparkµÄ²éÑ¯¡£Ö¸¶¨µÄ²éÑ¯±»ÓÃ×÷FROM×Ó¾äÖÐµÄ×Ó²éÑ¯¡£SparkÎª×Ó²éÑ¯×Ó¾ä·ÖÅä±ðÃû
.option("query", "select c1, c2 from t1")
RW
driver
ÓÃÓÚÁ¬½ÓµÄJDBCÇý¶¯³ÌÐò

RW
partitionColumn
¶Ô±í½øÐÐ·ÖÇøµÄÁÐÃû

R
numPartitions
×î´ó·ÖÇøÊý(²¢ÐÐ¶ÁÐ´)

ÓëJDBC×î´ó²¢·¢Á¬½ÓÊýÓÐ¹Ø

RW
queryTimeout
Óï¾äÖ´ÐÐ³¬Ê±(Ãë)

0±íÊ¾ÎÞÏÞÖÆ

RW
fetchsize
Ã¿´Î²Ù×÷¶ÁÈ¡µÄÐÐÊý

R
batchsize
Ã¿´ÎÐ´²Ù×÷Òª²åÈëµÄÐÐÊý

W
truncate
ÆôÓÃSaveMode.Overwriteºó£¬´ËÑ¡Ïî»áµ¼ÖÂSpark ½Ø¶ÏÏÖÓÐ±í£¬¶ø²»ÊÇÉ¾³ý²¢ÖØÐÂ´´½¨Ëü¡£Õâ¿ÉÒÔ·ÀÖ¹±íÔªÊý¾Ý(ÀýÈç£¬Ë÷Òý)±»É¾³ý¡£

ÓÉÓÚDBMSÖÐTRUNCATE TABLEµÄÐÐÎª²»Í¬£¬Ê¹ÓÃËü²¢²»×ÜÊÇ°²È«µÄ
.option("truncate", false)
W
createTableOptions
´ËÑ¡ÏîÔÊÐíÔÚ´´½¨±íÊ±ÉèÖÃÌØ¶¨ÓÚÊý¾Ý¿âµÄ±íºÍ·ÖÇøÑ¡Ïî

W
createTableColumnTypes
´´½¨±íÊ±ÒªÊ¹ÓÃµÄÊý¾Ý¿â±íÁÐÊý¾ÝÀàÐÍ¡£ÀàÐÍÒÔÓëCREATE TABLEÓï·¨ÏàÍ¬µÄ¸ñÊ½Ö¸¶¨

W
customSchema
¶ÁÊý¾ÝÊ±µÄ×Ô¶¨ÒåÄ£Ê½¡£ÁÐÃûÓ¦ÓëJDBC±íµÄÏàÓ¦ÁÐÃûÏàÍ¬

R



5.5°²×°¹ØÏµÊý¾Ý¿â
5.5.1PostgreSQL
1. °²×°PostgreSQL Server

Ö±½Ó°²×°£¬Ö´ÐÐÈçÏÂÃüÁî£º 

sudo apt-get update

sudo apt-get -y install postgresql

×¢Òâ£º PostgreSQL°²×°ºó£¬Ä¬ÈÏÈ¨ÏÞÈÏÖ¤Îªpeer£¬¼´£¬Ê¹ÓÃ LinuxÓÃ»§µÇÂ¼(ÈÏÖ¤)¡£µ«ÓÉÓÚPostgreSQLÐÂ°²×°Ê±Ö»´´½¨ÁËpostgresÓÃ»§£¬ËùÒÔ»áµ¼ÖÂÊý¾Ý¿âµÇÂ¼Ê§°Ü(ÓëLinuxÏµÍ³ÓÃ»§ÕË»§²»Ò»ÖÂ)¡£³£ÓÃµÄ½â¾ö°ì·¨ÓÐÁ½ÖÖ£º Ò»ÖÖÊÇÇÐ»»LinuxÓÃ»§Îªpostgres(su postgres ...)ºóµÇÂ¼Êý¾Ý¿â£¬´´½¨ÓëLinuxÏµÍ³ÕË»§Í¬ÃûµÄÊý¾Ý¿â½ÇÉ«(ÓÃ»§£¬create role ...)£» ÁíÒ»ÖÖ·½·¨ÊÇÐÞ¸ÄPostgreSQLµÄÏµÍ³ÅäÖÃ¡£

2. °²×°PostgreSQL Client (pgAdmin 4)

¿ÉÒÔÊÖ¶¯ÏÂÔØ°²×°°ü½øÐÐ°²×°¡£Ê×ÏÈÈ·ÈÏÈÏÖ¤key£º 

# Install the public key for the repository (if not done previously):

wget -c https://www.pgadmin.org/static/packages_pgadmin_org.pub | sudo gpg --dearmor -o /usr/share/keyrings/packages-pgadmin-org.gpg


ÔÙÏÂÔØ°²×°°ü½øÐÐ°²×°£º 

# Create the repository configuration file:

sudo sh -c 'echo "deb £Ûsigned-by=/usr/share/keyrings/packages-pgadmin-org.gpg£Ý https://ftp.postgresql.org/pub/pgadmin/pgadmin4/apt/$(lsb_release -cs) pgadmin4 main" > /etc/apt/sources.list.d/pgadmin4.list && apt update'


pgAdmin 4°²×°°üµÄÏÂÔØµØÖ·ÊÇ£º 

https://ftp.postgresql.org/pub/pgadmin/pgadmin4/apt/jammy/dists/pgadmin4/main/binaryª²amd64/pgadmin4ª²desktop_6.15_amd64.deb

5.5.2MySQL Server

Ö±½Ó°²×°£¬Ö´ÐÐÈçÏÂÃüÁî(°²×°MySQL Server 8.x)£º 

sudo apt-get install mysql-server


·þÎñÑéÖ¤£º 

systemctl is-active mysql


°²È«ÈÏÖ¤£º 

sudo mysql_secure_installation


×¢Òâ£º Server°²×°ºóÐèÒªÉèÖÃ°²È«ÈÏÖ¤²ßÂÔ£¬ÉèÖÃrootµÈÊý¾Ý¿âÓÃ»§µÄÃÜÂë(¼ûÍ¼5ª²31)¡£



Í¼5ª²31ÉèÖÃMySQL°²È«ÈÏÖ¤²ßÂÔ


¸ü¶à°²×°¡¢Ê¹ÓÃµÄÏêÏ¸ÐÅÏ¢£¬Çë²Î¿¼MySQLÓÃ»§ÊÖ²á¼°Ïà¹Ø×ÊÁÏ¡£