Ñ§Ï°Ä¿±ê
. ÁË½âÓÃ»§ÐÐÎªÊý¾Ý,ÄÜ¹»Ëµ³öµçÉÌÍøÕ¾ÖÐÓÃ»§ÐÐÎªÊý¾ÝµÄº¬Òå¡£
. ÁË½âÄ£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾Ý,ÄÜ¹»ÊµÏÖÄ£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾ÝµÄPython³ÌÐò¡£
. ÕÆÎÕÅäÖÃ²É¼¯·½°¸,ÄÜ¹»¸ù¾ÝÐèÇóÁé»îÅäÖÃFlumeµÄ²É¼¯·½°¸¡£
. ÊìÏ¤²É¼¯ÓÃ»§ÐÐÎªÊý¾Ý,ÄÜ¹»¸ù¾Ý²É¼¯·½°¸Æô¶¯Flume²É¼¯Êý¾Ý¡£
Êý¾Ý²É¼¯ÊÇÖ¸Í¨¹ý¸÷ÖÖ¼¼ÊõÊÖ¶Î´Ó²»Í¬Êý¾ÝÔ´»ñÈ¡Êý¾ÝµÄ¹ý³Ì¡£ÆäÄ¿±êÊÇ»ñµÃÍê
Õû¡¢×¼È·¡¢¼°Ê±µÄÊý¾Ý,ÒÔÖ§³ÖºóÐøµÄÊý¾Ý·ÖÎöºÍ¾ö²ß¡£±¾ÏîÄ¿µÄºËÐÄÐèÇóÊÇ·ÖÎöµçÉÌÍø
Õ¾ÖÐµÄÓÃ»§ÐÐÎªÊý¾Ý,ÕâÐ©Êý¾ÝÍ¨¹ýÍøÕ¾µÄÂñµã»ñÈ¡,²¢ÒÔÈÕÖ¾µÄÐÎÊ½´æ´¢ÔÚ·þÎñÆ÷ÉÏ¡£
±¾ÕÂÏêÏ¸½éÉÜÈçºÎÍ¨¹ýÊý¾Ý²É¼¯À´»ñÈ¡ÓÃ»§ÐÐÎªÊý¾Ý¡£
3.1 ÓÃ»§ÐÐÎªÊý¾Ý¸ÅÊö
ÓÃ»§ÐÐÎªÊý¾ÝÊÇÖ¸ÓÃ»§ÔÚµçÉÌÍøÕ¾ÉÏµÄ¸÷ÖÖ½»»¥¼ÇÂ¼,°üÀ¨ÓÃ»§µÄÐÐÎªÐÅÏ¢¼°»·¾³
ÐÅÏ¢¡£ÊÕ¼¯ÕâÐ©Êý¾ÝµÄÖ÷ÒªÄ¿µÄÊÇÓÅ»¯²úÆ·,²¢Îª¸÷Ïî·ÖÎöÍ³¼ÆÖ¸±êÌá¹©Êý¾ÝÖ§³Ö¡£±¾
ÏîÄ¿²É¼¯µÄÓÃ»§ÐÐÎªÊý¾ÝÖ÷Òª°üÀ¨Ò³ÃæÐÅÏ¢¡¢Éè±¸ÐÅÏ¢ºÍÐÐÎªÐÅÏ¢¡£ÏÂÃæÒÔÒ»ÌõÓÃ»§ÐÐ
ÎªÊý¾ÝÎªÀý½øÐÐËµÃ÷,¾ßÌåÄÚÈÝÈçÏÂ¡£ 
{ 
"page_info": { 
"page_id": 287, 
"page_url": "https://www.example.com/page_287", 
"product_id": 287, 
"category": "Grocery" 
}, 
"behavior_info": { 
"user_id": 6421, 
"behavior_type": "purchase", 
"action_time": "2023-02-15 05:32:31", 
"location": "ºþ±±, ÒË²ý" 
},

SparkÏîÄ¿ÊµÑµ(Python76 °æ) 
"device_info": { 
"operating_system": "Android", 
"access_method": "browser", 
"browser_type": "Opera", 
"app_version": null 
} 
}
´ÓÉÏÊöÄÚÈÝ¿ÉÒÔ¿´³ö,±¾ÏîÄ¿Ëù²É¼¯µÄÓÃ»§ÐÐÎªÊý¾ÝÒÔ¶ÔÏó½á¹¹µÄJSON ¸ñÊ½´æ´¢¡£
ÆäÖÐ,¼üpage_infoµÄÖµÒÔ¶ÔÏó½á¹¹´æ´¢Ò³ÃæÐÅÏ¢,¼übehavior_infoµÄÖµÒÔ¶ÔÏó½á¹¹´æ´¢
ÐÐÎªÐÅÏ¢,¼üdevice_infoµÄÖµÒÔ¶ÔÏó½á¹¹´æ´¢Éè±¸ÐÅÏ¢¡£ÓÐ¹ØÕâÐ©ÐÅÏ¢µÄÏêÏ¸ËµÃ÷Èç
±í3-1ËùÊ¾¡£
±í3-1 ÓÃ»§ÐÐÎªÊý¾ÝµÄÏêÏ¸ËµÃ÷
Àà ±ð¼üÃè Êö
Ò³ÃæÐÅÏ¢
page_id ±íÊ¾ÓÃ»§Ëù·ÃÎÊÒ³ÃæµÄÎ¨Ò»±êÊ¶
page_url ±íÊ¾ÓÃ»§Ëù·ÃÎÊÒ³ÃæµÄURLµØÖ·
product_id ±íÊ¾ÉÌÆ·µÄÎ¨Ò»±êÊ¶
category ±íÊ¾ÉÌÆ·ËùÊôµÄÆ·Àà
ÐÐÎªÐÅÏ¢
user_id ±íÊ¾ÓÃ»§µÄÎ¨Ò»±êÊ¶
behavior_type ±íÊ¾ÓÃ»§µÄÐÐÎªÀàÐÍ,ÆäÖµ°üÀ¨click(µã»÷)¡¢cart(¼ÓÈë¹ºÎï³µ)ºÍ
purchase(¹ºÂò) 
action_time ±íÊ¾ÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼ä
location ±íÊ¾ÓÃ»§´¥·¢ÐÐÎªµÄµØÀíÎ»ÖÃ
Éè±¸ÐÅÏ¢
operating_system ±íÊ¾ÓÃ»§Ê¹ÓÃµÄ²Ù×÷ÏµÍ³
access_method ±íÊ¾ÓÃ»§µÄ·ÃÎÊ·½Ê½,ÆäÖµ°üÀ¨appºÍbrowser(ä¯ÀÀÆ÷) 
browser_type ±íÊ¾ä¯ÀÀÆ÷ÀàÐÍ,µ±ÓÃ»§µÄ·ÃÎÊ·½Ê½ÎªappÊ±,ä¯ÀÀÆ÷ÀàÐÍµÄÖµ
Îªnull 
app_version ±íÊ¾AppµÄ°æ±¾ºÅ,µ±ÓÃ»§µÄ·ÃÎÊ·½Ê½ÎªbrowserÊ±,AppµÄ°æ±¾
ºÅÎªnull 
3.2 Ä£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾Ý
±¾ÏîÄ¿Í¨¹ý±àÐ´Python³ÌÐòÄ£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾Ý¡£ÓÉÓÚÀëÏß·ÖÎöºÍÊµÊ±·ÖÎöËù
ÓÃµÄÓÃ»§ÐÐÎªÊý¾Ý·Ö±ðÀ´×ÔÀúÊ·Êý¾ÝºÍÊµÊ±Êý¾Ý,ËüÃÇÔÚÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼äÉÏ»áÓÐ²î
Òì,ËùÒÔÐèÒª±àÐ´Á½¸öPython³ÌÐò,ÒÔ±ãÉú³ÉÁ½ÖÖ²»Í¬ÀàÐÍµÄÓÃ»§ÐÐÎªÊý¾Ý¡£±¾½Ú½²½â
ÈçºÎÍ¨¹ý±àÐ´Python³ÌÐòÄ£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾Ý¡£

µÚ3ÕÂÊý¾Ý²É¼¯77 

3.1 
Éú³ÉÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý
2.
ÔÚ±¾ÏîÄ¿ÖÐ,ÐèÒªÉú³ÉÒ»ÄêµÄÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý,Ê±¼ä·¶Î§ÊÇ2023 Äê1ÔÂ1ÈÕÖÁ
2023 Äê12 ÔÂ31 ÈÕ¡£½ÓÏÂÀ´ÑÝÊ¾ÈçºÎÊ¹ÓÃ¼¯³É¿ª·¢¹¤¾ßPyCharm ±àÐ´Python³ÌÐò,Êµ
ÏÖÉú³ÉÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄ¹¦ÄÜ,¾ßÌå²Ù×÷²½ÖèÈçÏÂ¡£

1. 
´´½¨ÏîÄ¿
ÔÚPyCharm ÖÐ»ùÓÚ×Ô¶¨Òå»·¾³´´½¨ÃûÎªspark_projectµÄÏîÄ¿,²¢Ö¸¶¨ÏîÄ¿Ê¹ÓÃ±¾
µØ°²×°µÄPythn3.13 °æ±¾µÄPyton½âÊÍÆ÷,ÈçÍ¼31ËùÊ¾¡£

o9.h


Í¼3-
1 
´´½¨ÏîÄ¿

ÔÚÍ¼3-1ÖÐ,µ¥»÷Create°´Å¥´´½¨ÏîÄ¿spark_project¡£

2. 
´´½¨Ä¿Â¼
ÔÚÏîÄ¿spark_projectÖÐ´´½¨ÃûÎªdataµÄÄ¿Â¼,ÓÃÓÚ´æ·ÅÉú³ÉÓÃ»§ÐÐÎªÊý¾ÝµÄ
PythonÎÄ¼þ,ÈçÍ¼3-2ËùÊ¾¡£

3. 
´´½¨PythonÎÄ¼þ
ÔÚÏîÄ¿spark_projectµÄdataÄ¿Â¼ÖÐ´´½¨ÃûÎª
generate_user_data_historyµÄPythonÎÄ¼þ,ÓÃÓÚÊµÏÖ
Éú³ÉÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄPython³ÌÐò¡£

4. 
ÊµÏÖPython³ÌÐò
enerateuserdatahistory.Í¼3-
2 
´´½¨Ä¿Â¼
ÔÚg___py ÎÄ¼þÖÐ,Ìí¼ÓÓÃ



SparkÏîÄ¿ÊµÑµ(Python78 °æ) 
ÓÚÉú³ÉÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄÏà¹ØÄ£¿éºÍ´úÂë,¾ßÌå²Ù×÷²½ÖèÈçÏÂ¡£
(1)ÔÚgenerate_user_data_history.pyÎÄ¼þÖÐµ¼Èëjson¡¢random¡¢datetimeºÍtimeÄ£
¿é,¾ßÌå´úÂëÈçÎÄ¼þ3-1ËùÊ¾¡£
ÎÄ¼þ3-1 generate_user_data_history.py 
1 #ÓÃÓÚ´¦ÀíJSON ¸ñÊ½µÄÊý¾Ý
2 import json 
3 #ÓÃÓÚÉú³ÉËæ»úÊý
4 import random 
5 #ÓÃÓÚ´¦ÀíÈÕÆÚºÍÊ±¼ä
6 import datetime 
7 #ÓÃÓÚÌá¹©ÓëÊ±¼äÏà¹ØµÄº¯Êý
8 import time 
(2)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªrandom_dateµÄº¯Êý,ÓÃÓÚÉú³ÉÒ»¸öÔÚÖ¸¶¨Ê±¼ä·¶Î§ÄÚ
Ëæ»úµÄÊ±¼ä×÷ÎªÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼ä,¾ßÌå´úÂëÈçÏÂ¡£ 
1 def random_date(start, end): 
2 return start + datetime.timedelta( 
3 seconds=random.randint(0, int((end - start).total_seconds())), 
4 ) 
ÉÏÊö´úÂëÖÐ,º¯Êýrandom_date()½ÓÊÕÁ½¸ö²ÎÊýstartºÍend,·Ö±ðÓÃÓÚÖ¸¶¨Ê±¼ä·¶Î§
µÄÆðÊ¼ºÍ½áÊøÊ±¼ä¡£
(3)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªrandom_locationµÄº¯Êý,ÓÃÓÚÉú³ÉÓÃ»§´¥·¢ÐÐÎªµÄµØÀí
Î»ÖÃ,¾ßÌå´úÂëÈçÏÂ¡£ 
1 def random_location(): 
2 locations = { 
3 "±±¾©": ["±±¾©"], 
4 "ÉÏº£": ["ÉÏº£"], 
5 "¹ã¶«": ["¹ãÖÝ", "ÉîÛÚ", "¶«Ý¸", "Öéº£"], 
6 "Õã½­": ["º¼ÖÝ", "Äþ²¨", "ÎÂÖÝ", "¼ÎÐË", "ºþÖÝ"], 
7 "½­ËÕ": ["ÄÏ¾©", "ËÕÖÝ", "ÎÞÎý", "³£ÖÝ", "ÑïÖÝ"], 
8 "ËÄ´¨": ["³É¶¼", "ÃàÑô", "µÂÑô", "ÄÏ³ä", "ÒË±ö"], 
9 "ºþ±±": ["Îäºº", "»ÆÊ¯", "ÒË²ý", "ÏåÑô", "¾£ÖÝ"], 
10 "É½¶«": ["¼ÃÄÏ", "Çàµº", "ÑÌÌ¨", "Î«·»", "×Í²©"], 
11 "ºÓÄÏ": ["Ö£ÖÝ", "ÂåÑô", "¿ª·â", "ÐÂÏç", "°²Ñô"], 
12 "ºÓ±±": ["Ê¯¼Ò×¯", "ÌÆÉ½", "ºªµ¦", "ÕÅ¼Ò¿Ú"], 
13 "ºþÄÏ": ["³¤É³", "ÖêÖÞ", "ÏæÌ¶", "ºâÑô", "ÔÀÑô"] 
14 } 
15 province = random.choice(list(locations.keys())) 
16 city = random.choice(locations[province])

µÚ3ÕÂ Êý¾Ý²É¼¯ 79 
17 return f"{province}, {city}" 
ÉÏÊö´úÂëÖÐ,µÚ2~14ÐÐ´úÂë¶¨ÒåÁËÒ»¸ö×Öµälocations,ÆäÖÐ°üº¬Ê¡·Ý¼°Æä¶ÔÓ¦³ÇÊÐ
µÄÐÅÏ¢¡£Ã¿¸öÊ¡·Ý×÷Îª¼ü,¶ÔÓ¦Ò»¸ö°üº¬¸ÃÊ¡·Ý³ÇÊÐµÄÁÐ±í¡£µÚ15ÐÐ´úÂëÓÃÓÚËæ»úÑ¡Ôñ
Ò»¸öÊ¡·Ý¡£µÚ16ÐÐ´úÂëÔò»ùÓÚÒÑÑ¡ÔñµÄÊ¡·Ý,Ëæ»úÑ¡Ôñ¸ÃÊ¡·ÝµÄÒ»¸ö³ÇÊÐ¡£
(4)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªgenerate_page_infoµÄº¯Êý,ÓÃÓÚÉú³ÉÒ³ÃæÐÅÏ¢,¾ßÌå´ú
ÂëÈçÏÂ¡£ 
1 def generate_page_info(): 
2 product_categories = { 
3 range(1, 31): "Electronics", 
4 range(31, 61): "Clothing", 
5 range(61, 91): "Books", 
6 range(91, 121): "Home", 
7 range(121, 151): "Toys", 
8 range(151, 181): "Sports", 
9 range(181, 211): "Beauty", 
10 range(211, 241): "Health", 
11 range(241, 271): "Automotive", 
12 range(271, 301): "Grocery" 
13 } 
14 product_id = random.randint(1, 300) 
15 category = next( 
16 ( 
17 cat for range_, 
18 cat in product_categories.items() if product_id in range_ 
19 ) 
20 ) 
21 page_info = { 
22 "page_id": product_id, 
23 "page_url": f"https://www.example.com/page_{product_id}", 
24 "product_id": product_id, 
25 "category": category 
26 } 
27 return page_info 
ÉÏÊö´úÂëÖÐ,µÚ2~13ÐÐ´úÂëÊ¹ÓÃ×Öµäproduct_categoriesÀ´¶¨Òå²»Í¬·¶Î§ÉÌÆ·¶ÔÓ¦
µÄÆ·Àà¡£µÚ14ÐÐ´úÂëÉú³ÉÁËÒ»¸öÔÚÖ¸¶¨·¶Î§ÄÚµÄËæ»úÕûÊý,×÷ÎªÉÌÆ·µÄÎ¨Ò»±êÊ¶,Í¬Ê±
Ò²×÷ÎªÒ³ÃæµÄÎ¨Ò»±êÊ¶,ÒÔÈ·±£Ã¿¸öÒ³ÃæÖ»¶ÔÓ¦Ò»¸öÉÌÆ·¡£µÚ15~20ÐÐ´úÂëÓÃÓÚ¸ù¾ÝÉú
³ÉµÄÉÌÆ·µÄÎ¨Ò»±êÊ¶È·¶¨ÆäËùÊôµÄÆ·Àà¡£µÚ21~26ÐÐ´úÂë¶¨ÒåÁËÒ»¸ö°üº¬Ò³ÃæÐÅÏ¢µÄ
×Öµäpage_info,¸Ã×ÖµäµÄµÚÒ»¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§Ëù·ÃÎÊÒ³ÃæµÄÎ¨Ò»±êÊ¶,µÚ¶þ¸ö¼üÖµ¶Ô
±íÊ¾ÓÃ»§Ëù·ÃÎÊÒ³ÃæµÄURLµØÖ·,µÚÈý¸ö¼üÖµ¶Ô±íÊ¾ÉÌÆ·µÄÎ¨Ò»±êÊ¶,µÚËÄ¸ö¼üÖµ¶Ô±í

SparkÏîÄ¿ÊµÑµ(Python80 °æ) 
Ê¾ÉÌÆ·ËùÊôÆ·Àà¡£
(5)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªgenerate_device_infoµÄº¯Êý,ÓÃÓÚÉú³ÉÉè±¸ÐÅÏ¢,¾ßÌå´ú
ÂëÈçÏÂ¡£ 
1 def generate_device_info(): 
2 access_method = random.choice(["browser", "app"]) 
3 device_info = { 
4 "operating_system": random.choice( 
5 ["Windows", "macOS", "Android", "iOS"] 
6 ), 
7 "access_method": access_method 
8 } 
9 if access_method == "browser": 
10 device_info["browser_type"] = random.choice( 
11 ["Chrome", "Firefox", "Safari", "Edge", "Opera"] 
12 ) 
13 device_info["app_version"] = None 
14 elif access_method == "app": 
15 device_info["browser_type"] = None 
16 device_info["app_version"] = (f"{random.randint(8, 10)}." 
17 f"{random.randint(0, 9)}." 
18 f"{random.randint(0, 9)}") 
19 return device_info 
ÉÏÊö´úÂëÖÐ,µÚ2ÐÐ´úÂëÓÃÓÚËæ»úÑ¡ÔñÒ»¸öÓÃ»§µÄ·ÃÎÊ·½Ê½¡£µÚ3~8ÐÐ´úÂë¶¨ÒåÁË
Ò»¸ö°üº¬Éè±¸ÐÅÏ¢µÄ×Öµädevice_info,¸Ã×ÖµäµÄµÚÒ»¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§Ê¹ÓÃµÄ²Ù×÷ÏµÍ³, 
µÚ¶þ¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§µÄ·ÃÎÊ·½Ê½¡£
µÚ9~18ÐÐ´úÂëÓÃÓÚÍ¨¹ýÅÐ¶ÏÓÃ»§µÄ·ÃÎÊ·½Ê½,Ïò×Öµädevice_infoÖÐÌí¼ÓÁ½¸ö¼üÖµ
¶Ô,ËüÃÇµÄ¼ü·Ö±ðÎªbrowser_typeºÍapp_version,±íÊ¾ä¯ÀÀÆ÷ÀàÐÍºÍApp°æ±¾ºÅ¡£µ±ÓÃ
»§µÄ·ÃÎÊ·½Ê½ÎªbrowserÊ±,¼üapp_versionµÄÖµÎªNone,±íÊ¾Ã»ÓÐApp°æ±¾ºÅµÄÐÅÏ¢¡£
µ±ÓÃ»§µÄ·ÃÎÊ·½Ê½ÎªappÊ±,¼übrowser_typeµÄÖµÎªNone,±íÊ¾Ã»ÓÐä¯ÀÀÆ÷ÀàÐÍµÄ
ÐÅÏ¢¡£
(6)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªgenerate_behavior_infoµÄº¯Êý,ÓÃÓÚÉú³ÉÐÐÎªÐÅÏ¢,¾ßÌå
´úÂëÈçÏÂ¡£ 
1 def generate_behavior_info(): 
2 start_date = datetime.datetime(2023, 1, 1) 
3 end_date = datetime.datetime(2023, 12, 31,23,59,59) 
4 behavior_info = { 
5 "user_id": random.randint(1, 10000), 
6 "behavior_type": random.choice(["click", "cart", "purchase"]), 
7 "action_time": str(random_date(start_date, end_date)),

µÚ3ÕÂ Êý¾Ý²É¼¯ 81 
8 "location": random_location() 
9 } 
10 return behavior_info 
ÉÏÊö´úÂëÖÐ,µÚ2ÐÐ´úÂëÓÃÓÚÖ¸¶¨Ê±¼ä·¶Î§µÄÆðÊ¼Ê±¼äÎª2023-01-0100:00:00¡£µÚ
3ÐÐ´úÂëÓÃÓÚÖ¸¶¨Ê±¼ä·¶Î§µÄ½áÊøÊ±¼äÎª2023-12-3123:59:59¡£µÚ4~9ÐÐ´úÂë¶¨ÒåÁË
Ò»¸ö°üº¬ÐÐÎªÐÅÏ¢µÄ×Öµäbehavior_info,¸Ã×ÖµäµÄµÚÒ»¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§µÄÎ¨Ò»±êÊ¶,µÚ
¶þ¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§µÄÐÐÎªÀàÐÍ,µÚÈý¸ö¼üÖµ¶Ô±íÊ¾ÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼ä,µÚËÄ¸ö¼üÖµ¶Ô
±íÊ¾ÓÃ»§´¥·¢ÐÐÎªµÄµØÀíÎ»ÖÃ¡£
(7)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªgenerate_user_behaviorµÄº¯Êý,ÓÃÓÚÕûºÏÒ³ÃæÐÅÏ¢¡¢ÐÐ
ÎªÐÅÏ¢ºÍÉè±¸ÐÅÏ¢,´Ó¶øÉú³ÉÍêÕûµÄÓÃ»§ÐÐÎªÊý¾Ý,¾ßÌå´úÂëÈçÏÂ¡£ 
1 def generate_user_behavior(): 
2 page_info = generate_page_info() 
3 behavior_info = generate_behavior_info() 
4 device_info = generate_device_info() 
5 user_behavior = { 
6 "page_info": page_info, 
7 "behavior_info": behavior_info, 
8 "device_info": device_info 
9 } 
10 return user_behavior 
ÉÏÊö´úÂëÖÐ,µÚ2~4ÐÐ´úÂë·Ö±ðÓÃÓÚ»ñÈ¡Ò³ÃæÐÅÏ¢¡¢ÐÐÎªÐÅÏ¢ºÍÉè±¸ÐÅÏ¢¡£µÚ5~9 
ÐÐ´úÂë¶¨ÒåÁËÒ»¸ö°üº¬ÓÃ»§ÐÐÎªÊý¾ÝµÄ×Öµäuser_behavior,¸Ã×ÖµäµÄµÚÒ»¸ö¼üÖµ¶Ô±íÊ¾
Ò³ÃæÐÅÏ¢,µÚ¶þ¸ö¼üÖµ¶Ô±íÊ¾ÐÐÎªÐÅÏ¢,µÚÈý¸ö¼üÖµ¶Ô±íÊ¾Éè±¸ÐÅÏ¢¡£
(8)ÔÚÎÄ¼þ3-1ÖÐÌí¼ÓÃûÎªoutput_user_behaviorsµÄº¯Êý,ÓÃÓÚ½«Éú³ÉµÄÓÃ»§ÐÐÎª
Êý¾ÝÐ´ÈëÈÕÖ¾ÎÄ¼þ,¾ßÌå´úÂëÈçÏÂ¡£ 
1 def output_user_behaviors(interval, output_file): 
2 try: 
3 with open(output_file, 'a', encoding='utf-8') as f: 
4 while True: 
5 #Éú³ÉÓÃ»§ÐÐÎªÊý¾Ý
6 user_behavior = generate_user_behavior() 
7 #½«ÓÃ»§ÐÐÎªÊý¾Ý×ª»»ÎªJSON ¸ñÊ½
8 user_behavior_json = json.dumps(user_behavior,ensure_ascii=False) 
9 f.write(user_behavior_json + "\n") 
10 f.flush() 
11 time.sleep(interval) 
12 except KeyboardInterrupt: 
13 print("Data generation stopped.")

SparkÏîÄ¿ÊµÑµ(Python82 °æ) 
ÉÏÊö´úÂëÖÐ,º¯Êýoutput_user_behaviors()½ÓÊÕÁ½¸ö²ÎÊýintervalºÍoutput_file,·Ö
±ðÓÃÓÚÖ¸¶¨Éú³ÉÃ¿ÌõÓÃ»§ÐÐÎªÊý¾ÝµÄÊ±¼ä¼ä¸ô(Ãë),ÒÔ¼°ÈÕÖ¾ÎÄ¼þËùÔÚÄ¿Â¼ºÍÃû³Æ¡£
(9)ÔÚÎÄ¼þ3-1ÖÐµ÷ÓÃº¯Êýoutput_user_behaviors(),Ö¸¶¨Éú³ÉÃ¿ÌõÓÃ»§ÐÐÎªÊý¾ÝµÄ
Ê±¼ä¼ä¸ôÎª0.5Ãë,ÈÕÖ¾ÎÄ¼þËùÔÚÄ¿Â¼Îª/export/data/log/2023,ÈÕÖ¾ÎÄ¼þÃû³ÆÎªuser_ 
behaviors.log,¾ßÌå´úÂëÈçÏÂ¡£ 
output_user_behaviors(0.5,"/export/data/log/2023/user_behaviors.log") 
ÐèÒªËµÃ÷µÄÊÇ,ÓÉÓÚ±¾ÏîÄ¿½«Ê¹ÓÃÐéÄâ»úSpark03ÔËÐÐPython³ÌÐò,Òò´ËÉÏÊö´úÂë
Ö¸¶¨µÄÄ¿Â¼ÎªLinux²Ù×÷ÏµÍ³µÄ¸ñÊ½¡£
5.´´½¨Ä¿Â¼
ÔÚÐéÄâ»úSpark03ÖÐ´´½¨ÓÃÓÚ´æ´¢ÈÕÖ¾ÎÄ¼þuser_behaviors.logµÄÄ¿Â¼/export/ 
data/log/2023,¾ßÌåÃüÁîÈçÏÂ¡£ 
mkdir -p /export/data/log/2023 
3.2.2 Éú³ÉÊµÊ±ÓÃ»§ÐÐÎªÊý¾Ý
ÔÚ±¾ÏîÄ¿ÖÐ,Éú³ÉÊµÊ±ºÍÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄPython³ÌÐò»ù±¾Ò»ÖÂ,²»Í¬Ö®´¦ÔÚ
ÓÚ,ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝÊ¹ÓÃÏµÍ³µ±Ç°Ê±¼äÀ´Éú³ÉÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼ä¡£Òò´Ë,¿ÉÒÔ²Î¿¼
generate_user_data_history.pyÎÄ¼þÖÐµÄ´úÂë,À´±àÐ´Éú³ÉÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄPython 
³ÌÐò,²Ù×÷²½ÖèÈçÏÂ¡£
1.´´½¨PythonÎÄ¼þ
ÔÚÏîÄ¿spark_projectµÄdataÄ¿Â¼ÖÐ´´½¨ÃûÎªgenerate_user_data_realµÄPythonÎÄ
¼þ,ÓÃÓÚÊµÏÖÉú³ÉÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄPython³ÌÐò¡£
2.ÊµÏÖPython³ÌÐò
ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐ,Ìí¼ÓÓÃÓÚÉú³ÉÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄÏà¹ØÄ£¿é
ºÍ´úÂë,¾ßÌå²Ù×÷²½ÖèÈçÏÂ¡£
(1)½«generate_user_data_history.pyÎÄ¼þÖÐµÄÄÚÈÝ¸´ÖÆµ½generate_user_data_ 
real.pyÎÄ¼þÖÐ¡£
(2)ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐ,½«µ¼ÈëdatetimeÄ£¿éµÄ´úÂëÌæ»»ÎªÈçÏÂ
´úÂë¡£ 
from datetime import datetime 
(3)ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐµ¼ÈëosÄ£¿éÓÃÓÚÓë²Ù×÷ÏµÍ³½»»¥,¾ßÌå´ú
ÂëÈçÏÂ¡£ 
import os 
(4)ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐ,É¾³ýÃûÎªrandom_dateµÄº¯Êý¡£

µÚ3ÕÂ Êý¾Ý²É¼¯ 83 
(5)ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐ,ÐÞ¸ÄÃûÎªgenerate_behavior_infoµÄº¯
Êý,¸Ãº¯ÊýÐÞ¸ÄÍê³ÉµÄÄÚÈÝÈçÏÂ¡£ 
1 def generate_behavior_info(): 
2 current_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S') 
3 behavior_info = { 
4 "user_id": random.randint(1, 10000), 
5 "behavior_type": random.choice(["click", "cart", "purchase"]), 
6 "action_time": current_time, 
7 "location": random_location() 
8 } 
9 return behavior_info 
ÉÏÊö´úÂëÖÐ,µÚ2 ÐÐ´úÂëÓÃÓÚ»ñÈ¡µ±Ç°ÏµÍ³Ê±¼ä,²¢½«Æä×ª»»ÎªYYYY-mm-dd 
HH:mm:ss(Äê-ÔÂ-ÈÕÊ±:·Ö:Ãë)¸ñÊ½µÄ×Ö·û´®¡£
(6)ÔÚgenerate_user_data_real.pyÎÄ¼þÖÐ,½«µ÷ÓÃº¯Êýoutput_user_behaviors()µÄ
´úÂëÐÞ¸ÄÎªÈçÏÂÄÚÈÝ¡£ 
1 #¸ù¾Ýµ±Ç°ÏµÍ³Ê±¼ä»ñÈ¡Äê·Ý
2 current_year = datetime.now().year 
3 #Ö¸¶¨ÈÕÖ¾ÎÄ¼þËùÔÚÄ¿Â¼
4 directory_template = "/export/data/log/{year}" 
5 #¶¨ÒåÈÕÖ¾ÎÄ¼þµÄÃû³Æ
6 file_name = "user_behaviors.log" 
7 #½«Ö¸¶¨Ä¿Â¼ÖÐµÄÕ¼Î»·ûÌæ»»Îª»ñÈ¡µÄÄê·Ý
8 directory = directory_template.format(year=current_year) 
9 #ÅÐ¶ÏÄ¿Â¼ÊÇ·ñ´æÔÚ,Èô²»´æÔÚ,Ôò´´½¨¸ÃÄ¿Â¼
10 os.makedirs(directory, exist_ok=True) 
11 #½«Ä¿Â¼ºÍÈÕÖ¾ÎÄ¼þµÄÃû³ÆºÏ²¢³ÉÒ»¸öÍêÕûµÄÎÄ¼þÂ·¾¶
12 output_file = os.path.join(directory, file_name) 
13 output_user_behaviors(0.5,output_file) 
ÉÏÊö´úÂëÍ¨¹ýµ÷ÓÃº¯Êýoutput_user_behaviors()½«ÓÃ»§ÐÐÎªÊý¾ÝÐ´ÈëÖ¸¶¨Ä¿Â¼µÄÈÕ
Ö¾ÎÄ¼þuser_behaviors.log¡£ÆäÖÐ,/export/data/logÄ¿Â¼µÄ×ÓÄ¿Â¼»á¸ù¾Ýµ±Ç°ÏµÍ³Ê±¼ä
ÖÐµÄÄê·Ý×Ô¶¯Éú³É¡£
3.3 ÅäÖÃ²É¼¯·½°¸
±¾ÏîÄ¿ÐèÒªÔÚÐéÄâ»úSpark03ÉÏÆô¶¯Á½¸öFlumeAgent,·Ö±ð¸ºÔð²É¼¯ÀúÊ·ºÍÊµÊ±
ÓÃ»§ÐÐÎªÊý¾Ý¡£Òò´Ë,ÐèÒªÎªÕâÁ½¸öFlumeAgentÅäÖÃ²»Í¬µÄ²É¼¯·½°¸,ÒÔÊÊÓ¦²»Í¬µÄ
Êý¾Ý²É¼¯ÐèÇó,¾ßÌåÊµÏÖ¹ý³ÌÈçÏÂ¡£
1.ÅäÖÃ²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄ·½°¸
²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgentÔÚÆô¶¯Ê±,»á¶ÔÊý¾Ý½øÐÐJSON ¸ñÊ½Ð£Ñé,

SparkÏîÄ¿ÊµÑµ(Python84 °æ) 
ÒÔÈ·±£ºóÐøÊý¾Ý·ÖÎöºÍ´æ´¢¹ý³ÌÖÐÊ¹ÓÃµÄÊý¾Ý·ûºÏJSON ¸ñÊ½ÒªÇó¡£Ð£ÑéÍ¨¹ýºó, 
FlumeAgent½«¸ù¾ÝÓÃ»§ÐÐÎª´¥·¢Ê±¼äµÄÈÕÆÚ,½«ÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý·¢ËÍµ½HDFSµÄ²»
Í¬Ä¿Â¼ÖÐ¡£
²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgentÖ÷Òª°üÀ¨Source¡¢ChannelºÍSinkÈý¸ö×é
¼þ¡£ÆäÖÐ,Source ×é¼þµÄÀàÐÍÎªTaildirSource,¸ºÔð¼à¿ØºÍ¶ÁÈ¡ÈÕÖ¾ÎÄ¼þuser_ 
behaviors.logÖÐµÄÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý¡£Channel×é¼þµÄÀàÐÍÎªFileChannel,¸ºÔð½«
FlumeÖÐµÄÊÂ¼þ³Ö¾Ã»¯µ½´ÅÅÌÉÏ¡£Sink×é¼þµÄÀàÐÍÎªHDFSSink,¸ºÔð½«ÀúÊ·ÓÃ»§ÐÐÎª
Êý¾ÝÊä³öµ½HDFSµÄÖ¸¶¨Ä¿Â¼¡£
½ÓÏÂÀ´ÑÝÊ¾ÈçºÎÔÚÐéÄâ»úSpark03ÖÐÅäÖÃ²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄ·½°¸,²Ù×÷²½Öè
ÈçÏÂ¡£
(1)ÔÚÐéÄâ»úSpark03ÖÐ´´½¨/export/data/flume_confÄ¿Â¼,ÓÃÓÚ´æ·Å²É¼¯·½°¸µÄ
ÅäÖÃÎÄ¼þ,¾ßÌåÃüÁîÈçÏÂ¡£ 
mkdir /export/data/flume_conf 
(2)ÔÚÐéÄâ»úSpark03µÄ/export/data/flume_confÄ¿Â¼ÖÐ,Ê¹ÓÃvi±à¼­Æ÷±à¼­ÅäÖÃ
ÎÄ¼þflume-logs-history.conf,ÔÚ¸ÃÎÄ¼þÖÐÌí¼Ó²É¼¯·½°¸,¾ßÌåÄÚÈÝÈçÎÄ¼þ3-2ËùÊ¾¡£
ÎÄ¼þ3-2 flume-logs-history.conf 
1 #¶¨ÒåSource ×é¼þµÄ±êÊ¶r1 
2 a1.sources = r1 
3 #¶¨ÒåChannel ×é¼þµÄ±êÊ¶c1 
4 a1.channels = c1 
5 #¶¨ÒåSink ×é¼þµÄ±êÊ¶k1 
6 a1.sinks = k1 
7 #¶¨ÒåSource ×é¼þµÄÀàÐÍÎªTaildir Source 
8 a1.sources.r1.type = TAILDIR 
9 #¶¨ÒåÓÃÓÚ¼ÇÂ¼±»¼à¿ØÎÄ¼þµ±Ç°¶ÁÈ¡Î»ÖÃµÄÎÄ¼þtaildir_position_history.json 
10 a1.sources.r1.positionFile = /export/data/flume/taildir_position_ 
history.json 
11 #¶¨ÒåÎÄ¼þ×éµÄ±êÊ¶Îªf1 
12 a1.sources.r1.filegroups = f1 
13 #¶¨ÒåÎÄ¼þ×éf1 ÖÐ±»¼à¿ØÎÄ¼þµÄÎ»ÖÃ,¼´ÈÕÖ¾ÎÄ¼þuser_behaviors.log ËùÔÚÄ¿Â¼
14 a1.sources.r1.filegroups.f1 = /export/data/log/2023/user_behaviors.log 
15 #¶¨ÒåSource ×é¼þÖÐÀ¹½ØÆ÷µÄ±êÊ¶i1 
16 a1.sources.r1.interceptors = i1 
17 #ÔÚ±êÊ¶Îªi1 µÄÀ¹½ØÆ÷ÖÐÌí¼ÓÒ»¸ö×Ô¶¨ÒåÀ¹½ØÆ÷,ÓÃÓÚÐ£ÑéÊý¾ÝÊÇ·ñÎªJSON ¸ñÊ½²¢½«ÓÃ
#»§´¥·¢ÐÐÎªµÄÊ±¼ä×ª»»ÎªÊ±¼ä´Á¸ñÊ½Ö®ºóÌí¼Óµ½ÊÂ¼þµÄheader ÖÐ
18 a1.sources.r1.interceptors.i1.type = cn.itcast.flume 
.JsonAndTimestampInterceptor$Builder 
19 #¶¨ÒåChannel ×é¼þµÄÀàÐÍÎªFile Channel 
20 a1.channels.c1.type = file

µÚ3ÕÂ Êý¾Ý²É¼¯ 85 
21 #¶¨ÒåFile Channel ´æ´¢ÔªÊý¾ÝµÄÄ¿Â¼
22 a1.channels.c1.checkpointDir = /export/data/flume/checkpoint 
23 #¶¨ÒåFile Channel ´æ´¢ÊÂ¼þµÄÄ¿Â¼
24 a1.channels.c1.dataDirs = /export/data/flume/data 
25 #¶¨ÒåSink ×é¼þµÄÀàÐÍÎªHDFS Sink 
26 a1.sinks.k1.type = hdfs 
27 #¶¨ÒåHDFS Sink ½«Êý¾ÝÊä³öµ½Ö¸¶¨Ä¿Â¼µÄÎÄ¼þÖÐ,ÆäÖÐ%Y-%m-%d ±íÊ¾¸ù¾ÝÈÕÆÚ´´½¨Ä¿
#Â¼,Èç2023-11-02 
28 a1.sinks.k1.hdfs.path = /origin_data/log/user_behaviors/%Y-%m-%d 
29 #¶¨ÒåÎÄ¼þµÄÇ°×ºÎªlog 
30 a1.sinks.k1.hdfs.filePrefix = log 
31 #¶¨Òå¹ö¶¯ÐÂÎÄ¼þµÄÊ±¼ä¼ä¸ôÎª10 Ãë
32 a1.sinks.k1.hdfs.rollInterval = 10 
33 #¶¨Òå¹ö¶¯ÐÂÎÄ¼þµÄ´óÐ¡Îª0,±íÊ¾²»¸ù¾ÝÎÄ¼þ´óÐ¡¹ö¶¯ÐÂÎÄ¼þ
34 a1.sinks.k1.hdfs.rollSize = 0 
35 #¶¨Òå¹ö¶¯ÐÂÎÄ¼þµÄÊÂ¼þÊýÎª0,±íÊ¾²»¸ù¾ÝÊÂ¼þÊý¹ö¶¯ÐÂÎÄ¼þ
36 a1.sinks.k1.hdfs.rollCount = 0 
37 #¶¨ÒåÎÄ¼þµÄÀàÐÍÎªÑ¹ËõÎÄ¼þ,ÒÔ¼õÉÙ´æ´¢¿Õ¼äºÍÌá¸ß´«ÊäÐ§ÂÊ
38 a1.sinks.k1.hdfs.fileType = CompressedStream 
39 #¶¨ÒåÑ¹ËõÎÄ¼þµÄÑ¹Ëõ±à½âÂëÆ÷ÎªGZIP 
40 a1.sinks.k1.hdfs.codeC = gzip 
41 #½«Source ×é¼þÓëChannel ×é¼þ¹ØÁª
42 a1.sources.r1.channels = c1 
43 #½«Sink ×é¼þÓëChannel ×é¼þ¹ØÁª
44 a1.sinks.k1.channel = c1 
ÔÚÎÄ¼þ3-2ÖÐ,Ö¸¶¨FlumeAgentµÄ±êÊ¶Îªa1,ÆäÖÐµÚ28ÐÐ´úÂëÒÀ¾ÝµÄÈÕÆÚÀ´Ô´ÓÚ
Ã¿ÌõÓÃ»§ÐÐÎªÊý¾ÝÖÐÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼ä¡£µÚ18ÐÐ´úÂëÌí¼ÓµÄ×Ô¶¨ÒåÀ¹½ØÆ÷ÐèÒªÍ¨¹ý
±àÐ´Java³ÌÐòÀ´ÊµÏÖ,Æä¾ßÌåÊµÏÖ¹ý³Ì±¾Êé²»×÷ÖØµã½²½â¡£ÔÚ±¾ÊéµÄÅäÌ××ÊÔ´ÖÐÌá¹©ÁË
×Ô¶¨ÒåÀ¹½ØÆ÷µÄjarÎÄ¼þFlumeInterceptor.jar,¹©¶ÁÕßÖ±½ÓÊ¹ÓÃ¡£µÚ40ÐÐ´úÂëÊ¹ÓÃÑ¹Ëõ
±à½âÂëÆ÷GZIPÊÇÒòÎªÆä¾ßÓÐ½Ï¸ßµÄÑ¹ËõÂÊ,¿ÉÒÔ×î´ó³Ì¶È¼õÉÙ´æ´¢¿Õ¼ä¡£
ÔÚÎÄ¼þ3-2ÖÐÌí¼Ó²É¼¯·½°¸ºó,±£´æ²¢ÍË³ö±à¼­¡£
2.ÅäÖÃ²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄ·½°¸
²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgentÔÚÆô¶¯Ê±,»á¶ÔÊý¾Ý½øÐÐJSON ¸ñÊ½Ð£Ñé, 
ÒÔÈ·±£ºóÐøÊý¾Ý·ÖÎöºÍ´æ´¢¹ý³ÌÖÐÊ¹ÓÃµÄÊý¾Ý·ûºÏJSON ¸ñÊ½ÒªÇó¡£Ð£ÑéÍ¨¹ýºó, 
FlumeAgent½«ÊµÊ±ÓÃ»§ÐÐÎªÊý¾Ý·¢ËÍµ½Kafka¡£
²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgentÖ÷Òª°üÀ¨SourceºÍChannelÁ½¸ö×é¼þ¡£Æä
ÖÐ,Source×é¼þµÄÀàÐÍÎªTaildirSource,¸ºÔð¼à¿ØºÍ¶ÁÈ¡ÈÕÖ¾ÎÄ¼þuser_behaviors.logÖÐ
µÄÓÃ»§ÐÐÎªÊý¾Ý¡£Channel×é¼þµÄÀàÐÍÎªKafkaChannel,ÓÃÓÚ½«ÓÃ»§ÐÐÎªÊý¾Ý´«Êäµ½
Kafka¡£
ÔÚÐéÄâ»úSpark03µÄ/export/data/flume_confÄ¿Â¼ÖÐ,Ê¹ÓÃvi±à¼­Æ÷±à¼­ÅäÖÃÎÄ¼þ

SparkÏîÄ¿ÊµÑµ(Python86 °æ) 
flume-logs-real.conf,ÔÚ¸ÃÎÄ¼þÖÐÌí¼Ó²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄ·½°¸,¾ßÌåÄÚÈÝÈçÎÄ¼þ3-3 
ËùÊ¾¡£
ÎÄ¼þ3-3 flume-logs-real.conf 
1 #¶¨ÒåSource ×é¼þµÄ±êÊ¶r1 
2 a2.sources = r1 
3 #¶¨ÒåChannel ×é¼þµÄ±êÊ¶c1 
4 a2.channels = c1 
5 #¶¨ÒåSource ×é¼þµÄÀàÐÍÎªTaildir Source 
6 a2.sources.r1.type = TAILDIR 
7 #¶¨ÒåÓÃÓÚ¼ÇÂ¼±»¼à¿ØÎÄ¼þµ±Ç°¶ÁÈ¡Î»ÖÃµÄÎÄ¼þtaildir_position_real.json 
8 a2.sources.r1.positionFile = /export/data/flume/taildir_position_real 
.json 
9 #¶¨ÒåÎÄ¼þ×éµÄ±êÊ¶Îªf1 
10 a2.sources.r1.filegroups = f1 
11 #¶¨ÒåÎÄ¼þ×éf1 ÖÐ±»¼à¿ØÎÄ¼þµÄÎ»ÖÃ,¼´ÈÕÖ¾ÎÄ¼þuser_behaviors.log ËùÔÚÄ¿Â¼
12 a2.sources.r1.filegroups.f1 = /export/data/log/2024/user_behaviors.log 
13 #¶¨ÒåSource ×é¼þÖÐÀ¹½ØÆ÷µÄ±êÊ¶i1 
14 a2.sources.r1.interceptors = i1 
15 #ÔÚ±êÊ¶Îªi1 µÄÀ¹½ØÆ÷ÖÐÌí¼ÓÒ»¸ö×Ô¶¨ÒåÀ¹½ØÆ÷,ÓÃÓÚÐ£ÑéÊý¾ÝÊÇ·ñÎªJSON ¸ñÊ½
16 a2.sources.r1.interceptors.i1.type = cn.itcast.flume 
.JsonValidationInterceptor$Builder 
17 #¶¨ÒåChannel ×é¼þµÄÀàÐÍÎªKafka Channel 
18 a2.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel 
19 #¶¨ÒåKafka ¼¯ÈºµÄµØÖ·
20 a2.channels.c1.kafka.bootstrap.servers = spark01:9092,spark02:9092,spark03: 
9092 
21 #¶¨ÒåKakfa µÄÖ÷Ìâuser_behavior_topic 
22 a2.channels.c1.kafka.topic = user_behavior_topic 
23 #¹Ø±ÕFlume ¶ÔÊý¾ÝµÄÊÂ¼þ½âÎö¹¦ÄÜ
24 a2.channels.c1.parseAsFlumeEvent = false 
25 #½«Channel ×é¼þÓëSource ×é¼þ¹ØÁª
26 a2.sources.r1.channels = c1 
ÔÚÎÄ¼þ3-3ÖÐÖ¸¶¨FlumeAgentµÄ±êÊ¶Îªa2¡£µÚ16ÐÐ´úÂëÌí¼ÓµÄ×Ô¶¨ÒåÀ¹½ØÆ÷Ðè
ÒªÍ¨¹ý±àÐ´Java³ÌÐòÀ´ÊµÏÖ,Æä¾ßÌåÊµÏÖ¹ý³Ì±¾Êé²»×÷ÖØµã½²½â¡£ÔÚ±¾ÊéµÄÅäÌ××ÊÔ´ÖÐ
Ìá¹©ÁË×Ô¶¨ÒåÀ¹½ØÆ÷µÄjarÎÄ¼þFlumeInterceptor.jar,¹©¶ÁÕßÖ±½ÓÊ¹ÓÃ¡£
ÔÚÎÄ¼þ3-3ÖÐÌí¼Ó²É¼¯·½°¸ºó,±£´æ²¢ÍË³ö±à¼­¡£ÐèÒª×¢ÒâµÄÊÇ,ÎÄ¼þ3-3ÖÐÈÕÖ¾ÎÄ
¼þuser_behaviors.logËùÔÚÄ¿Â¼ÐèÒª¸ù¾Ýgenerate_user_data_real.pyÎÄ¼þÔËÐÐÊ±Êµ¼ÊÉú
³ÉµÄÄ¿Â¼½øÐÐÐÞ¸Ä¡£
3.Ìí¼Ó×Ô¶¨ÒåÀ¹½ØÆ÷
²Î¿¼µÚ2ÕÂÉÏ´«JDK°²×°°üµÄ·½Ê½,½«jarÎÄ¼þFlumeInterceptor.jar.jarÉÏ´«µ½Ðé
Äâ»úSpark03µÄ/export/servers/flume-1.10.1/libÄ¿Â¼ÖÐ,´Ó¶øÔÚFlumeÖÐÌí¼Ó×Ô¶¨Òå

µÚ3ÕÂ Êý¾Ý²É¼¯ 87 
À¹½ØÆ÷¡£
3.4 ²É¼¯ÓÃ»§ÐÐÎªÊý¾Ý
±¾½Ú½²½âÈçºÎÊ¹ÓÃ3.3½ÚÅäÖÃµÄ²É¼¯·½°¸,·Ö±ðÆô¶¯¸ºÔð²É¼¯ÀúÊ·ºÍÊµÊ±ÓÃ»§ÐÐÎª
Êý¾ÝFlumeAgent,ÒÔÍê³É±¾ÏîÄ¿ÖÐ²É¼¯ÓÃ»§ÐÐÎªÊý¾ÝµÄ¹¦ÄÜ,¾ßÌåÄÚÈÝÈçÏÂ¡£
1.Æô¶¯²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgent 
ÔÚÐéÄâ»úSpark03ÖÐÆô¶¯FlumeAgentµÄ²Ù×÷²½ÖèÈçÏÂ¡£
(1)Æô¶¯HDFS¼¯Èº¡£È·±£ÐéÄâ»úSpark01¡¢Spark02ºÍSpark03ÖÐHDFS¼¯ÈºµÄÏà
¹Ø½ø³ÌÕý³£Æô¶¯¡£ÐèÒªËµÃ÷µÄÊÇ,ÎªÁËÓÅ»¯×ÊÔ´ÀûÓÃ,ÔÚ²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾ÝÊ±,¿ÉÒÔ
Ñ¡Ôñ½öÆô¶¯¼¯Èº»·¾³ÖÐµÄHDFS¼¯Èº¡£
(2)²Î¿¼µÚ2 ÕÂÉÏ´«JDK °²×°°üµÄ·½Ê½,½«Python ÎÄ¼þgenerate_user_data_ 
history.pyÉÏ´«µ½ÐéÄâ»úSpark03µÄ/export/serversÄ¿Â¼ÖÐ¡£
(3)ÔÚÐéÄâ»úSpark03ÖÐÆô¶¯FlumeAgent,´Ó/export/data/log/2023Ä¿Â¼ÖÐµÄÈÕ
Ö¾ÎÄ¼þuser_behaviors.logÀï²É¼¯ÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý,¾ßÌåÃüÁîÈçÏÂ¡£ 
flume-ng agent --name a1 --conf conf/ --conf-file \ 
/export/data/flume_conf/flume-logs-history.conf \ 
-Dflume.root.logger=INFO,console 
ÉÏÊöÃüÁîÖÐ,²ÎÊý--nameÖ¸¶¨µÄ²ÎÊýÖµa1ÎªFlumeAgentµÄ±êÊ¶,¸Ã±êÊ¶ÐèÒªÓëÅä
ÖÃÎÄ¼þflume-logs-history.confÖÐFlumeAgentµÄ±êÊ¶Ò»ÖÂ¡£
ÉÏÊöÃüÁîÖ´ÐÐÍê³Éºó,FlumeAgent»áÕ¼ÓÃTabbyÖÐÐéÄâ»úSpark03µÄ²Ù×÷´°¿Ú, 
Òò´ËÓÃ»§ÎÞ·¨½øÐÐÆäËû²Ù×÷¡£¶ÁÕß¿ÉÒÔÔÚTabbyÖÐÓÒ»÷ÐéÄâ»úSpark03µÄ²Ù×÷´°¿Ú,ÔÚ
µ¯³öµÄ²Ëµ¥ÖÐÑ¡Ôñ¡°¿ËÂ¡¡±Ñ¡Ïî,Í¨¹ý¿ËÂ¡µÄ·½Ê½´´½¨Ò»¸öÐéÄâ»úSpark03µÄÐÂ²Ù×÷´°¿Ú, 
ÈçÍ¼3-3ËùÊ¾¡£
Í¼3-3 ´´½¨Ò»¸öÐéÄâ»úSpark03µÄÐÂ²Ù×÷´°¿Ú
(4)ÔÚTabbyÖÐ´´½¨Ò»¸öÐéÄâ»úSpark03µÄÐÂ²Ù×÷´°¿Ú,ÓÃÓÚÖ´ÐÐPythonÎÄ¼þ

SparkÏîÄ¿ÊµÑµ(Python88 °æ) 
generate_user_data_history.py,Ïò/export/data/log/2023 Ä¿Â¼µÄÈÕÖ¾ÎÄ¼þuser_ 
behaviors.logÖÐÐ´ÈëÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý,¾ßÌåÃüÁîÈçÏÂ¡£ 
python /export/servers/generate_user_data_history.py 
ÉÏÊöÃüÁîÖ´ÐÐÍê³Éºó,Python³ÌÐò»áÕ¼ÓÃTabbyÖÐÐéÄâ»úSpark03µÄ²Ù×÷´°¿Ú,Òò
´ËÓÃ»§ÎÞ·¨½øÐÐÆäËû²Ù×÷¡£
(5)ÔÚHDFSµÄ/origin_data/log/user_behaviorsÄ¿Â¼ÖÐ,¼ì²é²É¼¯µÄÀúÊ·ÓÃ»§ÐÐÎª
Êý¾ÝÊÇ·ñ¸ù¾ÝÓÃ»§´¥·¢ÐÐÎªÊ±¼äÖÐµÄÈÕÆÚ,ÕýÈ··ÖÅäµ½HDFSµÄ²»Í¬Ä¿Â¼ÖÐ¡£ÔÚÐéÄâ»ú
Spark01Ö´ÐÐÈçÏÂÃüÁî¡£ 
hdfs dfs -ls /origin_data/log/user_behaviors 
ÉÏÊöÃüÁîÖ´ÐÐÍê³ÉµÄÐ§¹ûÈçÍ¼3-4ËùÊ¾¡£
Í¼3-4 ²é¿´/origin_data/log/user_behaviorsÄ¿Â¼ÖÐµÄÄÚÈÝ
Í¼3-4Õ¹Ê¾ÁË/origin_data/log/user_behaviorsÄ¿Â¼µÄ²¿·ÖÄÚÈÝ¡£¸ÃÄ¿Â¼ÏÂÓÐÐí¶à°´
ÕÕÈÕÆÚÃüÃûµÄ×ÓÄ¿Â¼,Ã¿¸ö×ÓÄ¿Â¼ÖÐ°üº¬ÁË¶ÔÓ¦ÈÕÆÚµÄÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý¡£
(6)²é¿´/origin_data/log/user_behaviorsÄ¿Â¼ÖÐÈÎÒâ×ÓÄ¿Â¼°üº¬µÄÎÄ¼þ¡£ÕâÀïÒÔ
/origin_data/log/user_behaviors/2023-04-29Ä¿Â¼ÎªÀý,ÔÚÐéÄâ»úSpark01Ö´ÐÐÈçÏÂÃüÁî¡£ 
hdfs dfs -ls /origin_data/log/user_behaviors/2023-04-29 
ÉÏÊöÃüÁîÖ´ÐÐÍê³ÉµÄÐ§¹ûÈçÍ¼3-5ËùÊ¾¡£
Í¼3-5 ²é¿´/origin_data/log/user_behaviors/2023-04-29Ä¿Â¼µÄÄÚÈÝ

µÚ3ÕÂ Êý¾Ý²É¼¯ 89 
´ÓÍ¼3-5¿ÉÒÔ¿´³ö,/origin_data/log/user_behaviors/2023-04-29Ä¿Â¼ÏÂÓÐ3¸öÑ¹Ëõ
ÎÄ¼þ(.gz),ÕâÐ©Ñ¹ËõÎÄ¼þ´æ´¢ÁË2023Äê4ÔÂ29ÈÕµÄÓÃ»§ÐÐÎªÊý¾Ý¡£ÐèÒªËµÃ÷µÄÊÇ,¶Á
ÕßÔÚÊµ¼Ê²Ù×÷Ê±,Í¼3-5ÏÔÊ¾µÄÎÄ¼þÃû»áÓë´Ë²»Í¬¡£
(7)²é¿´/origin_data/log/user_behaviors/2023-04-29Ä¿Â¼ÖÐÈÎÒâÑ¹ËõÎÄ¼þ°üº¬µÄ
ÄÚÈÝ¡£ÕâÀïÒÔlog.1720173246809.gzÎÄ¼þÎªÀý,ÔÚÐéÄâ»úSpark01Ö´ÐÐÈçÏÂÃüÁî¡£ 
hdfs dfs -text \ 
/origin_data/log/user_behaviors/2023-04-29/log.1720173246809.gz 
ÉÏÊöÃüÁîÖ´ÐÐÍê³ÉµÄÐ§¹ûÈçÍ¼3-6ËùÊ¾¡£
Í¼3-6 ²é¿´log.1720173246809.gzÎÄ¼þµÄÄÚÈÝ
´ÓÍ¼3-6¿ÉÒÔ¿´³ö,log.1720173246809.gzÎÄ¼þÖÐ°üº¬Ò»ÌõÓÃ»§ÐÐÎªÊý¾Ý,¸ÃÊý¾ÝÖÐ
ÓÃ»§´¥·¢ÐÐÎªµÄÊ±¼äÎª2023Äê4ÔÂ29ÈÕ¡£Òò´ËËµÃ÷,²É¼¯µÄÓÃ»§ÐÐÎªÊý¾Ý¸ù¾ÝÓÃ»§´¥
·¢ÐÐÎªÊ±¼äÖÐµÄÈÕÆÚ,ÕýÈ··ÖÅäµ½HDFSµÄ²»Í¬Ä¿Â¼ÖÐ¡£
Ð¡ÌáÊ¾:ÐéÄâ»úSpark03ÖÐFlumeAgentºÍPython³ÌÐòµÄÔËÐÐÊ±³¤¾ö¶¨ÁËÉú³ÉÀú
Ê·ÓÃ»§ÐÐÎªÊý¾ÝµÄÊýÁ¿¡£½¨Òé¶ÁÕßÔÚÐéÄâ»úSpark03ÖÐÔËÐÐFlumeAgentºÍPython³Ì
Ðò½Ï³¤Ê±¼ä,ÒÔÉú³É¸ü¶àµÄÀúÊ·ÓÃ»§ÐÐÎªÊý¾Ý,´Ó¶øÊ¹ºóÐøµÄÊý¾Ý·ÖÎö½á¹û¸ü¼Ó·á¸»¡£
2.Æô¶¯²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgent 
ÔÚÐéÄâ»úSpark03ÖÐÆô¶¯FlumeAgentµÄ²Ù×÷²½ÖèÈçÏÂ¡£
(1)Æô¶¯HDFS¼¯Èº¡¢ZooKeeper¼¯ÈººÍKafka¼¯Èº,È·±£ÐéÄâ»úSpark01¡¢Spark02 
ºÍSpark03ÖÐÕâÐ©¼¯ÈºµÄÏà¹Ø½ø³ÌÕý³£Æô¶¯¡£ÐèÒªËµÃ÷µÄÊÇ,ÎªÁËÓÅ»¯×ÊÔ´ÀûÓÃ,ÔÚ²É¼¯
ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝÊ±,¿ÉÒÔ²»Æô¶¯¼¯Èº»·¾³ÖÐµÄYARN ¼¯Èº¡¢Doris¼¯ÈººÍHiveµÄÏà¹Ø
·þÎñ¡£
(2)²Î¿¼µÚ2ÕÂÉÏ´«JDK°²×°°üµÄ·½Ê½,½«PythonÎÄ¼þgenerate_user_data_real.py 
ÉÏ´«µ½ÐéÄâ»úSpark03µÄ/export/serversÄ¿Â¼ÖÐ¡£
(3)ÔÚKafkaÖÐ´´½¨Ö÷Ìâuser_behavior_topic¡£ÔÚÐéÄâ»úSpark01Ö´ÐÐÈçÏÂÃüÁî¡£ 
kafka-topics.sh --create --topic user_behavior_topic \ 
--partitions 3 --replication-factor 2 \ 
--bootstrap-server spark01:9092,spark02:9092,spark03:9092 
Í¨¹ýÉÏÊöÃüÁîÔÚKafkaÖÐ´´½¨µÄÖ÷Ìâuser_behavior_topic°üº¬3¸ö·ÖÇøºÍ2¸ö¸±
±¾,ÒÔÌáÉý´¦ÀíÐ§ÂÊºÍÊý¾ÝµÄÈÝ´íÐÔ¡£ÉÏÊöÃüÁî´´½¨µÄÖ÷ÌâÐèÒªÓëÅäÖÃÎÄ¼þflume-logs

SparkÏîÄ¿ÊµÑµ(Python90 °æ) 
real.confÖÐÖ¸¶¨µÄKafkaÖ÷ÌâÒ»ÖÂ¡£
ÉÏÊöÃüÁîÖ´ÐÐÍê³Éºó,Èô³öÏÖ¡°Createdtopicuser_behavior_topic¡±µÄÌáÊ¾ÐÅÏ¢,ËµÃ÷
ÔÚKafkaÖÐ³É¹¦´´½¨Ö÷Ìâuser_behavior_topic¡£
(4)ÔÚTabbyÖÐ´´½¨Ò»¸öÐéÄâ»úSpark03µÄÐÂ²Ù×÷´°¿Ú,ÓÃÓÚÖ´ÐÐPythonÎÄ¼þ
generate_user_data_real.py,Ïò/export/data/log/2024Ä¿Â¼µÄÈÕÖ¾ÎÄ¼þuser_behaviors 
.logÖÐÐ´ÈëÊµÊ±ÓÃ»§ÐÐÎªÊý¾Ý,¾ßÌåÃüÁîÈçÏÂ¡£ 
python /export/servers/generate_user_data_real.py 
(5)ÔÚTabbyÖÐ´´½¨Ò»¸öÐéÄâ»úSpark03µÄÐÂ²Ù×÷´°¿Ú,ÓÃÓÚÆô¶¯FlumeAgent, 
´Ó/export/data/log/2024Ä¿Â¼ÖÐµÄÈÕÖ¾ÎÄ¼þuser_behaviors.logÀï²É¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý
¾Ý,¾ßÌåÃüÁîÈçÏÂ¡£ 
flume-ng agent --name a2 --conf conf/ --conf-file \ 
/export/data/flume_conf/flume-logs-real.conf \ 
-Dflume.root.logger=INFO,console 
ÉÏÊöÃüÁîÖÐ,²ÎÊý--nameÖ¸¶¨µÄ²ÎÊýÖµa2ÎªFlumeAgentµÄ±êÊ¶,¸Ã±êÊ¶ÐèÒªÓëÅä
ÖÃÎÄ¼þflume-logs-real.confÖÐFlumeAgentµÄ±êÊ¶Ò»ÖÂ¡£
ÔÚÐéÄâ»úSpark01ÖÐÆô¶¯Ò»¸öKafkaÏû·ÑÕß,¸ÃÏû·ÑÕß¶©ÔÄÖ÷Ìâuser_behavior_ 
topic,ÓÃÓÚÑéÖ¤FlumeÊÇ·ñ½«²É¼¯µÄÓÃ»§ÐÐÎªÊý¾ÝÐ´ÈëKafkaµÄÖ÷Ìâuser_behavior_ 
topicÖÐ,¾ßÌåÃüÁîÈçÏÂ¡£ 
kafka-console-consumer.sh --topic user_behavior_topic \ 
--group user_behavior_test \ 
--bootstrap-server spark01:9092,spark02:9092,spark03:9092 
ÉÏÊöÃüÁîÖ´ÐÐÍê³ÉºóµÄÐ§¹ûÈçÍ¼3-7ËùÊ¾¡£
Í¼3-7 KafkaÏû·ÑÕß
´ÓÍ¼3-7¿ÉÒÔ¿´³ö,KafkaÏû·ÑÕßÊä³öÁËÉú³ÉµÄÓÃ»§ÐÐÎªÊý¾Ý,ËµÃ÷Flume³É¹¦½«²É
¼¯µÄÓÃ»§ÐÐÎªÊý¾ÝÐ´ÈëKafkaµÄÖ÷Ìâuser_behavior_topicÖÐ¡£
Ð¡ÌáÊ¾:ÔÚÈ·ÈÏFlume ³É¹¦½«²É¼¯µÄÓÃ»§ÐÐÎªÊý¾ÝÐ´ÈëKafka µÄÖ÷Ìâuser_ 
behavior_topicºó,¶ÁÕß¿ÉÒÔÔÝÊ±¹Ø±ÕÉú³ÉÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄPython³ÌÐò,ÒÔ¼°¸ºÔð²É
¼¯ÊµÊ±ÓÃ»§ÐÐÎªÊý¾ÝµÄFlumeAgent¡£´ýºóÐø½øÐÐÊµÊ±·ÖÎöÊ±,ÔÙÖØÐÂÆô¶¯ËüÃÇ¡£

µÚ3ÕÂ Êý¾Ý²É¼¯ 91 
ÔÚ¹Ø±ÕFlumeAgent¡¢Python³ÌÐò»òÕßKafkaÏû·ÑÕßÊ±,¿ÉÒÔÔÚÏàÓ¦µÄ²Ù×÷´°¿ÚÖÐ, 
Í¨¹ý×éºÏ¼üCtrl+ CÊµÏÖ¡£
½ÅÏÂÁôÐÄ:µ÷ÕûFlumeAgent¿ÉÊ¹ÓÃJVM µÄ×î´óÄÚ´æ
µ±FlumeAgentÆô¶¯ºó,³öÏÖOutOfMemoryErrorµÄ´íÎóÐÅÏ¢Ê±,Í¨³£ÊÇÓÉÓÚ²É¼¯
µÄÊý¾ÝÁ¿½Ï´ó,µ¼ÖÂFlumeAgent¿ÉÊ¹ÓÃJVM µÄÄÚ´æ²»¹»ÓÃËùµ¼ÖÂ¡£¶ÁÕß¿ÉÒÔÍ¨¹ýÐÞ
¸ÄÅäÖÃÎÄ¼þflume-env.sh,µ÷ÕûFlumeAgentÆô¶¯ºÍÔËÐÐÊ±¿ÉÊ¹ÓÃJVM µÄ×î´óÄÚ´æ,¾ß
Ìå²Ù×÷²½ÖèÈçÏÂ¡£
(1)Í¨¹ý¸´ÖÆÄ£°åÎÄ¼þflume-env.sh.template´´½¨ÅäÖÃÎÄ¼þflume-env.sh¡£ÔÚ
Flume°²×°Ä¿Â¼µÄ/confÄ¿Â¼ÖÐÖ´ÐÐÈçÏÂÃüÁî¡£ 
cp flume-env.sh.template flume-env.sh 
(2)Ê¹ÓÃvi±à¼­Æ÷±à¼­ÅäÖÃÎÄ¼þflume-env.sh,ÔÚÎÄ¼þµÄÄ©Î²Ìí¼ÓÈçÏÂÄÚÈÝ¡£ 
#¸ù¾ÝÊµ¼ÊÇé¿öÌîÐ´JDK °²×°Ä¿Â¼
export JAVA_HOME=/export/servers/jdk1.8.0_401/ 
export JAVA_OPTS="-Xms1024m -Xmx2048m -Dcom.sun.management.jmxremote" 
ÉÏÊöÄÚÈÝÖ¸¶¨FlumeAgentÆô¶¯ºÍÔËÐÐÊ±¿ÉÊ¹ÓÃJVM µÄ×î´óÄÚ´æ·Ö±ðÎª1GB 
(-Xms1024m)ºÍ2GB(-Xmx2048m)¡£ÅäÖÃÎÄ¼þflume-env.shµÄÄÚÈÝÐÞ¸ÄÍê³Éºó,±£´æ²¢
ÍË³ö±à¼­¡£
3.5 ±¾ÕÂÐ¡½á
±¾ÕÂÖ÷Òª½²½âÁËÊý¾Ý²É¼¯µÄÏà¹ØÄÚÈÝ¡£Ê×ÏÈ,½éÉÜÁËÓÃ»§ÐÐÎªÊý¾ÝµÄ¸ÅÄî¡£È»ºó,½é
ÉÜÁËÄ£ÄâÉú³ÉÓÃ»§ÐÐÎªÊý¾Ý¡£×îºó,·Ö±ð½éÉÜÁË²É¼¯·½°¸µÄÅäÖÃÒÔ¼°ÈçºÎ²É¼¯ÓÃ»§ÐÐÎª
Êý¾Ý¡£Í¨¹ý±¾ÕÂµÄÑ§Ï°,¶ÁÕßÓ¦¿ÉÒÔÕÆÎÕÏîÄ¿ÖÐÊý¾Ý²É¼¯µÄÊµÏÖ,ÎªºóÐøÊµÊ©Êý¾Ý·ÖÎöÌá
¹©Êý¾ÝÖ§³Å¡£