µÚ3ÕÂ¡þPythonÅÀ³æÊµÕ½

´ó¼ÒÔÚÑ§»áÊ¹ÓÃrequests¿âºÍBeautifulSoup¿âÒÔºó£¬»ù±¾ÉÏ¿ÉÒÔ±àÐ´ÅÀ³æ¶ÔÍøÒ³Ò³Ãæ½øÐÐÅÀÈ¡²¢½âÎö£¬´Ó¶ø»ñµÃËùÐèÊý¾Ý¡£µ«ÔÚÊµ¼Ê²Ù×÷Ê±£¬²»Í¬ÍøÕ¾µÄÄ£°å½á¹¹¼¸ºõ²»Í¬£¬ÍøÒ³ÖÐµÄÊý¾ÝÒ²´æÔÚ½á¹¹»¯¡¢°ë½á¹¹»¯ºÍ·Ç½á¹¹»¯µÄ²îÒì£¬ÎÞ·¨²ÉÓÃÍ³Ò»µÄ²É¼¯·½·¨¡£±¾ÕÂ½øÐÐÅÀ³æÊµÕ½£¬3.1½ÚÍ¨¹ý¶ÔÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÏà¹ØÊý¾Ý½øÐÐ»ñÈ¡£¬°ïÖú´ó¼ÒÀí½âÈçºÎÅÀÈ¡ºÍ½âÎö½á¹¹»¯µÄÊý¾Ý£» 3.2½Ú½éÉÜ½âÎö³öÀ´µÄÊý¾ÝµÄÎÄ¼þ´æ´¢ÐÎÊ½£¬Ö÷Òª°üÀ¨ÊÊÓÃÓÚ·Ç½á¹¹»¯Êý¾ÝµÄÎÄ±¾ÎÄ¼þ¡¢ÊÊÓÃÓÚ½á¹¹»¯Êý¾ÝµÄCSVÎÄ¼þºÍÊÊÓÃÓÚ°ë½á¹¹»¯Êý¾ÝµÄJSONÎÄ¼þ£» 3.3½ÚÒÔ¶¹°ê¶ÁÊéÅÅÐÐ°ñTop250µÄÊý¾ÝÎªÀý£¬½øÐÐ°ë½á¹¹»¯Êý¾ÝµÄ»ñÈ¡ºÍ½âÎö£» 3.4½ÚÖ÷Òª½²½âÕýÔò±í´ïÊ½µÄÊ¹ÓÃ£¬ÒÔÌá¸ßÎÄ±¾µÄ½âÎöÐ§ÂÊ£» ÔÚ3.5½ÚÒÔÈËÃñÍø¿Æ¼¼ÀàÐÂÎÅÎªÀý£¬½øÐÐ·Ç½á¹¹»¯Êý¾ÝµÄ»ñÈ¡ºÍ½âÎö¡£

3.1ÊµÕ½£º ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾Ïà¹ØÊý¾ÝµÄ»ñÈ¡

±¾½Ú±àÐ´ÅÀ³æ¶Ô½á¹¹»¯Êý¾Ý¡ª¡ªÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÏà¹ØÊý¾Ý½øÐÐÅÀÈ¡ºÍ½âÎö£¬Êý¾ÝÀ´Ô´ÓÚÖÐÉÌÇé±¨Íø(https://s.askci.com/stock/a/)£¬´ÓÒ³ÃæÕ¹Ê¾À´¿´£¬ÕâÐ©Êý¾ÝÒÔ½á¹¹»¯µÄ±í¸ñÑùÊ½³ÊÏÖ³öÀ´£¬ÈçÍ¼3.1ËùÊ¾¡£





Í¼3.1ÖÐÉÌÇé±¨ÍøÒ³Ãæ


3.1.1Ä¿±êÍøÕ¾·ÖÎö

¶ÔÄ¿±êÍøÕ¾¡°ÖÐÉÌÇé±¨Íø¡±½øÐÐÔ¤·ÖÎö£¬ÓÐÖúÓÚÅÀ³æ´úÂë³ÌÐòµÄË³Àû±àÐ´¡£

£¨1£©  ²é¿´Ä¿±êÍøÕ¾µÄrobotsÐ­Òé£¬ÁË½âÅÀÈ¡¹æ·¶¡£

£¨2£©  Ê¹ÓÃChrome¹¤¾ß²é¿´Êý¾ÝËùÔÚÍøÒ³Ò³ÃæµÄÌØÕ÷¡£

1. ²é¿´robotsÐ­Òé

ÔÚä¯ÀÀÆ÷µÄµØÖ·À¸ÖÐÊäÈë¡°https://www.askci.com/robots.txt¡±£¬²é¿´Ä¿±êÍøÕ¾µÄrobotsÐ­Òé¡£¿ÉÒÔ¿´³öÖÐÉÌÇé±¨Íø¶ÔÅÀ³æ±È½ÏÓÑºÃ£¬³ýÁËTongJiNews¡¢TongJiReport¡¢404¡¢customreportÄ¿Â¼ÒÔÍâ£¬ÍøÕ¾ÉÏµÄÆäËû×ÊÔ´¶¼ÔÊÐí±»ÅÀÈ¡£¬ÈçÍ¼3.2ËùÊ¾¡£





Í¼3.2ÖÐÉÌÇé±¨ÍøµÄrobotsÐ­Òé


2. Ê¹ÓÃChrome¹¤¾ß½øÐÐ·ÖÎö

Ê¹ÓÃChrome¹¤¾ß²é¿´Êý¾ÝËùÔÚµÄÍøÒ³Ò³Ãæ£¬Ö÷Òª²é¿´Ò³ÃæÇëÇóµÄURLºÍÌØµã£¬ÒÔ¼°ÇëÇóÀàÐÍ¡¢ÇëÇóÍ·µÄÏà¹ØÐÅÏ¢¡¢Ò³ÃæÖÐµÄÊý¾ÝËùÔÚµÄÎ»ÖÃÌØÕ÷µÈ¡£

1) ²é¿´NetworkÃæ°å

Í¨¹ýChrome¹¤¾ßµÄNetworkÃæ°å¿ÉÒÔ²é¿´ÇëÇóURLºÍÌØµã£¬ÒÔ¼°ÇëÇóÀàÐÍ¡¢ÇëÇóÍ·µÄÏà¹ØÐÅÏ¢£¬ÈçÍ¼3.3ËùÊ¾¡£



Í¼3.3Ê¹ÓÃChrome¹¤¾ßµÄNetworkÃæ°å²é¿´Ïà¹ØÄÚÈÝ


Æä¾ßÌå²Ù×÷²½ÖèÈçÏÂ£º 

(1) ÔÚChrome¹¤¾ßÖÐµ¥»÷NetworkÑ¡Ïî¿¨¡£

(2) ÔÚµØÖ·À¸ÖÐÊäÈëÍøÒ³µØÖ·¡°https://s.askci.com/stock/a/¡±£¬»òÕß½«Êó±êÖ¸Õë·ÅÖÃÔÚÒÑ¾­´æÔÚµÄÍøÒ³µØÖ·ºó°´»Ø³µ¼ü½øÐÐË¢ÐÂ¡£

(3) ÔÚNameÀ¸ÏÂ³öÏÖÁË×ÊÔ´Â·¾¶/a£¬µ¥»÷¸Ã×ÊÔ´Â·¾¶ºó½«³öÏÖ¸Ã×ÊÔ´µÄÍ·²¿£¨Headers£©¡¢Ô¤ÀÀ£¨Preview£©µÈÐÅÏ¢£¬Í¨¹ý²é¿´ÕâÐ©ÐÅÏ¢¿ÉÒÔ»ñµÃÇëÇóURL¡¢ÇëÇóÀàÐÍµÈÏà¹ØÄÚÈÝ¡£

2) ²é¿´ElementsÃæ°å

Í¨¹ýElementsÃæ°å¿ÉÒÔ²é¿´Ò³ÃæÖÐµÄÊý¾ÝËùÔÚµÄÎ»ÖÃÌØÕ÷£¬ÈçÍ¼3.4ËùÊ¾¡£





Í¼3.4Ê¹ÓÃChrome¹¤¾ßµÄElementsÃæ°å²é¿´Ïà¹ØÄÚÈÝ


Æä¾ßÌå²Ù×÷²½ÖèÈçÏÂ£º 

(1) ÔÚChrome¹¤¾ßÖÐµ¥»÷ElementsÑ¡Ïî¿¨¡£

(2) µ¥»÷¹¤¾ß×óÉÏ½ÇµÄ¼ì²é°´Å¥¡£

(3) ÔÚÍøÒ³ÖÐµ¥»÷ÒªÅÀÈ¡µÄÊý¾Ý¡£

(4) ÔÚElementsÖ÷Ò³ÃæÖÐ¶¨Î»µ½¸ÃÊý¾Ý×ÊÔ´ËùÔÚµÄÎ»ÖÃ¡£

Í¨¹ýChrome¹¤¾ß¶ÔÄ¿±êÍøÕ¾½øÐÐÔ¤·ÖÎö£¬¿ÉÒÔµÃµ½Èç±í3.1ËùÊ¾µÄÐÅÏ¢¡£


±í3.1Í¨¹ýÔ¤·ÖÎö»ñµÃµÄÐÅÏ¢


ÀàÐÍ
ÄÚÈÝ



ÇëÇóURL»ù´¡µØÖ·
https://s.askci.com/stock/a/
ÇëÇóÀàÐÍ
GETÇëÇó
·ÖÒ³URLÌØµã
https://s.askci.com/stock/a/0ª²0?reportTime=2021ª²09ª²30&pageNum=1

https://s.askci.com/stock/a/0ª²0?reportTime=2021ª²09ª²30&pageNum=2
ÇëÇóÍ·ÖÐµÄUserª²Agent
Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/97.0.4692.71 Safari/537.36
Êý¾ÝËùÔÚµÄÒ³ÃæÌØÕ÷
<table>±êÇ©£¬ÆäÖÐ id="myTable04"







3.1.2±í¸ñÊý¾ÝµÄÅÀÈ¡ºÍ½âÎö

ÔÚ¶ÔÄ¿±êÍøÕ¾½øÐÐÔ¤·ÖÎöÒÔºó£¬¾Í¿ÉÒÔ±àÐ´´úÂë¶Ô±í¸ñÊý¾Ý½øÐÐÅÀÈ¡ºÍ½âÎö¡£

£¨1)  Ê¹ÓÃrequests¿âÄ£ÄâÓÃ»§ÇëÇóÅÀÈ¡ÍøÒ³Êý¾Ý¡£

(2)  Ê¹ÓÃBeautifulSoup¿âÌáÈ¡ÍøÒ³ÖÐµÄ±í¸ñÊý¾Ý²¢½âÎö¡£

1. Ä£Äâ·¢ËÍÇëÇó¡¢ÅÀÈ¡Êý¾Ý

·¢ËÍÇëÇó£¬ÅÀÈ¡Êý¾Ý£¬¾ßÌå²Ù×÷ÈçÏÂ£º 

(1) È·¶¨URLºÍÏà¹Ø²ÎÊý¡£

È·¶¨ÅÀÈ¡µÄURL£¬ÒòÎª·ÖÒ³Ê±URLµØÖ·ÖÐ´øÓÐreportTimeºÍpageNumÁ½¸ö²ÎÊý£¬ËùÒÔÔÚÇëÇó·½·¨µÄget·½·¨ÖÐÉèÖÃparam£» Í¬Ê±ÎªÁËÎ±×°ä¯ÀÀÆ÷£¬ÔÚheader²ÎÊýÖÐÉèÖÃä¯ÀÀÆ÷ÐÅÏ¢¡£



import requests

url="https://s.askci.com/stock/a/0-0"

param={"reportTime": "2021-09-30","pageNum": 1} 

header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/92.0.4515.159 Safari/537.36"}






(2) µ÷ÓÃrequests¿âµÄget·½·¨¡£

Í¨¹ýget·½·¨·¢ËÍÇëÇó£¬ÕâÑù¾ÍµÃµ½ÁËÏìÓ¦£¬Í¨¹ýÏìÓ¦¶ÔÏórµÄtextÊôÐÔ²é¿´ÏìÓ¦µÄHTMLÎÄµµÐÅÏ¢¡£



r=requests.get(url,params=param,headers=header) 

html=r.text

print(html)






Èç¹ûÏìÓ¦ÎÄµµÎÞ·¨Õý³£ÏÔÊ¾ÖÐÎÄ×Ö·û£¬»¹ÐèÒªÉèÖÃÒ³ÃæÏìÓ¦µÄencoding±àÂë¡£

2. ½âÎö±í¸ñÊý¾Ý

Í¨¹ý·ÖÎöElementsÔªËØ£¬¿ÉÒÔ¿´³öÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾Ïà¹ØÊý¾ÝËùÔÚµÄtable±êÇ©ÄÚÈÝ°üÀ¨Á½²¿·Ö£¬ÈçÍ¼3.5ËùÊ¾¡£

µÚÒ»²¿·ÖÊÇ±êÌâËùÔÚµÄ<thead>±êÇ©£¬°üÀ¨Ò»¶Ô<tr>±êÇ©£¬¾ßÌå±í¸ñ±êÌâµÄÄÚÈÝÔÚ<th>±êÇ©ÖÐ¡£

µÚ¶þ²¿·ÖÊÇ±í¸ñÊý¾ÝËùÔÚµÄ<tbody>±êÇ©£¬¾ßÌåÃ¿¸öÉÏÊÐ¹«Ë¾µÄÊý¾ÝÔÚÄ³¸ö<tr>±êÇ©ÖÐ£¬ÔÚÃ¿¸ö<tr>±êÇ©ÄÚÓÖ°üº¬ÁËÈô¸É<td>±êÇ©£¬´æ·ÅµÄÊÇ¾ßÌåµÄÊý¾ÝÄÚÈÝ¡£





Í¼3.5Ê¹ÓÃChrome¹¤¾ßµÄElementsÃæ°å²é¿´Ïà¹ØÄÚÈÝ


Æä¾ßÌå½âÎö²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃBeautifulSoupÀà½«HTMLÎÄµµ·â×°³ÉÎÄµµÊ÷£¬ÕâÀï²ÉÓÃÁËlxml½âÎöÆ÷¡£



from bs4 import BeautifulSoup

soup=BeautifulSoup(r.text,"lxml")






(2) Ê¹ÓÃsoup¶ÔÏóµÄfind·½·¨ÕÒµ½Êý¾ÝËùÔÚµÄ±êÇ©£¬Í¨¹ýÉÏÃæµÄ·ÖÎö¿ÉÖªÒª²éÕÒtable±êÇ©µÄidÊÇ¡°myTable04¡±¡£



table=soup.find(id="myTable04")






(3) ½âÎöÌáÈ¡±í¸ñ±êÌâÊý¾Ý¡£ÔÚthead±êÇ©ÏÂÖ»ÓÐÒ»¶Ôtr±êÇ©£¬·ÅÖÃµÄÊÇ±êÌâµÄ±êÇ©th£¬ËùÒÔÕë¶Ô±êÌâÊý¾ÝµÄ²éÕÒÖ»ÐèÖ±½ÓÕÒµ½table±êÇ©ÏÂËùÓÐµÄth±êÇ©¡£



ths=table.find_all("th")#²éÕÒtableÖÐËùÓÐµÄth±êÇ©

title=£Ûth.text for th in ths£Ý#Ê¹ÓÃÁÐ±íÍÆµ¼Ê½ÌáÈ¡th±êÇ©ÖÐµÄÎÄ±¾±êÌâÐÅÏ¢






(4) ½âÎöÌáÈ¡±í¸ñÄÚÈÝÊý¾Ý¡£ÔÚtbody±êÇ©ÏÂÓÐ¶à¶Ôtr±êÇ©£¬¿ÉÔÚ²éÕÒµ½tbody±êÇ©ºó²éÕÒÆäÏÂÃæËùÓÐµÄtr±êÇ©£¬ÔÙÕë¶ÔÃ¿Ò»ÐÐµÄÊý¾Ý²éÕÒ¸ÃÐÐÖÐËùÓÐµÄtd±êÇ©£¬²¢ÌáÈ¡ÆäÖÐµÄÎÄ±¾ÐÅÏ¢¡£´Ë´¦ÓÃÑ­»·ÒÀ´Î±éÀú±í¸ñÖÐµÄÃ¿Ò»ÐÐ£¬ÓÃÁÐ±íÍÆµ¼Ê½±éÀú²¢ÌáÈ¡Ã¿¸öµ¥Ôª¸ñµÄÊý¾Ý£¬²¢×îÖÕ½«ÌáÈ¡µÄÊý¾Ý´æ´¢ÔÚdataÁÐ±íÖÐ¡£



tbody=table.find("tbody")#²éÕÒtableÖÐ±í¸ñÄÚÈÝËùÔÚµÄtbody±êÇ©

trs=tbody.find_all("tr") #²éÕÒÃ¿ÐÐËùÔÚµÄ±êÇ©

data=£Û£Ý 

for tr in trs: #±éÀúÃ¿Ò»¸ötr±êÇ©

tds=tr.find_all("td") #²éÕÒÃ¿ÐÐÖÐËùÓÐµÄtd±êÇ©

tdsv=£Ûtd.text for td in tds£Ý#Ê¹ÓÃÁÐ±íÍÆµ¼Ê½ÌáÈ¡td±êÇ©ÖÐµÄÎÄ±¾±êÌâÐÅÏ¢

data.append(tdsv)











3.1.3Ä£¿é»¯³ÌÐòµÄ±àÐ´

Ç°Ãæ½â¾öÁËÒ»¸öÒ³ÃæÖÐµÄÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÊý¾ÝµÄÅÀÈ¡ºÍ½âÎö£¬µ«ÊÇËùÓÐµÄA¹ÉÉÏÊÐ¹«Ë¾µÄÊý¾Ý´æ·ÅÔÚ234¸öÒ³ÃæÖÐ£¬ÕâÒ²¾ÍÒâÎ¶×ÅÒ³ÃæµÄÅÀÈ¡ºÍ½âÎöÐèÒªÖØ¸´234´Î£¬ÎªÁËÊµÏÖÆðÀ´·½±ã£¬°´ÕÕ¹¦ÄÜ¶Ô´úÂë½øÐÐÄ£¿é»¯´¦Àí£¬¾ßÌå²½ÖèÈçÏÂ£º 

(1) ¶¨Òå»ñÈ¡URLÇëÇóµÄ·½·¨¡£ÒòÎªÃ¿¸öÒ³ÃæµÄURL²îÒì½öÔÚÓÚÇëÇó²ÎÊýpageNumµÄ²»Í¬£¬ÕâÀï½«Ò³Êý×÷Îª·½·¨µÄ²ÎÊý£¬¶¨Òå·½·¨Í·ÎªgetHtml(page)¡£

(2) ¶¨Òå½âÎö±í¸ñ±êÌâºÍ±í¸ñÊý¾ÝµÄ·½·¨¡£Ã¿Ò³¶¼º¬ÓÐ±í¸ñ±êÌâ£¬±êÌâÖ»ÐèÒª½âÎöÒ»´Î£¬½«±êÌâºÍ±í¸ñµÄ½âÎöÉè¼Æ³ÉÁ½¸ö·½·¨£¬¾ùÒÔ±êÇ©Ê÷£¨Ò²¾ÍÊÇBeautifulSoup¶ÔÏó£©×÷Îª²ÎÊý£¬¶¨ÒåµÄ·½·¨Í··Ö±ðÎªparseTitle(soup)ºÍparseData(soup)¡£

(3) ÊµÏÖÉÏÊö·½·¨µÄÑ­»·µ÷ÓÃ¡£Ñ­»·µ÷ÓÃÉÏÊö·½·¨£¬ÌáÈ¡ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÈ«²¿Êý¾Ý£¬½«½á¹û±£´æÔÚÁÐ±ítableDataÖÐ¡£

¡¾ÊµÕ½°¸Àý´úÂë3.1¡¿ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÊý¾ÝµÄ»ñÈ¡¡£



import requests

from bs4 import BeautifulSoup

#·¢ËÍÇëÇó£¬»ñµÃÊý¾Ý

def getHtml(page) :

url="https://s.askci.com/stock/a/0-0"

header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)£Ü

AppleWebKit/537.36 (KHTML, like Gecko)Chrome/92.0.4515.159 Safari/537.36"}

r=requests.get(url,params={"reportTime": "2021-09-30","pageNum": page},headers=header) 

return r.text

#½âÎö±í¸ñ±êÌâ

def parseTitle(soup) : 

table=soup.find(id="myTable04") 

ths=table.find_all("th") 

title=£Ûth.text for th in ths£Ý

return title

#½âÎö±í¸ñÊý¾Ý

def parseData(soup) :

tbody=soup.find(id="myTable04") .find("tbody") 

trs=tbody.find_all("tr") 

data=£Û£Ý

for tr in trs:

tds=tr.find_all("td") 

tdsv=£Ûtd.text for td in tds£Ý

data.append(tdsv) 

return data

#ÅÀÈ¡ºÍ½âÎöÈ«²¿Êý¾Ý

tableData=£Û£Ý

for page in range(1,224) :

html=getHtml(page) 

soup=BeautifulSoup(html,"lxml") 

if page==1:

title=parseTitle(soup)#½âÎö±êÌâ

tableData.append(title) 

pageData=parseData(soup) #½âÎöÃ¿Ò³Êý¾Ý

tableData.extend(pageData) 

tableData£Û:5£Ý






tableDataÖÐ´æ·ÅµÄÊÇÅÀÈ¡ÏÂÀ´µÄÈ«²¿Êý¾Ý£¬´òÓ¡Êä³ötableDataµÄÇ°5¸öÔªËØ£¬ÏÔÊ¾½á¹ûÈçÏÂ£º 



£Û£Û'ÐòºÅ', '¹ÉÆ±´úÂë', '¹ÉÆ±¼ò³Æ', '¹«Ë¾Ãû³Æ', 'Ê¡·Ý', '³ÇÊÐ', 'Ö÷ÓªÒµÎñÊÕÈë(202106)', ¾»ÀûÈó(202106) ', 'Ô±¹¤ÈËÊý', 'ÉÏÊÐÈÕÆÚ', 'ÕÐ¹ÉÊé', '¹«Ë¾²Æ±¨', 'ÐÐÒµ·ÖÀà', '²úÆ·ÀàÐÍ', 'Ö÷ÓªÒµÎñ'£Ý, £Û'1', '000001', 'Æ½°²ÒøÐÐ', 'Æ½°²ÒøÐÐ¹É·ÝÓÐÏÞ¹«Ë¾', '¹ã¶«', 'ÉîÛÚÊÐ', '846.80ÒÚ', '175.83ÒÚ', '36676', '1991-04-03', '--', '', 'ÒøÐÐ', 'ÉÌÒµÒøÐÐÒµÎñ', '¾­ÓÐ¹Ø¼à¹Ü»ú¹¹Åú×¼µÄ¸÷ÏîÉÌÒµÒøÐÐÒµ









Îñ¡£'£Ý, £Û'2', '000002', 'Íò¿ÆA', 'Íò¿ÆÆóÒµ¹É·ÝÓÐÏÞ¹«Ë¾', '¹ã¶«', 'ÉîÛÚÊÐ', '1671.11ÒÚ', '161.74ÒÚ', '140565', '1991-01-29', '--', '', '·¿µØ²ú¿ª·¢', '·¿µØ²ú¡¢ÎïÒµ¹ÜÀí¡¢Í¶×Ê×ÉÑ¯', '·¿µØ²ú¿ª·¢ºÍÎïÒµ·þÎñ¡£'£Ý, £Û'3', '000004', '¹ú»ªÍø°²', 'ÉîÛÚ¹ú»ªÍø°²¿Æ¼¼¹É·ÝÓÐÏÞ¹«Ë¾', '¹ã¶«', 'ÉîÛÚÊÐ', '9301.23Íò', '613.16Íò', '264', '1991-01-14', '--', '', 'ÉúÎïÒ½Ò©', 'ÒÆ¶¯Ó¦ÓÃ°²È«·þÎñ¡¢ÒÆ¶¯»¥ÁªÍøÓÎÏ·', 'ÒÆ¶¯Ó¦ÓÃ°²È«·þÎñÒµÎñ¡£'£Ý, £Û'4', '000005', 'STÐÇÔ´', 'ÉîÛÚÊÀ¼ÍÐÇÔ´¹É·ÝÓÐÏÞ¹«Ë¾', '¹ã¶«', 'ÉîÛÚÊÐ', '1.64ÒÚ', '1.92ÒÚ', '629', '1990-12-10', '--', '', '»·±£¹¤³Ì¡¢ÎïÒµ¹ÜÀí', '¾Æµê¾­Óª¡¢ÎïÒµ¹ÜÀí¡¢»·±£ÒµÎñ', 'ÂÌÉ«µÍÌ¼³ÇÊÐÉçÇø½¨ÉèÏà¹ØµÄ·þÎñÒµÎñ¡£'£Ý£Ý






3.2½âÎöÊý¾ÝµÄ´æÈ¡

3.1½ÚµÄÊµÕ½ÅÀÈ¡²¢½âÎöÁËÊý¾Ý£¬ÎªÁË·½±ãºóÐø¶ÔÊý¾Ý½øÐÐ·ÖÎöºÍ´¦Àí£¬¿ÉÒÔ¶ÔÊý¾Ý½øÐÐ±£´æ¡£Êý¾ÝµÄ±£´æÐÎÊ½¶àÖÖ¶àÑù£¬¿ÉÒÔ±£´æµ½ÎÄ¼þÖÐ£¬Ò²¿ÉÒÔ±£´æµ½Êý¾Ý¿âÖÐ£¬±¾½ÚÑ§Ï°ÎÄ¼þÀàÐÍÊý¾ÝµÄ´æÈ¡£¬°üÀ¨ÎÄ±¾ÎÄ¼þ¡¢CSVÎÄ¼þºÍJSONÎÄ¼þ¡£






3.2.1ÎÄ±¾ÎÄ¼þµÄ´æÈ¡

ÎÄ±¾ÎÄ¼þ¼¸ºõ¼æÈÝÈÎºÎÆ½Ì¨£¬½«Êý¾Ý±£´æµ½ÎÄ±¾ÎÄ¼þµÄ²Ù×÷¼òµ¥£¬µ«ËüµÄÈ±µãÊÇ²»ÀûÓÚ¼ìË÷¡£Èç¹û×·Çó·½±ã£¬¶Ô¼ìË÷ÐÔÄÜºÍÊý¾ÝµÄ½á¹¹ÒªÇó²»¸ß£¬¿ÉÒÔ²ÉÓÃÎÄ±¾ÎÄ¼þ¡£Ê¹ÓÃPythonÄÚÖÃµÄÎÄ¼þ´¦Àí·½·¨¿ÉÒÔ·½±ãµØ¶ÔÎÄ±¾ÎÄ¼þ½øÐÐ´æÈ¡¡£

1. ´æ´¢ÎÄ±¾ÎÄ¼þ

Ê¹ÓÃPython´æ´¢ÎÄ±¾ÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃopenº¯ÊýÒÔÐ´ÈëÄ£Ê½´ò¿ªÎÄ±¾ÎÄ¼þ£¬»ñµÃÎÄ¼þ¶ÔÏó¡£

(2) µ÷ÓÃÎÄ¼þ¶ÔÏóµÄwrite»òwritelines·½·¨Ð´Èë½âÎö³öÀ´µÄÊý¾ÝÄÚÈÝ¡£

(3) µ÷ÓÃÎÄ¼þ¶ÔÏóµÄclose·½·¨¹Ø±ÕÎÄ¼þ¡£

ÏÂÃæÏÈ¿´Á½¸öÊ¾Àý¡£

µÚÒ»¸öÊ¾ÀýÊÇ½«Ò»¸ö×Ö·û´®Ð´ÈëfilesÄ¿Â¼ÏÂµÄdata.txtÎÄ¼þÖÐ£¬fÊÇÎÄ¼þ¶ÔÏó£¬Í¨¹ýopen·½·¨»ñµÃ£¬È»ºóµ÷ÓÃwrite·½·¨Ð´Èë×Ö·û´®£¬×îºóµ÷ÓÃclose·½·¨¹Ø±ÕÎÄ¼þ¶ÔÏó¡£

¡¾Àý3.1¡¿½«×Ö·û´®Ð´ÈëÎÄ±¾ÎÄ¼þ¡£



data=" PythonÊý¾Ý·ÖÎöÊµ¼ù¿Î³ÌÀíÂÛºÍÊµ¼ùÏà½áºÏ£¬ÖúÁ¦ÔÚÒµÎñÁìÓò»ñµÃÊý¾Ý£¬·ÖÎöºÍ´¦ÀíÊý¾Ý¡£"

f = open('files/data.txt','w') 

f.write(data) 

f.close()






µÚ¶þ¸öÊ¾ÀýÊÇ½«Ò»¸ö×Ö·û´®ÁÐ±íÐ´ÈëÎÄ¼þÖÐ£¬µ÷ÓÃÎÄ¼þ¶ÔÏóµÄwritelines·½·¨Ð´ÈëÁÐ±í¡£

¡¾Àý3.2¡¿½«ÁÐ±íÐ´ÈëÎÄ±¾ÎÄ¼þ¡£



urlList = £Û'https://www.buu.edu.cn', 'https://www.baidu.com'£Ý

f = open('files/urls1.txt','w') 

f.writelines(urlList) 

f.close()






ÔÚÉÏÃæµÄÁ½¸öÀý×ÓÖÐÓÃµ½ÁËopenº¯Êý£¬Æä×÷ÓÃÊÇ´´½¨¿ÉÒÔ²Ù×÷µÄÎÄ¼þ¶ÔÏó£¬openº¯ÊýµÄºËÐÄÓï·¨Îª£º 



open(file, mode='r', encoding=None) 






³£ÓÃ²ÎÊýµÄËµÃ÷ÈçÏÂ¡£

(1) file£º ½ÓÊÕstring£¬ÓÃ×Ö·û´®±íÊ¾µÄÎÄ¼þÂ·¾¶¡£

(2) mode£º ½ÓÊÕstring£¬ÓÃ×Ö·û±íÊ¾ÎÄ¼þµÄÊ¹ÓÃÄ£Ê½£¬Ä¬ÈÏÎªÖ»¶ÁÄ£Ê½¡£

(3) encoding£º ½ÓÊÕstring£¬ÎÄ¼þµÄ±àÂë¡£

ÎÄ¼þµÄÊ¹ÓÃÄ£Ê½ÓÃÓÚ¿ØÖÆÒÔºÎÖÖ·½Ê½´ò¿ªÎÄ¼þ£¬openº¯ÊýÌá¹©ÁË7ÖÖ»ù±¾µÄÊ¹ÓÃÄ£Ê½£¬Èç±í3.2ËùÊ¾¡£


±í3.2ÎÄ¼þµÄÊ¹ÓÃÄ£Ê½


Ä£Ê½
×÷ÓÃ



'r'
Ö»¶ÁÄ£Ê½£¬ÎÄ¼þ²»´æÔÚÔò·µ»ØÒì³££¬Ä¬ÈÏÖµ
'w'
¸²¸ÇÐ´Ä£Ê½£¬ÎÄ¼þ²»´æÔÚÔò´´½¨£¬´æÔÚÔòÍêÈ«¸²¸Ç
'a'
×·¼ÓÐ´Ä£Ê½£¬ÎÄ¼þ²»´æÔÚÔò´´½¨£¬´æÔÚÔòÔÚÎÄ¼þµÄ×îºó×·¼ÓÄÚÈÝ
'x'
´´½¨Ð´Ä£Ê½£¬ÎÄ¼þ²»´æÔÚÔò´´½¨£¬´æÔÚÔò·µ»ØÒì³£
'b'
¶þ½øÖÆÎÄ±¾Ä£Ê½£¬ÊÊÓÃÓÚ·ÇÎÄ±¾ÎÄ¼þ£¬ÀýÈçÍ¼Æ¬¡¢ÒôÆµÎÄ¼þµÈ
't'
ÎÄ±¾ÎÄ¼þÄ£Ê½£¬Ä¬ÈÏÖµ£¬ÊÊÓÃÓÚÎÄ±¾ÎÄ¼þ
'+'
Óër/w/x/aÒ»ÆðÊ¹ÓÃ£¬ÔÚÔ­ÓÐ¹¦ÄÜÉÏÍ¬Ê±Ôö¼Ó¶Á/Ð´¹¦ÄÜ


ÎÄ¼þÄ¬ÈÏÊ¹ÓÃµÄÄ£Ê½ÊÇ'r'£¬±íÃ÷ÒÔÖ»¶ÁÐÎÊ½´ò¿ªÒÑ¾­´æÔÚµÄÎÄ¼þ¡£ÎÄ¼þµÄÊ¹ÓÃÄ£Ê½»¹ÓÐ'w'£¨¸²¸ÇÐ´£©¡¢'a'£¨×·¼ÓÐ´£©¡¢'x'£¨´´½¨Ð´£©£¬´ËÍâ»¹ÓÐ3¸ö¿ÉÒÔºÍÕâÐ©Ä£Ê½½áºÏÊ¹ÓÃµÄ·ûºÅ'b'¡¢'t'¡¢'+'¡£

£¨1£© 'b'ÊÇ¶þ½øÖÆÎÄ±¾Ä£Ê½£¬ÀýÈç'rb'¾ÍÊÇ¶ÁÈ¡ÎÄ¼þµÄ¶þ½øÖÆÐÅÏ¢£¬ÊÊºÏ¶ÁÈ¡Í¼Æ¬¡¢ÒôÆµÎÄ¼þµÈ¡£

£¨2£© 't'ÊÇÎÄ±¾ÎÄ¼þÄ£Ê½£¬ÊÊÓÃÓÚÎÄ±¾ÎÄ¼þ£¬openº¯ÊýÄ¬ÈÏÊÇ'rt'Ä£Ê½£¬¼´ÎÄ±¾Ö»¶ÁÄ£Ê½¡£

£¨3£© '+'ºÍ±íÊ¾¶Á/Ð´Ä£Ê½µÄ'r'¡¢'w'¡¢'a'¡¢'x'Ò»ÆðÊ¹ÓÃ£¬±íÊ¾À©Õ¹Ô­ÓÐ¹¦ÄÜ£¬Ôö¼Ó¶Á/Ð´¡£

¤r 'r+'£º ¼ÈÄÜ´ÓÎÄ¼þÖÐ¶ÁÈ¡Êý¾Ý£¬ÓÖÄÜÏòÎÄ¼þÐ´ÈëÊý¾Ý¡£

¤r 'w+'£º ¼ÈÄÜÏòÎÄ¼þÖÐÐ´ÈëÊý¾Ý£¬ÓÖÄÜ´ÓÎÄ¼þ¶ÁÈ¡Êý¾Ý¡£

ËüÃÇµÄÇø±ðÔÚÓÚ£¬µ±´ò¿ªÒ»¸ö²»´æÔÚµÄÎÄ¼þÊ±£¬'r+'»á±¨´í£¬µ«ÊÇ'w+'»á´´½¨Õâ¸öÎÄ¼þ£¬Èç¹û´ò¿ªÒ»¸öÒÑ¾­´æÔÚµÄÎÄ¼þ£¬'w+'»á°ÑÔ­ÎÄ¼þµÄÄÚÈÝÇå¿Õ¡£

ÔÚPythonÖÐÓëÎÄ¼þÄÚÈÝÐ´ÈëÓÐ¹ØµÄÁ½¸ö³£ÓÃ·½·¨Èç±í3.3ËùÊ¾¡£ÔÚ½øÐÐÎÄ¼þÄÚÈÝµÄÐ´ÈëÊ±Ó¦±£Ö¤openº¯ÊýÖÐÎÄ¼þµÄ´ò¿ª·½Ê½ÊÇ·ÇÖ»¶ÁµÄ£¬ÀýÈçr+¡¢w¡¢w+¡¢a»òa+µÈ¡£


±í3.3ÎÄ¼þÄÚÈÝµÄÐ´Èë·½·¨


·½·¨
×÷ÓÃ



<file>.write(str) 
½«×Ö·û´®strÐ´ÈëÎÄ¼þ
<file>.writelines(strList) 
½«×Ö·û´®ÁÐ±ístrListÐ´ÈëÎÄ¼þ


×¢Òâ£º ½«×Ö·û´®ÁÐ±íÐ´ÈëÎÄ¼þµÄwritelines·½·¨Ïàµ±ÓÚÒ»´ÎÍùÎÄ¼þÖÐÐ´Èë¶àÐÐÊý¾Ý£¬µ«¸Ã·½·¨²»»á×Ô¶¯¸ø¸÷ÐÐÌí¼Ó»»ÐÐ·û¡£Ê¾Àý3.2µÄÊä³ö½á¹ûÈçÍ¼3.6ËùÊ¾¡£




Í¼3.6Ê¾Àý3.2µÄÎÄ¼þÐ´ÈëÐ§¹û


Èç¹ûÒªÊµÏÖ»»ÐÐÐ§¹û£¬¿ÉÒÔÔÚ×Ö·û´®ÁÐ±íµÄÃ¿¸öÔªËØºóÌí¼Ó»»ÐÐ·û'£Ün'¡£

¡¾Àý3.3¡¿½«ÁÐ±íÖÐµÄ¸÷¸öÔªËØ»»ÐÐÐ´ÈëÎÄ±¾ÎÄ¼þ¡£



urlList = £Û'https://www.buu.edu.cn'+'£Ün', 'https://www.baidu.com'+'£Ün'£Ý

f = open('files/urls2.txt','w') 

f.writelines(urlList) 

f.close()






Êä³öÐ§¹ûÈçÍ¼3.7ËùÊ¾¡£





Í¼3.7Ê¾Àý3.3µÄÎÄ¼þÐ´ÈëÐ§¹û


2. ¶ÁÈ¡ÎÄ±¾ÎÄ¼þ

Python¶ÁÈ¡ÎÄ±¾ÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃopenº¯ÊýÒÔ¶ÁÈ¡Ä£Ê½´ò¿ªÎÄ±¾ÎÄ¼þ£¬»ñµÃÎÄ¼þ¶ÔÏó¡£

(2) µ÷ÓÃÎÄ¼þ¶ÔÏóµÄread¡¢readline»òreadlines·½·¨¶ÁÈ¡ÎÄ¼þÖÐµÄÄÚÈÝ¡£

(3) µ÷ÓÃÎÄ¼þ¶ÔÏóµÄclose·½·¨¹Ø±ÕÎÄ¼þ¡£

¶ÁÈ¡ºÍ´æ´¢ÎÄ±¾ÎÄ¼þµÄ²½ÖèÏàËÆ£¬Ö÷ÒªÇø±ðÔÚÓÚµÚ¶þ²½ÊÇµ÷ÓÃÎÄ¼þ¶ÔÏóµÄ¶ÁÈ¡·½·¨¡£PythonÖÐ³£¼ûµÄ3¸ö¶ÁÈ¡ÎÄ¼þµÄ·½·¨Èç±í3.4ËùÊ¾¡£


±í3.4ÎÄ¼þÄÚÈÝµÄ¶ÁÈ¡·½·¨


·½·¨
×÷ÓÃ



<file>.read() 
¶ÁÈ¡ÎÄ¼þÖÐµÄËùÓÐÄÚÈÝ£¬·µ»ØÒ»¸ö×Ö·û´®»ò×Ö½ÚÁ÷
<file>.readline()
¶ÁÈ¡ÎÄ¼þÖÐµÄÒ»ÐÐÄÚÈÝ£¬·µ»ØÒ»¸ö×Ö·û´®»ò×Ö½ÚÁ÷
<file>.readlines()
¶ÁÈ¡ÎÄ¼þÖÐµÄËùÓÐÐÐÄÚÈÝ£¬·µ»ØÒÔÃ¿ÐÐÎªÔªËØµÄÁÐ±í


ÏÂÃæ3¸öÊ¾Àý·Ö±ðÕ¹Ê¾ÁËÕâ3¸ö¶ÁÈ¡·½·¨µÄÐ§¹û¡£

¡¾Àý3.4¡¿¶ÁÈ¡ÎÄ±¾ÎÄ¼þµÄËùÓÐÄÚÈÝ¡£



f = open('files/data.txt') 

data=f.read() 

print(data) 

f.close()






½á¹ûÏÔÊ¾Îª£º 



PythonÊý¾Ý·ÖÎöÊµ¼ù¿Î³ÌÀíÂÛºÍÊµ¼ùÏà½áºÏ£¬ÖúÁ¦ÔÚÒµÎñÁìÓò»ñµÃÊý¾Ý£¬·ÖÎöºÍ´¦ÀíÊý¾Ý¡£






¡¾Àý3.5¡¿¶ÁÈ¡ÎÄ±¾ÎÄ¼þµÄÒ»ÐÐÄÚÈÝ¡£



f = open('files/urls2.txt') 

line=f.readline() 








print(line) 

f.close()






½á¹ûÏÔÊ¾Îª£º 



https://www.buu.edu.cn






¡¾Àý3.6¡¿¶ÁÈ¡ÎÄ±¾ÎÄ¼þµÄËùÓÐÐÐÄÚÈÝ¡£



f = open('files/urls2.txt') 

lines=f.readlines() 

print(lines) 

f.close()






½á¹ûÏÔÊ¾Îª£º 



 £Û'https://www.buu.edu.cn£Ün', 'https://www.baidu.com£Ün'£Ý






3. ´æÈ¡ÎÄ±¾ÎÄ¼þµÄ¼ò±ã·½·¨

ÎÄ¼þ¶ÔÏóµÄclose·½·¨±íÊ¾¹Ø±ÕÎÄ¼þ¶ÔÏó¡£Ã¿´Î¶ÔÎÄ¼þ²Ù×÷Íê±Ïºó¶¼ÒªÖ´ÐÐclose·½·¨£¬ÒÔ±ãÊÍ·ÅÎÄ¼þ×ÊÔ´¡£ÎªÁË±ÜÃâÒÅÍü¸Ã²Ù×÷£¬ÔÚÊµ¼ÊÊ¹ÓÃÖÐÒ»°ã²ÉÓÃwith asÓï¾äÀ´²Ù×÷ÉÏÏÂÎÄ¹ÜÀíÆ÷£¬°ïÖúÏµÍ³×Ô¶¯·ÖÅäºÍÊÍ·Å×ÊÔ´£¬Òò´ËÓÐÁËÎÄ¼þ´æÈ¡µÄ¼ò±ãÐ´·¨£º 



with open() as f:

³ÌÐòÓï¾ä






Í¨¹ýwith open() as fÓï¾ä´´½¨ÁËÎÄ¼þ¾ä±ú£¬ËùÓÐºÍÎÄ¼þÏà¹ØµÄ²Ù×÷¶¼ÔÚ¸ÃÓï¾ä¿éÏÂÖ´ÐÐ¡£ÏÂÃæµÄ´úÂëºÍÊ¾Àý3.4ÊÇµÈ¼ÛµÄ¡£



with open('files/data.txt') as f:

data=f.read() 

print(data)











3.2.2CSVÎÄ¼þµÄ´æÈ¡

CSVÊÇÒ»ÖÖÍ¨ÓÃµÄ¡¢Ïà¶Ô¼òµ¥µÄÎÄ¼þ¸ñÊ½£¬ÒÔ´¿ÎÄ±¾ÐÎÊ½´æÈ¡±í¸ñÊý¾Ý£¬ÊÇµç×Ó±í¸ñ¡¢Êý¾Ý¿â×î³£¼ûµÄµ¼ÈëºÍµ¼³ö¸ñÊ½£¬±»ÓÃ»§¡¢ÉÌÒµºÍ¿ÆÑ§¹ã·ºÓ¦ÓÃ¡£CSVÎÄ¼þ±¾ÖÊÉÏÊÇÒ»¸ö×Ö·ûÐòÁÐ£¬¿ÉÒÔÓÉÈÎÒâÊýÄ¿µÄ¼ÇÂ¼×é³É£¬¼ÇÂ¼¼äÒÔÄ³ÖÖ·Ö¸ô·û·Ö¸ô³É×Ö¶Î¡£Ã¿Ìõ¼ÇÂ¼ÓÉÈô¸É×Ö¶Î×é³É£¬×Ö¶Î¼äµÄ·Ö¸ô·û×î³£¼ûµÄÊÇ¶ººÅ»òÖÆ±í·û¡£ËùÓÐ¼ÇÂ¼¶¼ÓÐÍêÈ«ÏàÍ¬µÄ×Ö¶ÎÐòÁÐ£¬PythonÊ¹ÓÃcsv¿âÊµÏÖ¶ÔCSVÎÄ¼þµÄ´æÈ¡¡£

Ê¹ÓÃcsv¿âÖÐµÄreaderºÍwriter·½·¨Éú³É¶ÔÏó¿ÉÒÔ¶Á/Ð´×Ö·ûÐòÁÐ£¬Ò²¿ÉÒÔÓÃDictReaderºÍDictWriter·½·¨Éú³É¶ÔÏó¶Á/Ð´×ÖµäÀàÐÍµÄÊý¾Ý¡£

1.  ´æ´¢CSVÎÄ¼þ

PythonÊ¹ÓÃcsv¿â´æ´¢CSVÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃopenº¯ÊýÒÔÐ´ÈëÄ£Ê½»ñµÃÒªÐ´ÈëµÄÎÄ¼þ¶ÔÏó¡£

(2) µ÷ÓÃcsv¿âµÄwriter·½·¨³õÊ¼»¯Ð´Èë¶ÔÏó£¬Éú³Éwriter¶ÔÏó¡£

(3) µ÷ÓÃwriter¶ÔÏóµÄwriterow»òwriterows·½·¨´«ÈëÃ¿ÐÐ»òËùÓÐÐÐÊý¾Ý¡£

writer·½·¨·µ»ØÒ»¸öwriter¶ÔÏó£¬¸Ã¶ÔÏó½«ÓÃ»§µÄÊý¾ÝÔÚ¸ø¶¨µÄÎÄ¼þÀà¶ÔÏóÉÏ×ª»»Îª´ø·Ö¸ô·ûµÄ×Ö·û´®£¬ÆäÓï·¨ÈçÏÂ£º 



csv.writer(csvfile , dialect = 'excel' , ** fmtparams)






³£¼û²ÎÊýµÄËµÃ÷ÈçÏÂ¡£

(1) csvfile£º ±ØÐëÊÇÖ§³Öµü´ú(Iterator) µÄ¶ÔÏó£¬¿ÉÒÔÊÇÎÄ¼þ¶ÔÏó»òÁÐ±í¶ÔÏó£¬Èç¹ûÊÇÎÄ¼þ¶ÔÏó£¬ÐèÒªÔÚÉú³É¸ÃÎÄ¼þ¶ÔÏóµÄopenº¯ÊýÖÐÊ¹ÓÃ²ÎÊýnewline=' '¡£

(2) dialect£º ÓÃÓÚÖ¸¶¨CSVµÄ¸ñÊ½Ä£Ê½£¬²»Í¬³ÌÐòÊä³öµÄCSV¸ñÊ½ÓÐÏ¸Î¢²î±ð£¬Ä¬ÈÏÊÇExcel³ÌÐò·ç¸ñ¡£

(3) fmtparams£º ¸ñÊ½»¯²ÎÊý£¬ÓÃÀ´¸²¸ÇÖ®Ç°dialect¶ÔÏóÖ¸¶¨µÄ³ÌÐò·ç¸ñ¡£ÀýÈçdelimiter²ÎÊýÓÃÓÚ·Ö¸ô×Ö¶ÎµÄµ¥×Ö·û×Ö·û´®£¬Ä¬ÈÏÎª','¡£

±í3.5ÁÐ³öÁËwriter¶ÔÏóµÄÁ½¸öÐ´Èë·½·¨¡£


±í3.5writer¶ÔÏóµÄÐ´Èë·½·¨


·½·¨»òÊôÐÔ
×÷ÓÃ



<writer>.writerow(row)
Ð´ÈëÒ»ÐÐÊý¾Ý
<writer>.writerows(rows)
Ð´Èë¶àÐÐÊý¾Ý


ÏÂÃæÍ¨¹ý¼¸¸öÊ¾ÀýÏêÏ¸Ñ§Ï°ÈçºÎ½øÐÐCSVÎÄ¼þµÄ´æ´¢¡£

¡¾Àý3.7¡¿Ã¿´ÎÐ´ÈëÒ»ÐÐÊý¾Ýµ½CSVÎÄ¼þÖÐ¡£



with open('files/data1.csv','w',newline="") as f:

writer = csv.writer(f) 

writer.writerow(£Û'²úÆ·ID','²úÆ·Ãû³Æ','Éú²úÆóÒµ','¼Û¸ñ'£Ý) 

writer.writerow(£Û'0001','Ð¡Ã×','Ð¡Ã×',1999£Ý) 

writer.writerow(£Û'0002','OPPO Reno','OPPO',2188£Ý) 

writer.writerow(£Û'0003','ÈÙÒ«ÊÖ»ú','»ªÎª',3456£Ý)










Í¼3.8CSVÎÄ¼þÐ´ÈëÐ§¹û

±£´æÔÚdata1.csvÎÄ¼þÖÐµÄÊý¾ÝÈçÍ¼3.8ËùÊ¾¡£

Àý3.7Ê¹ÓÃwith open as»ñµÃÐ´ÈëÎÄ¼þ¶ÔÏóf£¬È»ºóÉú³Éwriter¶ÔÏó£¬½Ó×Åµ÷ÓÃÁË4´Îwriterow·½·¨Ð´ÈëÁË4ÐÐÊý¾Ý£¬ÆäÖÐµÚÒ»ÐÐÊÇ±êÌâ¡£

×¢Òâ£º ÔÚÄ¬ÈÏÇé¿öÏÂ£¬writerow·½·¨»áÔÚÃ¿Ð´ÈëÒ»ÐÐºó¼ÓÒ»¸ö¿ÕÐÐ£¬Îª±ÜÃâÕâÖÖÇé¿ö·¢Éú£¬ÐèÒªÔÚopenÖÐÉèÖÃ²ÎÊýnewline=''£¬ÁíÍâÈç¹ûÐ´ÈëµÄÖÐÎÄÏÔÊ¾ÎªÂÒÂë£¬»¹ÐèÒªÔÚopenº¯ÊýÖÐÉèÖÃencoding²ÎÊý¡£

¡¾Àý3.8¡¿Ã¿´ÎÐ´Èë¶àÐÐÊý¾Ýµ½CSVÎÄ¼þÖÐ¡£



with open('files/data2.csv','w',newline="")as f:

writer = csv.writer(f,delimiter=';') 

writer.writerow(£Û'²úÆ·ID','²úÆ·Ãû³Æ','Éú²úÆóÒµ','¼Û¸ñ'£Ý) 

writer.writerows(£Û£Û'0001','iPhone9','Apple',9999£Ý,

£Û'0002', 'OPPO Reno','OPPO',2188£Ý,

£Û'0003', 'ÈÙÒ«ÊÖ»ú', '»ªÎª', 3456£Ý£Ý) 






ÓëÀý3.7²»Í¬£¬Àý3.8ÔÚÉú³Éwriter¶ÔÏóºó·Ö±ðµ÷ÓÃÁËÒ»´Îwriterow·½·¨Ð´ÈëµÚÒ»ÐÐ±êÌâ£¬µ÷ÓÃÒ»´Îwriterows·½·¨Ð´Èë3ÐÐÊý¾Ý¡£ÁíÍâ£¬ÔÚwriter·½·¨ÖÐÉèÖÃdelimiter=';'£¬±íÃ÷·Ö¸ô×Ö¶ÎµÄ×Ö·ûÊÇ¡°;¡±¡£

csv¿â³ýÁËÐ´ÈëÁÐ±íÀàÐÍµÄÊý¾ÝÒÔÍâ£¬»¹¿ÉÒÔÐ´Èë×ÖµäÀàÐÍÊý¾Ý£¬´ËÊ±ÐèÒªµ÷ÓÃcsv¿âµÄDictWriter·½·¨£¬ÆäÓï·¨¸ñÊ½ÈçÏÂ£º 



csv.DictWriter(csvfile, fieldnames) 






³£¼û²ÎÊýµÄËµÃ÷ÈçÏÂ¡£

(1) csvfile£º ±ØÐëÊÇÖ§³Öµü´ú(Iterator) µÄ¶ÔÏó£¬¿ÉÒÔÊÇÎÄ¼þ¶ÔÏó£¬Ò²¿ÉÒÔÊÇÁÐ±í¶ÔÏó£¬Èç¹ûÊÇÎÄ¼þ¶ÔÏó£¬ÐèÒªÔÚÉú³É¸ÃÎÄ¼þ¶ÔÏóµÄopenº¯ÊýÖÐÊ¹ÓÃ²ÎÊýnewline=' '¡£

(2) fieldnames£º Ò»¸ö×ÖµäkeysµÄÐòÁÐ£¬ÓÃÓÚ±êÊ¶writerow·½·¨´«µÝ×ÖµäÖÐµÄÖµµÄË³Ðò¡£

¡¾Àý3.9¡¿Ð´Èë×ÖµäÀàÐÍµÄÊý¾Ýµ½CSVÎÄ¼þÖÐ¡£



with open('files/data4.csv','w',newline="") as f:

fieldnames = £Û'²úÆ·ID','²úÆ·Ãû³Æ','Éú²úÆóÒµ','¼Û¸ñ'£Ý

writer = csv.DictWriter(f,fieldnames=fieldnames) 

writer.writeheader()#Ð´Èë±êÌâ×Ö¶ÎÃû

#Ð´ÈëÒ»ÐÐÊý¾Ý 

writer.writerow({'²úÆ·ID': '0001', '²úÆ·Ãû³Æ': 'Ð¡Ã×', 'Éú²úÆóÒµ': 'Ð¡Ã×', '¼Û¸ñ': 1999}) 

#Ð´Èë¶àÐÐÊý¾Ý

writer.writerows(£Û{'²úÆ·ID': '0002', '²úÆ·Ãû³Æ': 'OPPO Reno', 'Éú²úÆóÒµ': 'OPPO', '¼Û¸ñ': 2188},{'²úÆ·ID': '0003', '²úÆ·Ãû³Æ': 'ÈÙÒ«ÊÖ»ú', 'Éú²úÆóÒµ': '»ªÎª', '¼Û¸ñ': 3456}£Ý) 






´ÓÀý3.9¿ÉÒÔ¿´³öÊ¹ÓÃDictWriter·½·¨Éú³ÉµÄwriter¶ÔÏó£¬ÔÚÐ´Èë±êÌâÊ±Òªµ÷ÓÃwriteheader·½·¨£¬ÔÚÐ´ÈëÊý¾ÝÊ±¿ÉÒÔÓÃwriterow·½·¨Ò»´ÎÐ´ÈëÒ»ÐÐÊý¾Ý£¬Ò²¿ÉÒÔÓÃwriterows·½·¨Ò»´ÎÐ´Èë¶àÐÐÊý¾Ý¡£

2. ¶ÁÈ¡CSVÎÄ¼þ

PythonÊ¹ÓÃcsv¿â¶ÁÈ¡CSVÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃopenº¯ÊýÒÔ¶ÁÈ¡Ä£Ê½»ñµÃÒª¶ÁÈ¡µÄCSVÎÄ¼þ¶ÔÏó¡£

(2) µ÷ÓÃcsv¿âµÄreader·½·¨¶ÁÈ¡ÎÄ¼þ¾ä±ú£¬µÃµ½¶ÁÈ¡ÎÄ¼þ¶ÔÏó¡£

(3) ¶Ô¶ÁÈ¡ÎÄ¼þ¶ÔÏó½øÐÐ±éÀú£¬¶ÁÈ¡Ã¿Ò»ÐÐÊý¾Ý¡£

reader·½·¨ÓÃÓÚÎÄ¼þµÄ¶ÁÈ¡£¬·µ»ØÒ»¸öreader¶ÔÏó£¬ÆäÓï·¨¸ñÊ½ÈçÏÂ£º 



csv.reader(csvfile, dialect='excel', **fmtparams)






³£¼û²ÎÊýµÄËµÃ÷ÈçÏÂ¡£

(1) csvfile£º ÎÄ¼þ¶ÔÏó»òÕßlist¶ÔÏó¡£

(2) dialect£º ÓÃÓÚÖ¸¶¨CSVµÄ¸ñÊ½Ä£Ê½£¬²»Í¬³ÌÐòÊä³öµÄCSV¸ñÊ½ÓÐÏ¸Î¢²î±ð¡£

(3) fmtparams£º Ò»ÏµÁÐ²ÎÊýÁÐ±í£¬Ö÷ÒªÓÃÓÚÉèÖÃÌØ¶¨µÄ¸ñÊ½£¬ÒÔ¸²¸ÇdialectÖÐµÄ¸ñÊ½¡£

¡¾Àý3.10¡¿¶ÁÈ¡CSVÎÄ¼þÖÐµÄÊý¾Ý¡£



import csv

with open('files/data1.csv','r') as f:








reader = csv.reader(f)#Éú³Éreader¶ÔÏó

for row in reader:

print(row) #¶ÁÈ¡µÄÊý¾ÝÎªÁÐ±íÐÎÊ½






¶ÁÈ¡µÄ½á¹ûÎªÁÐ±í£¬ÈçÏÂËùÊ¾£º 



£Û'²úÆ·ID', '²úÆ·Ãû³Æ', 'Éú²úÆóÒµ', '¼Û¸ñ'£Ý

£Û'0001', 'Ð¡Ã×', 'Ð¡Ã×', '1999'£Ý

£Û'0002', 'OPPO Reno', 'OPPO', '2188'£Ý

£Û'0003', 'ÈÙÒ«ÊÖ»ú', '»ªÎª', '3456'£Ý






3. ´æ´¢ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾Êý¾ÝµÄÊµÕ½

ÔÚ3.1½ÚÖÐÅÀÈ¡²¢½âÎö³öÁË½á¹¹»¯µÄÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÏà¹ØÊý¾Ý£¬ÔÚÕÆÎÕÁËcsv¿âÖÐ¶ÔCSVÎÄ¼þµÄ´æ´¢ºÍ¶ÁÈ¡·½·¨ºó£¬¾Í¿ÉÒÔ½«½âÎö³öÀ´µÄÊý¾Ý´æ´¢ÔÚCSVÎÄ¼þÖÐ¡£

¡¾ÊµÕ½°¸Àý´úÂë3.2¡¿ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾µÄÊý¾ÝµÄ´æ´¢¡£



import csv

def saveCSV(data) :#¶¨Òå±£´æCSVÎÄ¼þµÄ·½·¨

with open("files/stockData.csv","w",newline="") as f:

writer =csv.writer(f)#´´½¨writer¶ÔÏó

writer.writerows(data) #Ð´ÈëÁÐ±íÊý¾Ý

saveCSV(tableData) #µ÷ÓÃ·½·¨±£´æ½âÎö³öÀ´µÄÊý¾Ý






ÕâÀï²ÉÓÃÄ£¿é»¯µÄË¼Ïë£¬¶¨ÒåÁËÒ»¸ö·½·¨saveCSVÓÃÓÚ½«Êý¾Ý±£´æµ½CSVÎÄ¼þ£¬½«¶þÎ¬ÁÐ±ídata×÷Îª·½·¨µÄ²ÎÊý¡£ÔÚÇ°ÃæµÄÊµÕ½ÖÐ×îÖÕ½âÎöµÄÊý¾Ý´æ´¢ÔÚ¶þÎ¬ÁÐ±ítableDataÖÐ£¬Òò´Ëµ÷ÓÃsaveCSV·½·¨½«tableData×÷ÎªÊµ²Î´«Èë£¬Êý¾Ý´æ´¢µÄ²¿·Ö½á¹ûÈçÍ¼3.9ËùÊ¾¡£





Í¼3.9ÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾Ïà¹ØÊý¾ÝµÄ´æ´¢½á¹û








3.2.3JSONÎÄ¼þµÄ´æÈ¡

JSONµÄÈ«³ÆÎªJavaScript Object Notation£¬ËüÊÇJavaScript¶ÔÏó±ê¼Ç£¬Í¨¹ý¶ÔÏóºÍÊý×éµÄ×éºÏÀ´±íÊ¾Êý¾Ý£¬¹¹Ôì¼ò½à£¬µ«ÊÇ½á¹¹»¯³Ì¶È·Ç³£¸ß£¬ÊÇÒ»ÖÖÇáÁ¿¼¶µÄÊý¾Ý½»»»¸ñÊ½¡£

Ê¹ÓÃjson¿â£¬Python¿ÉÒÔºÜ·½±ãµØ¶ÔJSONÎÄ¼þ½øÐÐ´æÈ¡¡£

1. ¶ÔÏóºÍÊý×é

JSON¶ÔÏóÔÚJavaScript ÖÐÊÇÊ¹ÓÃ´óÀ¨ºÅ¡°{ }¡±À¨ÆðÀ´µÄÄÚÈÝ£¬Êý¾Ý½á¹¹Îª{key1: value1, key2:value2,¡­}µÄ¼üÖµ¶Ô½á¹¹¡£

¤r key±ØÐëÊÇ×Ö·û´®£¬value¿ÉÒÔÊÇºÏ·¨µÄJSONÊý¾ÝÀàÐÍ£¬°üÀ¨×Ö·û´®¡¢Êý×Ö¡¢¶ÔÏó¡¢Êý×é¡¢²¼¶ûÖµ»ònull¡£

¤r keyºÍvalueÊ¹ÓÃÃ°ºÅ¡°£º¡±·Ö¸ô£¬Ã¿¸ö¼üÖµ¶ÔÊ¹ÓÃ¶ººÅ·Ö¸ô¡£

JSON¶ÔÏóµÄÓÃ·¨ÀàËÆÓÚPythonÖÐµÄ×ÖµäÀàÐÍÊý¾Ý¡£

JSONÊý×éÔÚJavaScript ÖÐÊÇÊ¹ÓÃÖÐÀ¨ºÅ¡°£Û £Ý¡±À¨ÆðÀ´µÄÄÚÈÝ£¬Êý¾Ý½á¹¹ÎªÀàËÆ£Û"java","javascript","Python",¡­£ÝµÄË÷Òý½á¹¹¡£Ê¹ÓÃÖÐÀ¨ºÅÀ¨ÆðÀ´µÄÖµ¿ÉÒÔÊÇÈÎÒâÀàÐÍ¡£

JSONÊý×éµÄÓÃ·¨ÀàËÆÓÚPythonÖÐµÄÁÐ±íÀàÐÍÊý¾Ý¡£

JSON¿ÉÒÔÓÉÒÔÉÏÁ½ÖÖÐÎÊ½×ÔÓÉ×éºÏ¶ø³É£¬¿ÉÒÔÎÞÏÞ´ÎÇ¶Ì×£¬½á¹¹ÇåÎú£¬ÊÇÊý¾Ý½»»»µÄ¼«¼Ñ·½Ê½¡£



£Û{ "name":"Ð¡Ã×","price":1999, "count":3000},

 {"name":"»ªÎª",	"price":2999, "count":122}£Ý






2. ´æ´¢JSONÎÄ¼þ

PythonÊ¹ÓÃjson¿â´æ´¢JSONÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃjson¿âµÄdumps·½·¨½«JSON¶ÔÏó×ª»»Îª×Ö·û´®¡£

(2) Ê¹ÓÃopenº¯ÊýÒÔÐ´ÈëÄ£Ê½»ñµÃÒªÐ´ÈëµÄÎÄ¼þ¾ä±ú¡£

(3) µ÷ÓÃÎÄ¼þ¾ä±úµÄwrite·½·¨½«¢ÙÖÐ×ª»»ºóµÄ×Ö·û´®Ð´ÈëÎÄ¼þ¡£

dumps·½·¨ÓÃÓÚ½«¶ÔÏó±àÂë³ÉJSON×Ö·û´®¸ñÊ½¡£ÆäÓï·¨¸ñÊ½ÈçÏÂ£º 



dumps(obj, ensure_ascii=True, indent=None,sort_keys=False)






³£¼û²ÎÊýµÄËµÃ÷ÈçÏÂ¡£

(1) obj£º JSONµÄ¶ÔÏó¡£

(2) ensure_ascii£º Ä¬ÈÏÖµÎªTrue£¬Èç¹ûobjÄÚº¬ÓÐ·ÇASCII×Ö·û£¬Ôò»áÒÔUTFª²8±àÂëÖµµÄÐÎÊ½ÏÔÊ¾Êý¾Ý£¬ÀàËÆ£ÜuXXXX£¬ÉèÖÃ³ÉFalseºó£¬¿ÉÒÔÕý³£ÏÔÊ¾×Ö·û¡£

(3) indent£º Ò»¸ö·Ç¸ºµÄÕûÊýÖµ£¬Èç¹ûÊÇ0»òÕßÎª¿Õ£¬ÔòÏÔÊ¾µÄÊý¾ÝÃ»ÓÐËõ½ø¸ñÊ½£¬ÇÒ²»»»ÐÐ£» Èç¹ûÉèÎª´óÓÚ0µÄÕûÊýÖµ£¬Ôò»á»»ÐÐÇÒËõ½øindentÖ¸¶¨µÄÊýÖµ£¬±ãÓÚJSONÊý¾Ý½øÐÐ¸ñÊ½»¯ÏÔÊ¾¡£

(4) sort_keys£º ½«Êý¾Ý¸ù¾ÝkeyÖµ½øÐÐÅÅÐò¡£

´æ´¢JSONÎÄ¼þÐèÒªÏÈÊ¹ÓÃdumps·½·¨½«JSON¶ÔÏó×ª»»³É×Ö·û´®£¬È»ºóÊ¹ÓÃ³£¹æµÄÎÄ¼þÐ´Èë²Ù×÷°Ñ×ª»»ºÃµÄ×Ö·û´®Ð´ÈëJSONÎÄ¼þÖÐ¡£

¡¾Àý3.11¡¿´æ´¢Êý¾Ýµ½JSONÎÄ¼þÖÐ¡£



import json

data=£Û{"name":"Ð¡Ã×","price":"1999","count":"3000"},

{"name":"»ªÎª","price":"2999","count":"122"}£Ý#Òª´æ´¢µÄ¶ÔÏó

#½«JSON¶ÔÏó±àÂëÎªJSON×Ö·û´®

jsonData=json.dumps(data,indent=2,ensure_ascii=False)

with open("files/data.json","w") as f:#´ò¿ªJSONÎÄ¼þ£¬½«JSON×Ö·û´®Ð´ÈëÎÄ¼þ

f.write(jsonData)






Àý3.11Ê¹ÓÃdumps·½·¨ÉèÖÃÁËindent=2£¬±íÃ÷ÔÚÊµÏÖÊý¾Ý´æ´¢Ê±¿ÉÒÔ×Ô¶¯»»ÐÐ£¬ÇÒÃ¿ÐÐËõ½øÁ½¸ö×Ö·û£¬Èç¹û²»×ö¸ÃÉèÖÃ£¬´æ´¢ÔÚÎÄ¼þÖÐµÄÊý¾Ý½«ÔÚÒ»ÐÐÏÔÊ¾¡£ÁíÍâ£¬ÒòÎªÊý¾ÝÖÐÓÐÖÐÎÄ×Ö·û£¬ÎªÁËÄÜÕý³£ÏÔÊ¾³öÖÐÎÄ£¬ÐèÒªÉèÖÃensure_ascii=False£¬·ñÔò½«ÏÔÊ¾ÖÐÎÄ×Ö·û¶ÔÓ¦µÄUTFª²8±àÂë¡£Êý¾Ý´æ´¢µ½JSONÎÄ¼þµÄ½á¹ûÈçÍ¼3.10ËùÊ¾¡£





Í¼3.10JSONÎÄ¼þµÄ´æ´¢½á¹û


3. ¶ÁÈ¡JSONÎÄ¼þ

PythonÊ¹ÓÃjson¿â¶ÁÈ¡JSONÎÄ¼þµÄ²½ÖèÈçÏÂ£º 

(1) Ê¹ÓÃopenº¯ÊýÒÔ¶ÁÈ¡Ä£Ê½»ñµÃÒª¶ÁÈ¡µÄJSONÎÄ¼þ¾ä±ú¡£

(2) Ê¹ÓÃÎÄ¼þ¾ä±úµÄread·½·¨¶ÁÈ¡ÎÄ¼þµÃµ½×Ö·û´®¡£

(3) µ÷ÓÃjson¿âµÄloads·½·¨½«×Ö·û´®×ª»¯ÎªJSON¶ÔÏó¡£

loads·½·¨ÓÃÓÚ½«ÒÑ±àÂëµÄJSON×Ö·û´®½âÂëÎªJSON¶ÔÏó¡£ÆäÓï·¨¸ñÊ½ÈçÏÂ£º 



loads(str)






ÆäÖÐ£¬strÊÇÒÑ±àÂëµÄJSON×Ö·û´®£¬ÀýÈç'{"a":1,"b":2,"c":3,"d":4,"e":5}'¡£

¶ÁÈ¡JSONÎÄ¼þ£¬ÏÈÓÃ³£¹æµÄ¶ÁÈ¡ÎÄ¼þ²Ù×÷µÃµ½×Ö·û´®£¬È»ºóÓÃjson¿âÖÐµÄloads·½·¨½«×Ö·û´®×ª»»ÎªJSON¶ÔÏó¡£

¡¾Àý3.12¡¿¶ÁÈ¡JSONÎÄ¼þÖÐµÄÊý¾Ý¡£



import json

with open("files/data.json","r") as f:

str=f.read() 








data=json.loads(str)#½«×Ö·û´®½âÂëÎªJSON¶ÔÏó

print(data)






³ÌÐòµÄÊä³ö½á¹ûÎªÁÐ±íÀàÐÍÊý¾Ý£¬ÁÐ±íÖÐµÄÃ¿¸öÔªËØÎª×ÖµäÀàÐÍÊý¾Ý£¬ÈçÏÂËùÊ¾£º 



£Û{'name': 'Ð¡Ã×', 'price': '1999', 'count': '3000'}, {'name': '»ªÎª', 'price': '2999', 'count': '122'}£Ý






3.3ÊµÕ½£º ¶¹°ê¶ÁÊéTop250µÄÊý¾ÝµÄ»ñÈ¡

±¾½Ú½øÐÐ°ë½á¹¹»¯Êý¾ÝµÄ»ñÈ¡¡ª¡ª±àÐ´ÅÀ³æ»ñÈ¡¶¹°ê¶ÁÊéTop250µÄÏà¹ØÊý¾Ý£¬Êý¾ÝÀ´Ô´ÓÚ¶¹°ê¶ÁÊéTop250(https://book.douban.com/top250)£¬ÈçÍ¼3.11ËùÊ¾¡£±¾ÊµÕ½µÄÈÎÎñÊÇÅÀÈ¡ÅÅÐÐ°ñÖÐÃ¿±¾Í¼ÊéµÄ¾ßÌåÐÅÏ¢£¬´æ´¢ÔÚJSONÎÄ¼þÖÐ¡£




Í¼3.11¶¹°ê¶ÁÊéTop250µÄÖ÷Ò³







3.3.1Ä¿±êÍøÕ¾·ÖÎö
1. ²é¿´robotsÐ­Òé

²é¿´¶¹°ê¶ÁÊéµÄrobotsÐ­Òé£¬ÁË½âÍøÕ¾ÊÇ·ñÔÊÐíÅÀ³æÅÀÈ¡¶¹°ê¶ÁÊéTop250µÄÊý¾Ý¡£ÔÚä¯ÀÀÆ÷µÄµØÖ·À¸ÖÐÊäÈëÍøÖ·¡°https://book.douban.com/robots.txt¡±£¬Ð­ÒéµÄ¾ßÌåÄÚÈÝÈçÍ¼3.12ËùÊ¾£¬¶¹°ê¶ÁÊéÍøÕ¾Ã»ÓÐ½ûÖ¹¶ÔTop250Ä¿Â¼ÏÂ×ÊÔ´µÄÅÀÈ¡¡£




Í¼3.12¶¹°ê¶ÁÊéÍøÕ¾µÄrobotsÐ­Òé


2. Ê¹ÓÃChrome¹¤¾ß½øÐÐÍøÕ¾·ÖÎö

Ê¹ÓÃChrome¹¤¾ßµÄNetworkÃæ°å²é¿´·¢ËÍÇëÇóµÄÏà¹ØÄÚÈÝ£¬°üÀ¨URL¡¢ÇëÇóÀàÐÍ¡¢·ÖÒ³URLµÄÌØµã¡¢ÇëÇóÍ·ÖÐµÄUserª²AgentÐÅÏ¢µÈ£¬ÈçÍ¼3.13ËùÊ¾¡£





Í¼3.13Chrome¹¤¾ßÖÐ¶¹°ê¶ÁÊéTop250µÄNetworkÃæ°åÄÚÈÝ


²é¿´µ½µÄ¾ßÌåÐÅÏ¢Èç±í3.6ËùÊ¾¡£


±í3.6Ô¤·ÖÎö»ñµÃµÄÐÅÏ¢


ÀàÐÍ
ÄÚÈÝ



ÇëÇóURL»ù´¡µØÖ·
https://book.douban.com/top250
ÇëÇóÀàÐÍ
GETÇëÇó
·ÖÒ³URLµÄÌØµã
https://book.douban.com/top250?start=25

https://book.douban.com/top250?start=50
ÇëÇóÍ·ÖÐµÄUserª²Agent
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36


Ê¹ÓÃChrome¹¤¾ßµÄElementsÃæ°å¶ÔÊý¾ÝËùÔÚÍøÒ³µÄÌØÕ÷½øÐÐ·ÖÎö£¬ÈçÍ¼3.14ËùÊ¾¡£¿ÉÒÔ¿´³öÔÚÍøÒ³Ò³ÃæÖÐÃ¿±¾ÊéµÄÐÅÏ¢¶¼ÔÚÒ»¶Ôtable±êÇ©ÖÐ£¬¾ßÌåÀ´¿´£¬ÔÚtable±êÇ©ÏÂ½öÓÐÒ»¶Ôtr±êÇ©£¬tr±êÇ©ÖÐ°üÀ¨Á½¶Ôtd±êÇ©£¬ÆäÖÐ£¬µÚÒ»¸ötd±êÇ©°üº¬Êé¼®ÏêÇéµÄÁ´½ÓURLµØÖ·ºÍÊéµÄ·âÃæÍ¼Æ¬URLµØÖ·£» µÚ¶þ¸ötd±êÇ©°üº¬ÊéÃû¡¢×÷Õß¡¢³ö°æÉç¡¢³ö°æÊ±¼ä¡¢¶¨¼Û¡¢¶¹°êÆÀ·Ö¡¢²ÎÓëÆÀ¼ÛÈËÊý¡¢Ò»¾ä»°ÊéÆÀµÈÏà¹ØÐÅÏ¢¡£





Í¼3.14Chrome¹¤¾ßÖÐ¶¹°ê¶ÁÊéTop250µÄElementsÃæ°åÄÚÈÝ


3.3.2°ë½á¹¹»¯Êý¾ÝµÄÅÀÈ¡¡¢½âÎöºÍ´æ´¢

ÔÚ¶ÔÄ¿±êÍøÕ¾½øÐÐÔ¤·ÖÎöºó£¬¾Í¿ÉÒÔ±àÐ´´úÂë¶Ô°ë½á¹¹»¯Êý¾Ý½øÐÐÅÀÈ¡¡¢½âÎöºÍ´æ´¢£¬¾ßÌåÈçÏÂ¡£

(1)  ÓÃrequests¿âÄ£ÄâÓÃ»§ÇëÇó¶ÔÍøÒ³Êý¾Ý½øÐÐÅÀÈ¡¡£

(2) ÓÃBeautifulSoup¿â¶ÔÍøÒ³ÖÐµÄÊé¼®ÐÅÏ¢½øÐÐ½âÎö¡£

(3)  ÓÃjson¿â½«½âÎö³öÀ´µÄÊý¾Ý±£´æÎªJSONÎÄ¼þ¡£

1. Ä£Äâ·¢ËÍÇëÇó¡¢ÅÀÈ¡Êý¾Ý

¶¹°ê¶ÁÊéTop250ÉÏµÄÊý¾ÝÊÇ·ÖÒ³ÏÔÊ¾µÄ£¬URLµÄÇëÇó²ÎÊýÎªstart£¬Ò³Âë´Ó0¿ªÊ¼£¬start²ÎÊý¶ÔÓ¦µÄÖµÊÇÒ³ÂëµÄ25±¶£¬Éè¼ÆÇëÇóÒ³Ãæ·½·¨getHTML(num)£¬ÆäÖÐnumÊµ¼ÊÈ¡ÖµÊÇ25µÄ±¶Êý¡£



import requests

def getHTML(num) :#¶¨Òå·¢ËÍÇëÇó¡¢ÅÀÈ¡Êý¾ÝµÄ·½·¨

url='https://book.douban.com/top250'

header = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' £Ü

'AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.163 Safari/537.36'

}

r=requests.get(url,headers=header,params={"start":num}) 

return r.text






µ÷ÓÃ¸Ã·½·¨´«Èë²ÎÊý£¬¿ÉµÃµ½¶ÔÓ¦Ò³ÃæµÄÊý¾Ý£¬ÏÂÃæµÄ´úÂë»ñÈ¡ÁË¶¹°ê¶ÁÊéµÚ2Ò³µÄÊý¾Ý¡£



html=getHTML(25) 

print(html£Û:1000£Ý)






Êä³öÇ°1000¸ö×Ö·ûµÄÐÅÏ¢£¬½á¹ûÈçÍ¼3.15ËùÊ¾¡£





Í¼3.15ÅÀÈ¡ÍøÒ³ÖÐÇ°1000¸ö×Ö·ûµÄÐÅÏ¢


2. ½âÎöÊý¾Ý

ÔÚÊµÏÖÊý¾Ý½âÎöÊ±£¬Ê×ÏÈ¶¨ÒågetPrintData·½·¨Íê³ÉÍøÒ³Êý¾ÝµÄ½âÎö¼°´òÓ¡Êä³ö£¬ÆäÖÐ²ÎÊýhtmlÊÇµ÷ÓÃgetHTML·½·¨µÃµ½µÄÒÔ×Ö·û´®±íÊ¾µÄÍøÒ³ÐÅÏ¢¡£Æä¾ßÌåµÄ´úÂëÈçÏÂ£º 



from bs4 import BeautifulSoup

def getPrintData(html):

soup=BeautifulSoup(html,"lxml")#½«HTMLÒ³Ãæ·â×°³ÉÎÄµµÊ÷

books=soup.select("tr")#ÌáÈ¡Ò³ÃæÖÐËùÓÐµÄtr±êÇ©

#¶ÔÃ¿¸ötr±êÇ©½øÐÐ±éÀú

for book in books:

tds=book.select("td")#ÌáÈ¡µ±Ç°tr±êÇ©ÏÂµÄËùÓÐtd±êÇ©

print("ÊéÃû:",tds£Û1£Ý.div.a.text.strip() .split("£Ün") £Û0£Ý) 

print("Êé¼®ÏêÇé:",tds£Û0£Ý.a.get("href") ) 

print("·âÃæ:",tds£Û0£Ý.img.get("src") ) 

print("³ö°æÐÅÏ¢:",tds£Û1£Ý.p.text) 

#ÌáÈ¡µÚ¶þ¸ötd±êÇ©ÏÂËùÓÐ´øÓÐclassÊôÐÔµÄspan±êÇ©

spans=tds£Û1£Ý.select("span£Ûclass£Ý") 

print("ÆÀ·Ö:",spans£Û1£Ý.text) 

print("ÆÀÂÛÈËÊý:",spans£Û2£Ý.text.replace("(","") .replace(") ","") .strip() ) 

if len(spans) ==4:

print("±¸×¢:",spans£Û3£Ý.text) 

print("---------------------------------") 






ÔÚ¶¨ÒåµÄ·½·¨ÄÚ£¬Ê¹ÓÃBeautifulSoupº¯ÊýµÃµ½ÎÄµµÊ÷Ö®ºó£¬µ÷ÓÃsoup¶ÔÏóµÄselect·½·¨²éÕÒÏà¹Ø±êÇ©ÄÚÈÝ£¬¾ßÌå²Ù×÷ÈçÏÂ£º 

(1) Í¨¹ýsoup.select("tr")·½·¨²éÕÒµ½Ò³ÃæÖÐËùÓÐµÄtr±êÇ©£¬Ã¿¸ötr±êÇ©ÖÐµÄÄÚÈÝ¾ÍÊÇÒ»±¾ÊéµÄÏêÏ¸ÐÅÏ¢¡£

(2) ½«²éÕÒ½á¹û±£´æÎªÁÐ±íbooks¡£

(3) ±éÀúbooksÁÐ±í£¬¼´±éÀúÃ¿Ò»¶Ôtr±êÇ©¡£

(4) ÔÚ±éÀúÊ±£¬ÏÈÓÃbook.select("td")ÌáÈ¡trÖÐµÄtd±êÇ©£¬½«Æä½á¹û´æ´¢ÔÚÁÐ±ítdsÖÐ¡£ÓÉÇ°ÃæµÄ·ÖÎö¿ÉÖª£¬ÁÐ±ítdsÖÐÖ»°üÀ¨ÒÔÏÂÁ½¸öÔªËØ¡£

¤r tds£Û0£Ý£º °üÀ¨Êé¼®ÏêÇéºÍÊé¼®·âÃæµÄURLµØÖ·ÐÅÏ¢¡£

¤r tds£Û1£Ý£º °üÀ¨ÊéÃû¡¢³ö°æÐÅÏ¢(×÷Õß¡¢³ö°æÉç¡¢³ö°æÊ±¼ä¡¢¶¨¼Û)¡¢ÆÀ·Ö¡¢ÆÀ¼ÛÈËÊý¡¢±¸×¢ÐÅÏ¢¡£

È»ºó¸ù¾Ý¸÷ÏîÊý¾ÝËùÔÚ±êÇ©µÄÌØÕ÷½øÐÐÊý¾ÝµÄÌáÈ¡¡£

(5) ÆÀ·Ö¡¢ÆÀ¼ÛÈËÊýÒÔ¼°±¸×¢ÐÅÏ¢ÔÚtd±êÇ©ÏÂ´øÓÐclassÊôÐÔµÄspan±êÇ©ÖÐ£¬µ÷ÓÃtds£Û1£Ý.select("span£Ûclass£Ý")ÌáÈ¡µÚ¶þ¸ötd±êÇ©ÏÂËùÓÐ´øÓÐclassÊôÐÔµÄspan±êÇ©£¬½«Æä´æ·ÅÔÚÁÐ±íspansÖÐ¡£

(6) Í¨¹ýÒ³Ãæ·ÖÎö·¢ÏÖ£¬µÚ¶þ¸öspan±êÇ©ÏÔÊ¾µÄÊÇÆÀ·ÖÐÅÏ¢£¬µÚÈý¸öspan±êÇ©ÏÔÊ¾µÄÊÇÆÀ¼ÛÈËÊý£¬µ«ÊÇÓÐÐ©Êé¼®Ã»ÓÐ±¸×¢ÐÅÏ¢£¬Ò²¾ÍÒâÎ¶×ÅÓÐÐ©Êé¼®Ö»ÏÔÊ¾3¸öspan±êÇ©£¬ÓÐµÄÊé¼®ÏÔÊ¾4¸öspan±êÇ©£¬Èç¹ûÓÐ±¸×¢ÐÅÏ¢£¬ÔòÔÚµÚËÄ¸öspan±êÇ©ÖÐÏÔÊ¾£¬Òò´ËÏÔÊ¾±¸×¢ÐÅÏ¢ÊÇÔö¼ÓÒ»¸öÌõ¼þÅÐ¶Ïif len(spans) ==4¡£

Ö´ÐÐµ÷ÓÃ£º 



getPrintData(html)






²¿·Ö½á¹ûÈçÍ¼3.16ËùÊ¾£¬ÆäÖÐhtmlÊÇÅÀÈ¡µÄµÚ2Ò³µÄÍøÒ³ÎÄµµÐÅÏ¢¡£





Í¼3.16¶¹°ê¶ÁÊéTop250Ò³ÃæµÄ½âÎöºÍ´òÓ¡Ð§¹û


ÎªÁËºóÐø½«Êý¾Ý´æ´¢ÎªJSONÎÄ¼þ£¬ÔÚgetPrintData·½·¨µÄ»ù´¡ÉÏ´´½¨getListData(html)·½·¨£¬½«½âÎö³öÀ´µÄÊý¾ÝÏÈ±£´æÎªJSONÊý¾Ý¶ÔÏó¡£¾ßÌåÎªÔÚ·½·¨ÖÐÔö¼ÓÒ»¸öÁÐ±íbooklist±£´æËùÓÐÊé¼®ÐÅÏ¢£¬Ã¿±¾Êé¼®µÄÐÅÏ¢ÓÃ×ÖµäbookdicÀ´±£´æ£¬´úÂëÈçÏÂ£º 



def getListData(html):

booklist=£Û£Ý#¶¨ÒåÁÐ±í±£´æËùÓÐÊé¼®ÐÅÏ¢

soup=BeautifulSoup(html,"lxml") 

books=soup.select("tr") 

for book in books:

bookdic={} #¶¨Òå×Öµä±£´æÃ¿±¾Êé¼®µÄÐÅÏ¢

tds=book.select("td") 

bookdic£Û"ÊéÃû"£Ý=tds£Û1£Ý.div.a.text.strip() .split("£Ün") £Û0£Ý











bookdic£Û"Êé¼®ÏêÇé"£Ý=tds£Û0£Ý.a.get("href") 

bookdic£Û"·âÃæ"£Ý=tds£Û0£Ý.img.get("src") 

bookdic£Û"³ö°æÐÅÏ¢"£Ý=tds£Û1£Ý.p.text

spans=tds£Û1£Ý.select("span£Ûclass£Ý") 

bookdic£Û"ÆÀ·Ö"£Ý=spans£Û1£Ý.text

bookdic£Û"ÆÀÂÛÈËÊý"£Ý=spans£Û2£Ý.text.replace("(","") .replace(") ","") .strip() 

if len(spans) ==4:

bookdic£Û"±¸×¢"£Ý=spans£Û3£Ý.text

booklist.append(bookdic)#½«×ÖµäÔªËØÌí¼Óµ½booklistÁÐ±íÖÐ

return booklist#·µ»Øbooklist






3. ±£´æÊý¾Ý

¶¨ÒåsaveJson·½·¨±£´æ½âÎöµÄÊý¾ÝÎªJSONÎÄ¼þ£¬ÔÚ¸Ã·½·¨ÖÐÓÐÒÔÏÂ3¸ö²ÎÊý¡£

¤r data£º ½âÎö³öÀ´µÄÊý¾Ý¡£

¤r path£º ÓÃ»§Ö¸¶¨µÄÎÄ¼þ´æ´¢Â·¾¶¡£

¤r filename£º ÓÃ»§Ö¸¶¨µÄÎÄ¼þÃû¡£

ÎªÁË°ïÖú´´½¨ÓÃ»§Ö¸¶¨µÄÏµÍ³ÖÐ²»´æÔÚµÄÎÄ¼þÂ·¾¶ºÍÎÄ¼þÃû£¬´Ë´¦ÒýÈëos¿â£¬¾ßÌå´úÂëÈçÏÂ£º 



import json

import os

def saveJson(data,path,filename) :

jData=json.dumps(data,indent=2,ensure_ascii=False) 

if not os.path.exists(path) :#ÅÐ¶ÏÎÄ¼þÂ·¾¶²»´æÔÚ 

os.makedirs(path) #Èç¹û²»´æÔÚÖ¸¶¨µÄÎÄ¼þÂ·¾¶£¬ÔòÐÂ½¨

with open(path+filename,"w",encoding="utf-8") as f:

f.write(jData)






3.3.3Ä£¿é»¯³ÌÐòµÄ±àÐ´

ÔÚ¶¹°ê¶ÁÊéTop250ÅÅÐÐ°ñÖÐ¹²ÓÐ250±¾Êé¼®ÐÅÏ¢£¬·Ö10¸öÒ³ÃæÏÔÊ¾¡£ÕâÀïÉè¼ÆÒ»¸öÁÐ±íallbooks£¬¶ÔÃ¿¸öÒ³ÃæµÄÊé¼®ÐÅÏ¢½øÐÐÅÀÈ¡¡¢½âÎö²¢´æ´¢ÔÚÒ»¸öÒ³ÃæµÄÁÐ±íºó£¬½«Ã¿¸öÒ³ÃæµÄÊé¼®ÁÐ±íÀ©Õ¹µ½allbooksÖÐ¡£ÏÂÃæÊÇ»ñÈ¡¶¹°ê¶ÁÊéTop250ÅÅÐÐ°ñµÄÏà¹ØÊý¾ÝµÄÊµÕ½°¸Àý´úÂë¡£

¡¾ÊµÕ½°¸Àý´úÂë3.3¡¿»ñÈ¡¶¹°ê¶ÁÊéTop250ÅÅÐÐ°ñµÄÏà¹ØÊý¾Ý¡£



import requests

from bs4 import BeautifulSoup

import json

import os

allbooks=£Û£Ý#´æ´¢ËùÓÐÒ³ÃæµÄÊé¼®ÐÅÏ¢

for i in range(10) : #10¸öÒ³Ãæ

#µ÷ÓÃgetHTML·½·¨ÅÀÈ¡µ±Ç°Ò³Ãæ£¬·µ»ØHTML×Ö·û´®

html=getHTML(i*25) 

#µ÷ÓÃgetListData·½·¨½âÎöµ±Ç°Ò³Ãæ£¬·µ»Ø´æ´¢µ±Ç°Ò³ÃæËùÓÐÊé¼®ÐÅÏ¢µÄÁÐ±í

page=getListData(html)









allbooks.extend(page)#½«ÁÐ±ípageÀ©Õ¹µ½allbooksÖÐ

#±£´æËùÓÐÊý¾Ýµ½JSONÎÄ¼þ

saveJson(allbooks,"mdata/","douban250.json")

#¶¨Òå·¢ËÍÇëÇóÅÀÈ¡Êý¾ÝµÄ·½·¨

def getHTML(num):

url='https://book.douban.com/top250'

header = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' £Ü

'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'

}

r=requests.get(url,headers=header,params={"start":num}) 

return r.text

#¶¨Òå½âÎöÊý¾Ý£¬±£´æÔÚÁÐ±íÖÐµÄ·½·¨

def getListData(html):

booklist=£Û£Ý

soup=BeautifulSoup(html,"lxml") 

books=soup.select("tr") 

for book in books:

bookdic={}

tds=book.select("td") 

bookdic£Û"ÊéÃû"£Ý=tds£Û1£Ý.div.a.text.strip().split("£Ün") £Û0£Ý

bookdic£Û"Êé¼®ÏêÇé"£Ý=tds£Û0£Ý.a.get("href") 

bookdic£Û"·âÃæ"£Ý=tds£Û0£Ý.img.get("src") 

bookdic£Û"³ö°æÐÅÏ¢"£Ý=tds£Û1£Ý.p.text

spans=tds£Û1£Ý.select("span£Ûclass£Ý") 

bookdic£Û"ÆÀ·Ö"£Ý=spans£Û1£Ý.text

bookdic£Û"ÆÀÂÛÈËÊý"£Ý=spans£Û2£Ý.text.replace("(","") .replace(") ","") .strip() 

if len(spans) ==4:

bookdic£Û"±¸×¢"£Ý=spans£Û3£Ý.text

booklist.append(bookdic) 

return booklist

#¶¨Òå±£´æÊý¾Ýµ½JSONÎÄ¼þµÄ·½·¨

def saveJson(data,path,filename) :

jData=json.dumps(data,indent=2,ensure_ascii=False) 

if not os.path.exists(path) : 

os.makedirs(path) 

with open(path+filename,"w",encoding="utf-8") as f:

f.write(jData)






ÒÔÉÏ´úÂëÖÐµÄÒ»Ð©×¢ÒâÊÂÏîÈçÏÂ£º 

(1)  Ê×Ò³URLÖÐµÄstart²ÎÊýÖµÎª0£¬Òò´ËÔÚ×ö¶à¸öÒ³ÃæÑ­»·Ê±£¬Ö»ÐèÒªÊ¹ÓÃrange(10) ¼´¿É¡£

(2)  Ê¹ÓÃextend·½·¨½«pageÁÐ±íÌí¼Óµ½allbooksÁÐ±í£¬¼´ÔÚÔ­ÓÐÁÐ±íµÄÎ²²¿×·¼ÓÁÐ±í£¬ÊµÏÖÔ­ÁÐ±íallbooksµÄÀ©Õ¹¡£

(3) ÔÚµ÷ÓÃsaveJson·½·¨ÖÐ£¬µÚ¶þ¸ö²ÎÊý±íÊ¾Â·¾¶£¬Ó¦ÔÚ¸ø³öµÄ±íÊ¾Â·¾¶µÄ×Ö·û´®ºóÔö¼Ó¡°/¡±×Ö·û¡£

×îÖÕÎÄ¼þdouban250.jsonµÄ´æ´¢½á¹ûÈçÍ¼3.17ËùÊ¾¡£




Í¼3.17douban250.jsonÎÄ¼þµÄ´æ´¢½á¹û


3.4ÕýÔò±í´ïÊ½

ÕýÔò±í´ïÊ½ÊÇÒ»¸ö·Ç³£Ç¿´óµÄ×Ö·û´®´¦Àí¹¤¾ß£¬¼¸ºõÈÎºÎ¹ØÓÚ×Ö·û´®µÄ²Ù×÷¶¼¿ÉÒÔÊ¹ÓÃÕýÔò±í´ïÊ½À´Íê³É¡£ËüÊÇ¶Ô×Ö·û´®²Ù×÷µÄÒ»ÖÖÂß¼­¹«Ê½£¬ÓÃÊÂÏÈ¶¨ÒåºÃµÄÒ»Ð©ÌØ¶¨×Ö·û¼°Æä×éºÏ×é³ÉÒ»¸ö¡°¹æÔò×Ö·û´®¡±£¬±í´ï¶Ô×Ö·û´®µÄÒ»ÖÖ¹ýÂËÂß¼­¡£±àÐ´ÅÀ³æ½âÎöÊý¾Ý£¬ÕÆÎÕÕýÔò±í´ïÊ½ÊÇ²»¿É»òÈ±µÄ¼¼ÄÜ£¬Ëü¿ÉÒÔÈÃÊý¾ÝµÄ½âÎö±äµÃ¸ßÐ§¡¢¼ò±ã¡£ÕýÔò±í´ïÊ½²»ÊÇPython¶ÀÓÐµÄ£¬PythonÍ¨¹ý×Ô´øµÄre¿âÌá¹©ÁË¶ÔÕýÔò±í´ïÊ½µÄÖ§³Ö¡£






3.4.1ÕýÔò±í´ïÊ½»ù´¡

ÕýÔò±í´ïÊ½ÃèÊöÁËÒ»ÖÖ×Ö·û´®Æ¥ÅäµÄÄ£Ê½(pattern)£¬¿ÉÒÔÓÃÀ´×öÒÔÏÂ²Ù×÷£º 

¤r ¼ì²éÒ»¸ö×Ö·û´®ÊÇ·ñº¬ÓÐÄ³ÖÖ×Ó´®¡£

¤r Ìæ»»Æ¥ÅäµÄ×Ó´®¡£

¤r ´ÓÄ³¸ö×Ö·û´®ÖÐÈ¡³ö·ûºÏÄ³ÖÖÌõ¼þµÄ×Ó´®µÈ¡£

ÀýÈç£¬Ê¹ÓÃÕýÔò±í´ïÊ½£Üd{11}¿ÉÒÔ´ÓÏÂÁÐÎÄ±¾ÖÐÆ¥Åä³ö11Î»ÊÖ»úºÅÂë¡£



ÕÅÖÁÖÐ£¬ÊÖ»ú15912378901£¬QQ 66531

ÁõÐ¡ÔÆ£¬ÊÖ»ú15662378988£¬QQ 67319178

Íõ¾ù£¬ÊÖ»ú13452378118£¬QQ 3191178






1. ÕýÔò±í´ïÊ½µÄ¹¹³É

´´½¨ÕýÔò±í´ïÊ½µÄ·½·¨ºÍ´´½¨ÊýÑ§±í´ïÊ½µÄ·½·¨Ò»Ñù£¬¶¼ÊÇÓÃ¶àÖÖÔª×Ö·ûÓëÔËËã·û½«Ð¡µÄ±í´ïÊ½½áºÏÔÚÒ»Æð´´½¨¸ü´óµÄ±í´ïÊ½¡£ÕýÔò±í´ïÊ½µÄ×é³É¿ÉÒÔÊÇµ¥¸ö×Ö·û¡¢×Ö·û¼¯¡¢×Ö·û·¶Î§¡¢×Ö·û¼äµÄÑ¡Ôñ»òÕßËùÓÐ×é¼þµÄÈÎÒâ×éºÏ¡£ÕýÔò±í´ïÊ½µÄ»ù±¾¹¹³É¿ÉÒÔÊÇ×Ö·û¡¢Ô¤¶¨Òå×Ö·û¼¯¡¢ÊýÁ¿´Ê¡¢±ß½çÆ¥Åä¡¢Âß¼­·Ö×éµÈ¡£

1)  ×Ö·û

ÕÆÎÕÕýÔò±í´ïÊ½ÐèÒªÊìÏ¤ËüµÄÌØ¶¨·ûºÅµÄ×÷ÓÃ£¬±í3.7ÁÐ³öÁËÕýÔò±í´ïÊ½ÖÐ×Ö·ûµÄ±íÊ¾¡£


±í3.7×Ö·û


×Ö·û
º¬Òå



Ò»°ã×Ö·û
Æ¥Åä×ÔÉí
.
Æ¥Åä³ý¡°£Ün¡±ÒÔÍâµÄÈÎºÎµ¥¸ö×Ö·û£¬ÔÚDOTALLÄ£Ê½ÖÐ¿ÉÒÔÆ¥Åä¡°£Ün¡±
£Ü
×ªÒå×Ö·û£¬Ê¹ºóÒ»¸ö×Ö·û¸Ä±äÔ­À´µÄÒâË¼
£Û...£Ý
×Ö·û¼¯£¬¶ÔÓ¦µÄÎ»ÖÃ¿ÉÒÔÊÇ×Ö·û¼¯µÄÈÎÒâ×Ö·û£¬ËùÓÐµÄÌØÊâ×Ö·û¶¼½«Ê§È¥ÆäÔ­ÓÐµÄÌØÊâº¬Òå


ÆäÖÐ£º 

(1) Ò»°ã×Ö·ûÊÇÆ¥Åä×ÔÉíµÄ£¬ÀýÈçabcµÄÆ¥Åä½á¹û¾ÍÊÇabc¡£

(2) .×Ö·ûÎªÆ¥Åä³ý»»ÐÐ·û¡°£Ün¡±ÒÔÍâµÄÈÎÒâ×Ö·û¡£ÀýÈça.cÆ¥ÅäµÄ½á¹û¿ÉÒÔÊÇabc¡¢a&c¡¢arcµÈ¡£

(3) £ÜÊÇ×ªÒå×Ö·û£¬ÈÃËüºóÃæ³öÏÖµÄ×Ö·ûÊ§È¥Ô­À´µÄÌØÊâ×÷ÓÃ£¬Æ¥ÅäµÄÊÇ×Ö·û±¾Éí¡£ÀýÈça£Ü.cÆ¥ÅäµÄ½á¹ûÊÇa.c¡£

(4) £Û...£ÝÊÇ×Ö·û¼¯£¬×Ö·û¼¯ÖÐµÄ×Ö·û¿ÉÒÔÓÐÒÔÏÂ¼¸ÖÖÐÎÊ½¡£

¤r ¿ÉÒÔÖð¸öÁÐ³ö£¬ÀýÈça£Ûbc£Ýe¿ÉÒÔÆ¥Åäabe»òace¡£

¤r ¿ÉÒÔ¸ø³ö·¶Î§£¬ÀýÈça£Ûbª²d£Ýe¿ÉÒÔÆ¥Åäabe¡¢ace¡¢ade¡£

¤r ×Ö·û¼¯ÖÐµÄµÚÒ»¸ö×Ö·ûÈç¹ûÊÇ^±íÊ¾È¡·´£¬ÀýÈç£Û^abc£Ý±íÊ¾²»ÊÇa¡¢b¡¢cµÄÆäËû×Ö·û¡£

2)  Ô¤¶¨Òå×Ö·û¼¯

ÔÚÕýÔò±í´ïÊ½ÖÐÓÐ3¶Ô³£ÓÃµÄÔ¤¶¨Òå×Ö·û¼¯£¬Ã¿Ò»¶ÔÔ¤¶¨Òå×Ö·û¼¯µÄÇø±ðÔÚÓÚ´óÐ¡Ð´²»Í¬£¬Æ¥ÅäµÄ×Ö·û»¥Îª²¹¼¯£¬Èç±í3.8ËùÊ¾¡£


±í3.8Ô¤¶¨Òå×Ö·û¼¯


×Ö·û
º¬Òå



£Üd
Æ¥ÅäÊý×Ö£¬¼´£Û0ª²9£Ý
£ÜD
Æ¥Åä·ÇÊý×Ö£¬¼´£Û^0ª²9£Ý
£Üs
Æ¥Åä¿Õ°××Ö·û£¬¼´£Û<¿Õ¸ñ>£Üt£Ür£Ün£Üf£Üv£Ý
£ÜS
Æ¥Åä·Ç¿Õ°××Ö·û£¬¼´£Û^£Üs£Ý
£Üw
Æ¥Åäµ¥´Ê×Ö·û£¬¼´£ÛAª²Zaª²z0ª²9_£Ý
£ÜW
Æ¥Åä·Çµ¥´Ê×Ö·û£¬¼´£Û^£Üw£Ý


ÆäÖÐ£º 

(1) £Üd±íÊ¾Æ¥Åä0~9¹²10¸öÊý×Ö£» £ÜDÔòÆ¥Åä·ÇÊý×Ö¡£ÀýÈç£¬a£Üdc¿ÉÒÔÆ¥Åäa1c£» a£ÜDcÔò¿ÉÒÔÆ¥Åäabc¡£

(2) £ÜsÆ¥ÅäËùÓÐµÄ¿Õ°××Ö·û£¬¿Õ¸ñ¡¢£Üt¡¢£Ür¡¢£Ün¶¼ÄÜ±»Æ¥Åä³öÀ´£» £ÜSÆ¥ÅäËùÓÐµÄ·Ç¿Õ°××Ö·û¡£ÀýÈç£¬a£Üsc¿ÉÒÔÆ¥Åäa c£» a£ÜScÔò¿ÉÒÔÆ¥Åäabc¡£

(3) £ÜwÆ¥ÅäËùÓÐµÄµ¥´Ê×Ö·û£» £ÜWÆ¥ÅäËùÓÐµÄ·Çµ¥´Ê×Ö·û¡£ÀýÈç£¬a£Üwc¿ÉÒÔÆ¥Åäabc£» a£ÜWcÔò¿ÉÒÔÆ¥Åäa c¡£

3)  ÊýÁ¿´Ê

ÔÚÕýÔò±í´ïÊ½ÖÐÊýÁ¿´ÊÊÇ³öÏÖÔÚ×Ö·ûÖ®ºóµÄ£¬ÓÃÓÚ×¨ÃÅ¿ØÖÆÆ¥Åä×Ö·ûµÄ´ÎÊý£¬±í3.9ÁÐ³öÁË±íÊ¾ÊýÁ¿´ÊµÄ·ûºÅ¡£


±í3.9ÊýÁ¿´Ê


×Ö·û
º¬Òå



*
Æ¥ÅäÇ°Ò»¸ö×Ö·û0´Î»ò¶à´Î
+
Æ¥ÅäÇ°Ò»¸ö×Ö·û1´Î»ò¶à´Î
?
Æ¥ÅäÇ°Ò»¸ö×Ö·û0´Î»ò1´Î
{m}
Æ¥ÅäÇ°Ò»¸ö×Ö·ûm´Î
{m,n}
Æ¥ÅäÇ°Ò»¸ö×Ö·ûmµ½ n´Î£¬mºÍn¿ÉÒÔÊ¡ÂÔ£º ÈôÊ¡ÂÔm£¬Æ¥Åä0µ½n´Î£» ÈôÊ¡ÂÔn£¬Æ¥Åämµ½ÎÞÏÞ´Î


ÆäÖÐ£º 

(1) *±íÊ¾Æ¥Åä0´Î»ò¶à´Î¡£ÀýÈç£¬abc*¿ÉÒÔÆ¥Åäab£¬Ò²¿ÉÒÔÆ¥Åäabccc¡£

(2) +±íÊ¾Æ¥Åä1´Î»ò¶à´Î¡£ÀýÈç£¬abc+¿ÉÒÔÆ¥Åäabc£¬Ò²¿ÉÒÔÆ¥Åäabccc¡£

(3) ?±íÊ¾Æ¥Åä0´Î»ò1´Î¡£ÀýÈç£¬abc?¿ÉÒÔÆ¥Åäab£¬Ò²¿ÉÒÔÆ¥Åäabc¡£

(4) {m}±íÊ¾Æ¥ÅäÇ°Ò»¸ö×Ö·ûm´Î¡£ÀýÈç£¬ab{3}c¿ÉÒÔÆ¥Åäabbbc¡£

(5) {m,n}Ôò±íÊ¾Æ¥ÅäÇ°Ò»¸ö×Ö·ûmµ½n´Î¡£ÀýÈç£¬ab{1,3}c¿ÉÒÔÆ¥Åäabc£¬Ò²¿ÉÒÔÆ¥ÅäabbcºÍabbbc¡£

4)  ±ß½çÆ¥Åä

ÔÚÕýÔò±í´ïÊ½ÖÐÓÐÒ»Ð©·ûºÅÓÃÓÚ±ß½çÆ¥Åä£¬Èç±í3.10ËùÊ¾¡£


±í3.10±ß½çÆ¥Åä


×Ö·û
º¬Òå



^
Æ¥Åä×Ö·û´®µÄ¿ªÍ·£¬ÔÚ¶àÐÐÄ£Ê½ÖÐÆ¥ÅäÃ¿Ò»ÐÐµÄ¿ªÍ·
$
Æ¥Åä×Ö·û´®µÄÄ©Î²£¬ÔÚ¶àÐÐÄ£Ê½ÖÐÆ¥ÅäÃ¿Ò»ÐÐµÄÄ©Î²
£ÜA
½öÆ¥ÅäÕû¸ö×Ö·û´®µÄ¿ªÍ·
£ÜZ
½öÆ¥ÅäÕû¸ö×Ö·û´®µÄÄ©Î²
£Üb
µ¥´Ê±ß½ç
£ÜB
·Çµ¥´Ê±ß½ç£¬¼´£Û^£Üb£Ý


ÆäÖÐ£º 

(1) ^±íÊ¾Æ¥Åä×Ö·û´®µÄ¿ªÍ·¡£ÀýÈç£¬^ab¿ÉÒÔÆ¥Åä×Ö·û´®abc123£¬µ«²»ÄÜÆ¥Åä×Ö·û´®123abc¡£

(2) $±íÊ¾Æ¥Åä×Ö·û´®µÄÄ©Î²¡£ÀýÈç£¬ab$¿ÉÒÔÆ¥Åä×Ö·û´®123cab£¬µ«²»ÄÜÆ¥Åä×Ö·û´®123abc¡£

(3) £ÜA½öÆ¥ÅäÕû¸ö×Ö·û´®µÄ¿ªÍ·¡£ÔÚ½øÐÐµ¥ÐÐÎÄ±¾µÄÆ¥ÅäÊ±£¬×÷ÓÃºÍ^ÏàÍ¬£¬µ«Ëü²»ÄÜÆ¥Åä¶àÐÐÎÄ±¾µÄ¿ªÍ·¡£

(4) £ÜZ½öÆ¥ÅäÕû¸ö×Ö·û´®µÄÄ©Î²¡£ÔÚ½øÐÐµ¥ÐÐÎÄ±¾µÄÆ¥ÅäÊ±£¬×÷ÓÃºÍ$ÏàÍ¬£¬µ«ËüÍ¬Ñù²»ÄÜÆ¥Åä¶àÐÐÎÄ±¾µÄÄ©Î²¡£

(5) £ÜbÆ¥Åäµ¥´Ê±ß½ç£¬¼´µ¥´ÊºÍ·ûºÅÖ®¼äµÄ±ß½ç£¬ÕâÀïµÄµ¥´ÊÊÇÖ¸£Üw´ú±íµÄ×Ö·û£¬°üÀ¨ÖÐ/Ó¢ÎÄ×Ö·ûºÍÊý×Ö£¬·ûºÅÊÇÖ¸ÖÐ/Ó¢ÎÄ·ûºÅ¡¢¿Õ¸ñ¡¢ÖÆ±í·û¡¢»»ÐÐ·ûµÈ¡£ÀýÈç£¬ÕýÔò±í´ïÊ½'£Übfoo£Üb' Æ¥Åä'foo'¡¢'foo.'¡¢'(foo) '¡¢'bar foo baz'£¬µ«²»Æ¥Åä 'foobar'»òÕß 'foo3'¡£

(6) £ÜBÊÇ£ÜbµÄÈ¡·Ç£¬´ú±íµÄÊÇ·Çµ¥´Ê±ß½ç£¬¼´·Çµ¥´ÊºÍ·ûºÅÖ®¼äµÄ±ß½ç£¬Ò²¾ÍÊÇ£ÜB´ú±íµÄÊÇµ¥´ÊÓëµ¥´ÊÖ®¼ä¡¢·ûºÅºÍ·ûºÅÖ®¼äµÄ±ß½ç¡£ÀýÈç£¬ÕýÔò±í´ïÊ½r'py£ÜB'Æ¥Åä'python'¡¢'py3'¡¢'py2', µ«²»Æ¥Åä'py'¡¢'py.'»òÕß'py!'¡£

5)  Âß¼­·Ö×é

ÔÚÕýÔò±í´ïÊ½ÖÐÒ²¿ÉÒÔÊµÏÖÂß¼­ÔËËãºÍ·Ö×é£¬±í3.11ÁÐ³öÁËÕýÔò±í´ïÊ½ÖÐ±íÊ¾Âß¼­ºÍ·Ö×éµÄÁ½¸ö·ûºÅ¡£


±í3.11±ß½çÆ¥Åä


×Ö·û
º¬Òå



|
±íÊ¾|×ó±ßºÍÓÒ±ßµÄ±í´ïÊ½ÈÎÒâÆ¥ÅäÒ»¸ö
(...)
±»()À¨ÆðÀ´µÄ±í´ïÊ½½«×÷Îª·Ö×é


ÆäÖÐ£º 

(1) |±íÊ¾»òÕß£¬Ëü×ÜÊÇÏÈ³¢ÊÔÆ¥Åä×ó±ßµÄ±í´ïÊ½£¬Ò»µ©Æ¥Åä³É¹¦£¬ÔòÌø¹ýÆ¥ÅäÓÒ±ßµÄ±í´ïÊ½¡£ÀýÈç£¬abc|def¼È¿ÉÒÔÆ¥ÅäabcÒ²¿ÉÒÔÆ¥Åädef¡£

(2) ()±íÊ¾·Ö×é£¬´Ó±í´ïÊ½×ó±ß¿ªÊ¼Ã¿Óöµ½Ò»¸ö·Ö×éµÄ×óÀ¨ºÅ¡°(¡±£¬·Ö×é±àºÅ+1¡£·Ö×é±í´ïÊ½ÊÇÒ»¸öÕûÌå£¬ºóÃæÒ²¿ÉÒÔ½ÓÊýÁ¿´Ê£¬ÀýÈç(abc) {2}¿ÉÒÔÆ¥Åäabcabc¡£¡°()¡±ÖÐµÄ±í´ïÊ½Ò²¿ÉÒÔ¼Ó¡°|¡±,±íÃ÷¡°|¡±½öÔÚ¸Ã×éÖÐÓÐÐ§¡£ÀýÈç£¬a(123|456) c¿ÉÒÔÆ¥Åäa123c£¬Ò²¿ÉÒÔÆ¥Åäa456c¡£

ÕýÔò±í´ïÊ½¾ÍÊÇÉÏÊöÕâÐ©·ûºÅµÄ×éºÏ¡£¶ÔÓÚ¸ü¶àÕýÔò±í´ïÊ½µÄ·ûºÅ¹æÔò£¬¿ÉÒÔ²Î¿´re¿âµÄ¹Ù·½ÍøÕ¾
re¿âÎÄµµ£¬https://docs.python.org/3/library/re.html#¡£

2. ÕýÔò±í´ïÊ½µÄÑéÖ¤ÍøÕ¾

ÔÚ¿ªÊ¼Ñ§Ï°ÕýÔò±í´ïÊ½Ê±£¬ÔÚ³ÌÐòÖÐÖ±½Óµ÷ÊÔÑéÖ¤±í´ïÊ½»á±È½ÏÂé·³£¬Ò»°ã¿ÉÒÔÊ¹ÓÃÔÚÏßµÄÕýÔò±í´ïÊ½¹¤¾ß£¬ÆäÖÐ±È½ÏÖªÃûµÄÓÐregex101ÍøÕ¾(https://regex101.com)£¬ÈçÍ¼3.18ËùÊ¾£¬ËüÌá¹©ÁËÕýÔò±í´ïÊ½µÄÆ¥Åäµ÷ÊÔ¹¦ÄÜ¡£




Í¼3.18regex101ÔÚÏß¹¤¾ß


ÁíÒ»¸öÊÇ¹úÄÚOSCHINAÍøÕ¾Ìá¹©µÄÔÚÏß¹¤¾ß£¬ÈçÍ¼3.19ËùÊ¾£¬ËüÌá¹©ÁËÒ»Ð©³£ÓÃµÄÕýÔò±í´ïÊ½¡£





Í¼3.19OSCHINAÔÚÏß¹¤¾ß







3.4.2ÕýÔò±í´ïÊ½µÄÓÃ·¨
1. re¿â³£ÓÃº¯Êý

ÕýÔò±í´ïÊ½Ö¸¶¨ÁË×Ö·û´®µÄÆ¥ÅäÄ£Ê½£¬re¿âÊÇPythonµÄ±ê×¼¿â£¬ËüÌá¹©Èô¸É¹¦ÄÜº¯Êý¼ì²âÄ³¸ö×Ö·û´®ÊÇ·ñÓë¸ø¶¨µÄÕýÔò±í´ïÊ½Æ¥Åä£¬Èç±í3.12ËùÊ¾¡£


±í3.12re¿âµÄÖ÷Òª¹¦ÄÜº¯Êý


¹¦ÄÜ
º¯Êý
ËµÃ÷



²éÕÒÒ»¸öÆ¥ÅäÏî
re.search(pattern, string, flags=0) 
ÔÚÒ»¸ö×Ö·û´®ÖÐÑ°ÕÒµÚÒ»¸öÆ¥ÅäµÄÎ»ÖÃ£¬·µ»ØÆ¥Åä¶ÔÏó

re.match(pattern, string, flags=0) 
´ÓÒ»¸ö×Ö·û´®µÄ¿ªÊ¼Î»ÖÃÆ¥Åä£¬·µ»ØÆ¥Åä¶ÔÏó
²éÕÒ¶à¸öÆ¥ÅäÏî
re.findall(pattern, string, flags=0) 
ËÑË÷×Ö·û´®£¬ÒÔÁÐ±íÀàÐÍ·µ»ØËùÓÐÆ¥Åä¶ÔÏó

re.finditer(pattern, string, flags=0) 
ËÑË÷×Ö·û´®£¬·µ»ØÒ»¸öÆ¥Åä½á¹ûµÄµü´úÀàÐÍ£¬Ã¿¸öµü´úÔªËØÊÇÆ¥Åä¶ÔÏó
×Ö·û´®·Ö¸î
re.split(pattern, string, maxsplit=0, flags=0) 
½«Ò»¸ö×Ö·û´®°´ÕÕÕýÔò±í´ïÊ½Æ¥Åä½á¹û½øÐÐ·Ö¸î£¬·µ»ØÁÐ±íÀàÐÍ
×Ö·û´®Ìæ»»
re.sub(pattern, repl, string, count=0, flags=0) 
ÔÚÒ»¸ö×Ö·û´®ÖÐÓÃreplÌæ»»ËùÓÐÆ¥ÅäÕýÔò±í´ïÊ½µÄ×Ó´®£¬·µ»ØÌæ»»ºóµÄ×Ö·û´®


ÔÚÉÏÊö6¸ö³£ÓÃµÄ¹¦ÄÜº¯ÊýÖÐ¶¼°üÀ¨pattern¡¢stringºÍflags²ÎÊý£¬¾ßÌåËµÃ÷ÈçÏÂ¡£

(1) pattern²ÎÊý£º ÕýÔò±í´ïÊ½µÄ×Ö·û´®»òÔ­Éú×Ö·û´®±íÊ¾¡£

(2) string²ÎÊý£º ´ýÆ¥ÅäµÄ×Ö·û´®¡£

(3) flags²ÎÊý£º ±íÊ¾ÕýÔò±í´ïÊ½µÄÆ¥ÅäÄ£Ê½¡£

2. ÕýÔò±í´ïÊ½µÄÆ¥ÅäÄ£Ê½

ÕýÔò±í´ïÊ½µÄÆ¥ÅäÄ£Ê½ÓÃÓÚ¿ØÖÆÕýÔò±í´ïÊ½µÄÆ¥Åä·½Ê½£¬Èç±í3.13ËùÊ¾¡£ÀýÈç½«Æ¥ÅäÄ£Ê½ÉèÖÃÎªre.S£¬ÄÇÃ´ÔÚÕâÖÖÄ£Ê½ÏÂ£¬·ûºÅ¡°.¡±¾Í¿ÉÒÔÆ¥Åä»»ÐÐ·û¡°£Ün¡±¡£


±í3.13ÕýÔò±í´ïÊ½µÄÆ¥ÅäÄ£Ê½


flags³£ÓÃµÄ¿ÉÑ¡Öµ
ËµÃ÷



re.I»ò

re.IGNORECASE
ºöÂÔ´óÐ¡Ð´Æ¥Åä£¬±í´ïÊ½£ÛAª²Z£ÝÒ²»áÆ¥ÅäÐ¡Ð´×Ö·û
re.M»ò

re.MULTILINE
×Ö·û'^'Æ¥Åä×Ö·û´®µÄ¿ªÊ¼ºÍÃ¿Ò»ÐÐµÄ¿ªÊ¼£» ×Ö·û'$'Æ¥Åä×Ö·û´®µÄ½áÎ²ºÍÃ¿Ò»ÐÐµÄ½áÎ²
re.S»ò

re.DOTALL
×Ö·û'.'Æ¥ÅäÈÎºÎ×Ö·û£¬°üÀ¨»»ÐÐ·û
re.A»ò

re.ASCII
ÈÃ×ªÒå×Ö·û¼¯µÄ×Ö·û£¨ÀýÈç£Üw¡¢£ÜWµÈ£©Ö»Æ¥ÅäASCII£¬¶ø²»ÊÇUnicode
re.X»ò

re.VERBOSE
ÏêÏ¸Ä£Ê½£¬ÔÚ¸ÃÄ£Ê½ÏÂÕýÔò±í´ïÊ½¿ÉÒÔÎª¶àÐÐ£¬ºöÂÔ¿Õ°××Ö·û£¬²¢¿ÉÒÔ¼ÓÈë×¢ÊÍ


3. re¿â¹¦ÄÜº¯ÊýµÄÊ¹ÓÃ·½·¨

ÏÂÃæÒÔre.searchº¯ÊýÎªÀý£¬ËµÃ÷re¿âÖÐ³£ÓÃ¹¦ÄÜº¯ÊýÔÚ½øÐÐÕýÔò±í´ïÊ½Æ¥ÅäÊ±·µ»ØµÄ½á¹û£¬ÒÔ¼°Æ¥Åä¶ÔÏóµÄ³£ÓÃ·½·¨ºÍÆ¥ÅäÄ£Ê½µÄÉèÖÃ¡£

1)  Æ¥Åä½á¹û

ÔÚµ÷ÓÃre¿âµÄsearchº¯ÊýÆ¥ÅäÕýÔò±í´ïÊ½Ê±£¬Èç¹ûÃ»ÓÐÆ¥Åä³É¹¦£¬·µ»ØNone£» Èç¹ûÆ¥Åä³É¹¦£¬Ôò·µ»ØÆ¥Åä¶ÔÏó¡£

¡¾Àý3.13¡¿ÕýÔò±í´ïÊ½Æ¥Åä²»³É¹¦µÄÇéÐÎ¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912378901,QQ66531"

r=re.search("ÊÖ »ú",text) 

print("Æ¥Åä½á¹û",r)






ÔËÐÐ½á¹ûÎª£º 



Æ¥Åä½á¹û None






¡¾Àý3.14¡¿ÕýÔò±í´ïÊ½Æ¥Åä³É¹¦µÄÇéÐÎ¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912378901,QQ66531"

r=re.search("ÊÖ»ú",text) 

print("Æ¥Åä½á¹û",r)






ÔËÐÐ½á¹ûÎª£º 



Æ¥Åä½á¹û <re.Match object; span=(4, 6) , match='ÊÖ»ú'>






Í¨¹ýÆ¥Åä¶ÔÏó¿ÉÒÔ²é¿´µ½Æ¥ÅäÉÏµÄµÚÒ»¸ö×Ö·û´®µÄÆðÊ¼ºÍÖÕÖ¹Î»ÖÃ£¬ÀýÈçÊ¾Àý3.14ÖÐÏÔÊ¾(4,6)£¬Æ¥ÅäÉÏµÄ×Ö·û´®ÎÄ±¾Îª'ÊÖ»ú'¡£

2)  Æ¥Åä¶ÔÏóµÄ³£ÓÃ·½·¨

Æ¥Åä¶ÔÏóÖ§³ÖÊôÐÔºÍ·½·¨£¬ÕâÀï½éÉÜ³£¼ûµÄ·½·¨£¬¶ÔÓÚ¸ü¶à·½·¨ºÍÊôÐÔ¿ÉÒÔ²Î¿¼re¿âµÄ¹Ù·½ÎÄµµ¡£

(1)  Match.group(£Ûgroup1,¡­£Ý)£º ·µ»ØÒ»¸ö»òÕß¶à¸öÆ¥ÅäµÄ×Ó×é¡£

¤r Ä¬ÈÏ²ÎÊýÖµÎª0£¬·µ»ØÕû¸öÆ¥Åä½á¹û¡£

¤r Èç¹ûÉèÖÃÒ»¸ö²ÎÊý£¬µ±ÖµµÄ·¶Î§ÊÇ£Û1..99£ÝÇÒÐ¡ÓÚ»òµÈÓÚÕýÔò±í´ïÊ½ÖÐ¶¨ÒåµÄ×éÊýÊ±£¬·µ»Ø¶ÔÓ¦×éµÄ×Ö·û´®¡£

¤r Èç¹û²ÎÊýÉèÖÃÎª¸ºÊý»ò´óÓÚÕýÔò±í´ïÊ½ÖÐ¶¨ÒåµÄ×éÊý£¬ÔòÒý·¢IndexErrorÒì³£¡£

¤r Èç¹ûÓÐ¶à¸ö²ÎÊý£¬·µ»ØÒ»¸öÔª×é¡£

ÀýÈçÔÚÊ¾Àý3.14ºóÖ´ÐÐ£º 



print("Æ¥ÅäÄÚÈÝ",r.group(0))






»òÖ´ÐÐ£º 



print("Æ¥ÅäÄÚÈÝ",r.group())






½á¹û¾ùÎª£º 



Æ¥ÅäÄÚÈÝ ÊÖ»ú






(2)  Match.start(£Ûgroup£Ý)£º ·µ»ØgroupÆ¥Åäµ½µÄ×Ö·û´®µÄ¿ªÊ¼±êºÅ¡£ÀýÈçÔÚÊ¾Àý3.14ºóÖ´ÐÐ£º 



print("Æ¥Åä½á¹ûËùÔÚÆðÊ¼Î»ÖÃ",r.start() )






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹ûËùÔÚÆðÊ¼Î»ÖÃ 4






(3)  Match.end(£Ûgroup£Ý)£º ·µ»ØgroupÆ¥Åäµ½µÄ×Ö·û´®µÄ½áÊø±êºÅ¡£ÀýÈçÔÚÊ¾Àý3.14ºóÖ´ÐÐ£º 



print("Æ¥Åä½á¹ûËùÔÚ½áÊøÎ»ÖÃ",r.end() ) 






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹ûËùÔÚ½áÊøÎ»ÖÃ 6






(4)  Match.span(£Ûgroup£Ý)£º ÒÔ¶þÔª×éÐÎÊ½·µ»ØgroupÆ¥Åäµ½µÄ×Ö·û´®µÄ¿ªÊ¼ºÍ½áÊø±êºÅ¡£ÀýÈçÔÚÊ¾Àý3.14ºóÖ´ÐÐ£º 



print("Æ¥Åä½á¹ûËùÔÚË÷ÒýÎ»ÖÃ",r.span()) 






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹ûËùÔÚË÷ÒýÎ»ÖÃ (4, 6) 






3) Æ¥ÅäÄ£Ê½

ÉèÖÃÆ¥ÅäÄ£Ê½¿ÉÒÔ¸Ä±äÔ­ÓÐÌØÊâ×Ö·ûµÄÐÐÎª£¬Ê¾Àý3.15ÉèÖÃÆ¥ÅäÄ£Ê½Îªre.I£¬Æ¥Åä×Ö·û´®Ê±¿ÉÒÔºöÂÔ´óÐ¡Ð´¡£

¡¾Àý3.15¡¿Æ¥ÅäÕýÔò±í´ïÊ½ºöÂÔ´óÐ¡Ð´¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("Qq",text,re.I)

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(18, 20) , match='QQ'>






4. ÕýÔò±í´ïÊ½³£¼ûÓ¦ÓÃÊ¾Àý

ÏÂÃæÊ¹ÓÃre¿âµÄsearchº¯Êý£¬½áºÏ3.4.1½ÚÖÐ½éÉÜµÄÕýÔò±í´ïÊ½µÄÓï·¨»ù´¡£¬Í¨¹ýÊ¾ÀýÀ´ÁË½â³£¼ûµÄÕýÔò±í´ïÊ½µÄÓÃ·¨¡£

1) ×Ö·ûÆ¥Åä

ÔÚÊµ¼ÊÊ¹ÓÃÖÐ£¬³£¼ûµÄÐèÒªÆ¥ÅäµÄ×Ö·ûÓÐÈÎÒâ×Ö·û¡¢Êý×Ö¡¢µ¥´Ê×Ö·û¡¢ºº×ÖµÈ¡£

¡¾Àý3.16¡¿Æ¥ÅäÈÎÒâ×Ö·û¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("ÕÅ.",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(0, 2) , match='ÕÅÖÁ'>






¡¾Àý3.17¡¿Æ¥ÅäÈÎÒâÊý×Ö¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("£Üd",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(6, 7) , match='1'>






¡¾Àý3.18¡¿Æ¥Åä·Çµ¥´Ê×Ö·û¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("£ÜW",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(3, 4) , match=','>







¡¾Àý3.19¡¿Æ¥Åäºº×Ö¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("£Û£Üu4e00-£Üu9fa5£Ý",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(0, 1) , match='ÕÅ'>






2) ÖØ¸´Æ¥Åä

ÕýÔò±í´ïÊ½ÖÐÊ¹ÓÃÊýÁ¿´ÊÏÞ¶¨·û±íÊ¾ÖØ¸´Æ¥ÅäÊ±£¬Ä¬ÈÏÊÇÌ°À·Æ¥Åä£¬¼´ÔÚÕû¸ö±í´ïÊ½µÃµ½Æ¥ÅäµÄÇ°ÌáÏÂÆ¥Åä¾¡¿ÉÄÜ¶àµÄ×Ö·û¡£

¡¾Àý3.20¡¿Æ¥ÅäÇ°Ò»¸ö×Ö·û×î¶à´Î¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r1=re.search("ÕÅ.+",text)#Æ¥ÅäÇ°Ò»¸ö×Ö·û×î¶à´Î

r2=re.search("ÕÅ.*",text)#Æ¥ÅäÇ°Ò»¸ö×Ö·û×î¶à´Î

print(".+Æ¥Åä½á¹û",r1)

print(".*Æ¥Åä½á¹û",r2)






½á¹ûÏÔÊ¾Îª£º 



.+ Æ¥Åä½á¹û <re.Match object; span=(0, 25), match='ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000'>

.*Æ¥Åä½á¹û <re.Match object; span=(0, 25) , match='ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000'>






Èç¹ûÐèÒªÀÁ¶èÆ¥Åä£¬¼´ÔÚÕû¸ö±í´ïÊ½µÃµ½Æ¥ÅäµÄÇ°ÌáÏÂÆ¥Åä¾¡¿ÉÄÜÉÙµÄ×Ö·û£¬¿ÉÒÔÔÚÊýÁ¿´ÊÏÞ¶¨·û£¨ÀýÈç¡°+¡±»ò¡°*¡±£©ºó¼ÓÉÏÒ»¸öÎÊºÅ¡°?¡±¡£

¡¾Àý3.21¡¿Æ¥ÅäÇ°Ò»¸ö×Ö·û×îÉÙ´Î¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r1=re.search("ÕÅ.+?",text)#Æ¥ÅäÇ°Ò»¸ö×Ö·û1´Î

r2=re.search("ÕÅ.*?",text)#Æ¥ÅäÇ°Ò»¸ö×Ö·û0´Î

print(".+?Æ¥Åä½á¹û",r1)

print(".*?Æ¥Åä½á¹û",r2)






½á¹ûÏÔÊ¾Îª£º 



.+?Æ¥Åä½á¹û <re.Match object; span=(0, 2) , match='ÕÅÖÁ'>

.*?Æ¥Åä½á¹û <re.Match object; span=(0, 1) , match='ÕÅ'>






Èç¹ûÏëÊµÏÖÖ¸¶¨´ÎÊýµÄÖØ¸´Æ¥Åä£¬¿ÉÒÔÊ¹ÓÃ{n}»ò{m£¬n}ÏÞ¶¨·û¡£

¡¾Àý3.22¡¿Æ¥Åä×Ö·û´®ÖÐÖ¸¶¨Î»ÊýµÄÊý×Ö¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("£Üd{11}",text) 

print("Æ¥ÅäÊÖ»úºÅÂë",r)#Æ¥Åä11Î»ÊÖ»úºÅÂë

r=re.search("QQ£Üd{5,8}",text) 

print("Æ¥ÅäQQºÅÂë",r) #Æ¥Åä5µ½8Î»QQºÅÂë






½á¹ûÏÔÊ¾Îª£º 



Æ¥ÅäÊÖ»úºÅÂë <re.Match object; span=(6, 17) , match='15912000000'>

Æ¥ÅäQQºÅÂë <re.Match object; span=(18, 25) , match='QQ66000'>






3) ·Ö×éÆ¥Åä

ÔÚÕýÔò±í´ïÊ½ÖÐ£¬ÓÃ¡°()¡±À¨ÆðÀ´±íÊ¾Ò»¸ö·Ö×é£¬Ö´ÐÐ·Ö×éºóÏòÒýÓÃ£¬¼´¶ÔÇ°Ãæ³öÏÖ¹ýµÄ·Ö×é»áÔÙÒ»´ÎÒýÓÃ£¬Èç¹ûÒýÓÃÒÑ¾­Æ¥Åä¹ýµÄ·Ö×éÄÚÈÝ£¬¿ÉÒÔÔÚre.group·½·¨ÖÐÍ¨¹ý¾ßÌåµÄÊý×ÖÀ´ÒýÓÃ¶ÔÓ¦µÄ·Ö×é£¬ÀýÈçre.group(1)ÒýÓÃµÚÒ»¸ö·Ö×é£¬re.group(2)ÒýÓÃµÚ¶þ¸ö·Ö×é£¬¶øre.group(0)ÒýÓÃÕû¸ö±»Æ¥ÅäµÄ×Ö·û´®±¾Éí¡£

¡¾Àý3.23¡¿·Ö×éÌáÈ¡×Ö·û´®ÖÐµÄÊý×Ö¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.search("(£Üd+) .*(£Üd{5,8}) ",text) 

print("Æ¥Åä½á¹û",r) 

print("·Ö×éÐÅÏ¢",r.groups() ) 

print("Æ¥ÅäÈ«²¿ÄÚÈÝ",r.group(0) ) 

print("Æ¥ÅäµÚÒ»×éÄÚÈÝ",r.group(1) ) 

print("Æ¥ÅäµÚ¶þ×éÄÚÈÝ",r.group(2) )






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û <re.Match object; span=(6, 25) , match='15912000000,QQ66000'>

·Ö×éÐÅÏ¢ ('15912000000', '66000') 

Æ¥ÅäÈ«²¿ÄÚÈÝ 15912000000,QQ66000

Æ¥ÅäµÚÒ»×éÄÚÈÝ 15912000000

Æ¥ÅäµÚ¶þ×éÄÚÈÝ 66000






5. re¿â¹¦ÄÜº¯ÊýÓ¦ÓÃÊ¾Àý

re¿â¶ÔÕýÔò±í´ïÊ½µÄÖ§³Ö³ýÁËsearchº¯ÊýÒÔÍâ£¬»¹ÓÐÆäËûº¯Êý¡£

1) re.matchº¯Êý

re.matchº¯Êý³¢ÊÔ´Ó×Ö·û´®µÄÆðÊ¼Î»ÖÃÆ¥ÅäÒ»¸öÄ£Ê½£¬Èç¹û²»ÊÇÆðÊ¼Î»ÖÃÆ¥Åä³É¹¦£¬·µ»ØNone¡£ 

¡¾Àý3.24¡¿Ê¹ÓÃmatch·½·¨Æ¥Åä×Ö·û´®"ÊÖ»ú"¡£



text="ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000"

r=re.match("ÊÖ»ú",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û None






2) re.findallº¯Êý

re.findallº¯ÊýÊÇ´Ó×Ö·û´®µÄÈÎÒâÎ»ÖÃ²éÕÒÕýÔò±í´ïÊ½ËùÆ¥ÅäµÄËùÓÐ×Ó´®£¬·µ»ØÒ»¸öËùÓÐÆ¥Åä½á¹ûµÄÁÐ±í£¬Èç¹ûÃ»ÓÐÕÒµ½Æ¥ÅäµÄ£¬Ôò·µ»Ø¿ÕÁÐ±í¡£

¡¾Àý3.25¡¿Æ¥Åä×Ö·û´®ÖÐËùÓÐµÄ11Î»ÊÖ»úºÅ¡£



text='''ÕÅÖÁÖÐ,ÊÖ»ú15912000000,QQ66000








ÁõÐ¡ÔÆ£¬ÊÖ»ú15662000000£¬QQ67000000

Íõ¾ù£¬ÊÖ»ú13452000000£¬QQ3000000'''

r=re.findall("£Üd{11}",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û £Û'15912000000', '15662000000', '13452000000'£Ý






3)  re.splitº¯Êý

re.splitº¯ÊýÊÇÓÃÕýÔò±í´ïÊ½Æ¥Åä×Ö·û´®ÒÔÊµÏÖ×Ö·û´®µÄ·Ö¸ô£¬²¢·µ»ØÒ»¸öÁÐ±í¡£

¡¾Àý3.26¡¿²ð·Ö³ö×Ö·û´®ÖÐµÄµ¥´Ê¡£



text="text;word,key,teacher.worker"

r=re.split("£Û;,.£Ý",text) 

print("Æ¥Åä½á¹û",r)






½á¹ûÏÔÊ¾Îª£º 



Æ¥Åä½á¹û £Û'text', 'word', 'key', 'teacher', 'worker'£Ý






4)  re.subº¯Êý

re.subº¯Êý½«×Ö·û´®ÖÐÆ¥ÅäÕýÔò±í´ïÊ½Ä£Ê½µÄÄÚÈÝ½øÐÐÌæ»»¡£

¡¾Àý3.27¡¿ÌáÈ¡HTML´úÂëÖÐµÄÄÚÈÝÐÅÏ¢¡£

ÌáÈ¡HTML´úÂëÖÐµÄÄÚÈÝÐÅÏ¢¾ÍÊÇ½«HTMLÖÐËùÓÐµÄ±ãÇ©ÐÅÏ¢Ìæ»»Îª¿Õ¡£



text='''<div class="star clearfix">

<span class="allstar50"></span>

<span class="rating_nums">9.6</span>

<span class="pl">(

347480ÈËÆÀ¼Û

) </span>

</div>

<p class="quote" style="margin: 10px 0; color: #666">

<span class="inq">¶¼ÔÆ×÷Õß³Õ£¬Ë­½âÆäÖÐÎ¶£¿</span>

</p>'''

r=re.sub("<.*?>","",text)#½«ËùÓÐµÄ±êÇ©Ìæ»»Îª¿Õ

print("Æ¥Åä½á¹û",r)








Í¼3.20ÍøÒ³ÄÚÈÝÐÅÏ¢µÄÌáÈ¡½á¹û

½á¹ûÈçÍ¼3.20ËùÊ¾¡£

ÔÚÊ¹ÓÃre.subº¯ÊýÈ¥µôHTMLÖÐµÄËùÓÐ±êÇ©ÒÔºó£¬¿ÉÒÔ¶ÔÆ¥Åä½á¹û½øÐÐ×Ö·û´®µÄ½øÒ»²½´¦Àí£¬ÒÔ±ãÓÚµÃµ½¾ßÌåµÄÄÚÈÝ¡£¸Ã·½Ê½¿ÉÒÔÓÃÓÚ½âÎöÍøÒ³ÄÚÈÝ¡£

6. ÕýÔò±í´ïÊ½¶ÔÏó


Ê¹ÓÃre¿âÖÐµÄcompileº¯Êý¿ÉÒÔ½«ÕýÔò±í´ïÊ½µÄ×Ö·û´®±àÒë×ª»¯ÎªÕýÔò±í´ïÊ½¶ÔÏópattern£¬ÔÚ±àÒëÊ±»¹¿ÉÒÔÉèÖÃflagÆ¥ÅäÄ£Ê½¡£Æä¾ßÌåÓï·¨¸ñÊ½ÈçÏÂ£º 



re.compile(string,flag=0) 






Ê¹ÓÃ±àÒëºóµÄpattern¶ÔÏó½øÐÐ×Ö·û´®´¦Àí£¬²»½ö¿ÉÒÔÌá¸ß´¦Àí×Ö·û´®µÄËÙ¶È£¬»¹¿ÉÒÔÌá¹©¸üÇ¿´óµÄ×Ö·û´®´¦Àí¹¦ÄÜ¡£

ÕýÔò±í´ïÊ½¶ÔÏó¾ßÓÐºÍre¿âÍ¬ÃûµÄsearch¡¢match¡¢findall·½·¨£¬Í¨¹ýÕýÔò±í´ïÊ½¶ÔÏóµ÷ÓÃÕâÐ©·½·¨½øÐÐ×Ö·û´®´¦Àí£¬²»ÐèÒªÃ¿´ÎÖØ¸´Ð´Æ¥ÅäÄ£Ê½£¬¿ÉÒÔÊµÏÖ¸´ÓÃ¡£ÕâÀïÒÔsearchº¯ÊýÎªÀý£º 



re.search(regexString,string) 






µÈ¼ÛÓÚ£º 



pattern= re.compile(regexString) 

pattern.search(string)











3.4.3ÓÃÕýÔò±í´ïÊ½ÌáÈ¡¶¹°ê¶ÁÊéÅÅÐÐ°ñÍøÒ³Êý¾ÝµÄÊµÕ½°¸Àý

ÔÚ3.3.2½ÚÖÐÓÃBeautifulSoup¿â¶Ô¶¹°ê¶ÁÊéÅÅÐÐ°ñÍøÒ³µÄÊý¾Ý½øÐÐÁË½âÎö£¬ÕâÀïÓÃÕýÔò±í´ïÊ½½âÎö¶¹°ê¶ÁÊéÅÅÐÐ°ñÖÐÊé¼®µÄÐÅÏ¢¡£

ÕýÔò±í´ïÊ½ÌáÈ¡ÍøÒ³ÖÐµÄÊé¼®ÐÅÏ¢£¬ÐèÒª¹Ø×¢ÒªÌáÈ¡µÄÊé¼®ÐÅÏ¢ËùÔÚµÄ×Ö·û´®ÉÏÏÂÎÄ£¬ÈçÍ¼3.21ËùÊ¾£¬ÕÒ³öÆäÖÐµÄÄ£Ê½£¬È»ºóÊéÐ´Ç¡µ±µÄÕýÔò±í´ïÊ½¡£±ÈÈç£¬ÒªÌáÈ¡ÅÅÐÐ°ñÖÐµÄÍ¼ÊéÃû³Æ¡¢³ö°æÐÅÏ¢¡¢ÆÀ·Ö¡¢ÆÀ¼ÛÈËÊýÒÔ¼°µãÆÀÐÅÏ¢£¬¾ÍÐèÒª¹Ø×¢ÕâÐ©ÄÚÈÝËùÔÚµÄ×Ö·û´®ÉÏÏÂÎÄ¡£¿¼ÂÇµ½ÌáÈ¡ÐÅÏ¢µÄ¶àÑùÐÔ£¬ÔÚÕýÔò±í´ïÊ½ÖÐÊ¹ÓÃ·Ö×é·ûºÅ¡°()¡±À´ÌáÈ¡¶ÔÓ¦µÄ¸÷¸öÔªËØÐÅÏ¢¡£¾ßÌå´ýÌáÈ¡ÐÅÏ¢µÄÌØÕ÷·ÖÎöÈçÏÂ£º 



Í¼3.21ÌáÈ¡Êé¼®ÐÅÏ¢ËùÔÚµÄ×Ö·û´®ÉÏÏÂÎÄ


¤r Í¼ÊéÃû³Æ£º Í¼ÊéÃû³ÆÔÚ¸Ã×Ö·û´®ÖÐ³öÏÖÁ½´Î£¬ÆäÖÐÔÚtitleÊôÐÔÖÐµÄÐÅÏ¢ÌØÕ÷Ã÷ÏÔ£¬ÔÚ×Ö·û´®ÖÐ¾ßÓÐÎ¨Ò»ÐÔ£¬ÈÝÒ×³éÈ¡³öÄ£Ê½£¬ÕâÀï±ê¼Ç³öÊéÃûËùÔÚµÄÇ°ºó×Ö·û»ò×Ö·û´®£¬¾ßÌå±íÊ¾Îªtitle="(.*?) "£¬ÆäÖÐ.*?±íÊ¾ÀÁ¶èÄ£Ê½µÄÈÎÒâÆ¥Åä×Ö·û¡£

¤r ³ö°æÐÅÏ¢£º ¸ù¾Ý³ö°æÐÅÏ¢ËùÔÚÇ°ºó×Ö·û´®µÄÌØÕ÷£¬Õâ²¿·ÖÕýÔò±í´ïÊ½±íÊ¾Îªpl">(.*?) </p>¡£

¤r ÆÀ·Ö£º ¸ù¾ÝÆÀ·ÖËùÔÚÇ°ºó×Ö·û´®µÄÌØÕ÷ÒÔ¼°ÒªÌáÈ¡µÄÊý×ÖÄÚÈÝÌØÕ÷£¬Õâ²¿·ÖÕýÔò±í´ïÊ½±íÊ¾Îªrating_nums">(£Üd.£Üd) </span>£¬ÆäÖÐ£Üd.£Üd±íÊ¾ÌáÈ¡ÖÐ¼ä´øÓÐÐ¡ÊýµãµÄÁ½¸öÊý×Ö¡£

¤r µãÆÀÐÅÏ¢£º ¸ù¾ÝÆÀ¼ÛÈËÊýËùÔÚÇ°ºó×Ö·û´®µÄÌØÕ÷£¬ÕýÔò±í´ïÊ½±íÊ¾Îª(£Üd+)ÈËÆÀ¼Û£¬ÆäÖÐ£Üd+±íÊ¾°´ÕÕÌ°À·Ä£Ê½ÌáÈ¡¶à¸öÊý×Ö¡£

¤r µãÆÀÐÅÏ¢£º ¸ù¾ÝµãÆÀÐÅÏ¢ËùÔÚÇ°ºó×Ö·û´®µÄÌØÕ÷£¬ÕýÔò±í´ïÊ½±íÊ¾Îªinq">(.*?) </span>¡£

×¢Òâ£º ÔÚÊµ¼Ê²Ù×÷Ê±ÍùÍùÏ£ÍûÍ¨¹ýÒ»¸öÍ³Ò»µÄÕýÔò±í´ïÊ½¾ÍÄÜÌáÈ¡µ½ÉÏÊöÈ«²¿ÄÚÈÝ£¬Òò´ËÒªÌáÈ¡µÄ¸÷ÔªËØÌØÕ÷µÄÕýÔò±í´ïÊ½Ö®¼äÓÃ.*?Á¬½Ó£¬±íÊ¾¸÷ÔªËØÖ®¼äÓÐÈÎÒâ×Ö·û¡£

ÏÂÃæÒÔÅÀÈ¡µ½µÄ¶¹°ê¶ÁÊéÅÅÐÐ°ñÊ×Ò³µÄÄÚÈÝÎªÀýÀ´¿´¾ßÌåÕýÔò±í´ïÊ½µÄÓÃ·¨ºÍ³éÈ¡½á¹û¡£

¡¾ÊµÕ½°¸Àý´úÂë3.4¡¿ÅÀÈ¡²¢ÌáÈ¡¶¹°ê¶ÁÊéÅÅÐÐ°ñÊ×Ò³µÄÍ¼ÊéÐÅÏ¢¡£



import requests

import re

url='https://book.douban.com/top250'

header = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' £Ü

'AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.163 Safari/537.36'

}

def getHTML(num) :

r=requests.get(url,headers=header,params={"start":num}) 

return r.text

html=getHTML(0)#»ñµÃµÚ1Ò³ÍøÒ³ÄÚÈÝ

pattern=re.compile('£Ütitle="(.*?) ".*?pl">(.*?) </p>.*?rating_nums">(£Üd.£Üd) </span>.*?(£Üd+) ÈËÆÀ¼Û.*?inq">(.*?) </span>',re.S)#±àÒëÕýÔò±í´ïÊ½¶ÔÏó

items=re.findall(pattern,html)#²éÕÒËùÓÐÆ¥ÅäÄ£Ê½µÄÐÅÏ¢

print(items)






½á¹ûÈçÍ¼3.22ËùÊ¾£¬ÔÚ¸Ã°¸ÀýÖÐÊ¹ÓÃÁËre.compileº¯ÊýÔ¤ÏÈ½«ÕýÔò±í´ïÊ½±àÒë³ÉÕýÔò±í´ïÊ½¶ÔÏópattern£¬Ìá¸ßÁËÕýÔò±í´ïÊ½µÄÆ¥ÅäÐ§ÂÊ¡£ÓÐÁËÕýÔò±í´ïÊ½¶ÔÏópatternÒÔºó£¬Ö»ÐèÒªÔÚre¿âµÄ¸÷¸ö¹¦ÄÜº¯ÊýÖÐ½«Ô­À´×Ö·û´®±íÊ¾µÄÕýÔò±í´ïÊ½Ìæ»»Îªpattern¶ÔÏó¼´¿É£¬ÀýÈçÕâÀïre.findallº¯ÊýÖÐÊ¹ÓÃµÄ¾ÍÊÇpattern¶ÔÏó¡£




Í¼3.22ÕýÔò±í´ïÊ½ÌáÈ¡Í¼ÊéÐÅÏ¢µÄ½á¹û




3.5ÊµÕ½: ÈËÃñÍø¿Æ¼¼ÀàÐÂÎÅµÄ»ñÈ¡

±¾½Ú½øÐÐ·Ç½á¹¹»¯Êý¾ÝµÄ»ñÈ¡¡ª¡ª±àÐ´ÅÀ³æ»ñÈ¡ÈËÃñÍøµÄ¿Æ¼¼ÀàÐÂÎÅ£¬Êý¾ÝÀ´Ô´ÓÚÈËÃñÍøµÄ¿Æ¼¼ÀàÐÂÎÅ°å¿é(http://scitech.people.com.cn/GB/1057/index.html)£¬ÈçÍ¼3.23ËùÊ¾¡£¸ÃÊµÕ½µÄÈÎÎñÊÇÅÀÈ¡ÈËÃñÍø¿Æ¼¼À¸Ä¿ÏÂµÄËùÓÐÐÂÎÅÎÄµµ£¬ÓÃJSONÎÄ¼þÀ´±£´æÐÂÎÅÄ¿Â¼£¬ÓÃÎÄ±¾ÎÄ¼þÀ´±£´æÐÂÎÅÄÚÈÝ£¬ÎÄ±¾ÎÄ¼þÒªÊµÏÖ°´ÈÕÆÚ¹éµµ¡£





Í¼3.23ÈËÃñÍøµÄ¿Æ¼¼À¸Ä¿Ò³Ãæ








3.5.1Ä¿±êÍøÕ¾·ÖÎö
1. ²é¿´robotsÐ­Òé






Í¼3.24ÈËÃñÍøµÄrobotsÐ­ÒéÄÚÈÝ


ÔÚä¯ÀÀÆ÷µÄµØÖ·À¸ÖÐÊäÈëÍøÖ·¡°http://www.people.com.cn/robots.txt¡±£¬²é¿´µ½ÈçÍ¼3.24ËùÊ¾µÄÈËÃñÍøµÄrobotsÐ­Òé£¬¿ÉÒÔ¿´³ö¸ÃÍøÕ¾Ö§³ÖÅÀ³æ¶ÔËùÓÐÄ¿Â¼×ÊÔ´½øÐÐÅÀÈ¡¡£

2. Ê¹ÓÃChrome¹¤¾ß½øÐÐÍøÕ¾·ÖÎö


¾­¹ýÍøÕ¾ä¯ÀÀ·ÖÎö£¬¿ÉÒÔ¿´³öÒªÍê³ÉÄ¿±êÈÎÎñ£¬ÅÀ³æµÄ±àÐ´ÆäÊµ¿ÉÒÔ·Ö½âÎªÁ½¸ö×ÓÈÎÎñ£¬Ê×ÏÈÊÇ»ñÈ¡¿Æ¼¼ÐÂÎÅµÄÁÐ±í£¬È»ºóÊÇ¸ù¾ÝÐÂÎÅÁÐ±íÖÐÌá¹©µÄURLÈ¥»ñÈ¡¶ÔÓ¦µÄÐÂÎÅÎÄ±¾¡£

1) ²é¿´NetworkÃæ°å

Ê¹ÓÃChrome¹¤¾ßµÄNetworkÃæ°å²é¿´·ÃÎÊ¿Æ¼¼ÐÂÎÅÁÐ±íÍøÒ³Ê±·¢ËÍÇëÇóµÄÏà¹ØÄÚÈÝ£¬°üÀ¨URL¡¢ÇëÇóÀàÐÍ¡¢·ÖÒ³URLµÄÌØµã¡¢ÇëÇóÍ·ÖÐµÄUserª²AgentÐÅÏ¢µÈ£¬ÈçÍ¼3.25ËùÊ¾¡£





Í¼3.25Chrome¹¤¾ßÖÐÈËÃñÍø¿Æ¼¼ÐÂÎÅÁÐ±íµÄNetworkÃæ°åÄÚÈÝ


²é¿´µ½µÄ¾ßÌåÐÅÏ¢Èç±í3.14ËùÊ¾¡£


±í3.14Ô¤·ÖÎö»ñµÃµÄÐÅÏ¢


ÀàÐÍ
ÄÚÈÝ



ÇëÇóURL»ù´¡µØÖ·
http://scitech.people.com.cn/GB/1057/index.html
ÇëÇóÀàÐÍ
GETÇëÇó
·ÖÒ³URLµÄÌØµã
http://scitech.people.com.cn/GB/1057/index2.html

http://scitech.people.com.cn/GB/1057/index3.html
ÇëÇóÍ·ÖÐµÄUserª²Agent
Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/97.0.4692.99 Safari/537.36


2)  ²é¿´ElementsÃæ°å

Ê¹ÓÃChrome¹¤¾ßµÄElementsÃæ°å¶ÔÐÂÎÅÁÐ±íËùÔÚµÄÍøÒ³½øÐÐ·ÖÎö£¬ÈçÍ¼3.26ËùÊ¾£¬¿ÉÒÔ¿´³öÔÚÍøÒ³Ò³ÃæÖÐÃ¿ÆªÐÂÎÅµÄURLµØÖ·¡¢±êÌâºÍ·¢²¼Ê±¼ä¶¼ÔÚ<li>±êÇ©ÖÐ¡£



Í¼3.26Chrome¹¤¾ßÖÐÐÂÎÅÁÐ±íÍøÒ³µÄElementsÃæ°åÄÚÈÝ


´ÓURL·ÖÎö¿ÉÒÔ¿´³ö£¬ÓÐÐ©ÐÂÎÅÀ´×Ô½ðÈÚÄ¿Â¼finance£¬ÓÐÐ©À´×ÔÎÄ»¯Ä¿Â¼culture£¬Òò´Ë·Ö±ð²é¿´ÕâÁ½ÀàÄ¿Â¼ÐÂÎÅÒ³ÃæµÄÌØµã£¬ÈçÍ¼3.27ºÍÍ¼3.28ËùÊ¾£¬¿ÉÒÔ¿´³öfinanceÄ¿Â¼ÏÂÐÂÎÅµÄÖ÷ÌåÄÚÈÝ£¬°üÀ¨±êÌâ¡¢·¢²¼Ê±¼ä¡¢À´Ô´¡¢ÐÂÎÅÄÚÈÝµÈÔÚ<div class="col colª²1 f1">±êÇ©ÖÐ£¬cultureÄ¿Â¼ÏÂÐÂÎÅµÄÄÚÈÝÔÚ<div class="clearfix w1000_320 text_con_left">±êÇ©ÖÐ¡£





Í¼3.27financeÄ¿Â¼ÏÂÐÂÎÅÒ³ÃæµÄÌØµã






Í¼3.28cultureÄ¿Â¼ÏÂÐÂÎÅÒ³ÃæµÄÌØµã








3.5.2¿Æ¼¼ÐÂÎÅÁÐ±íµÄ»ñÈ¡Óë´æ´¢

ÔÚ¶ÔÄ¿±êÍøÕ¾½øÐÐÔ¤·ÖÎöºó£¬¿ÉÒÔ±àÐ´´úÂë¶Ô¿Æ¼¼ÐÂÎÅÁÐ±íÊý¾Ý½øÐÐÅÀÈ¡¡¢½âÎö¼°´æ´¢¡£²ÉÓÃµÄÅÀÈ¡ºÍ½âÎö¿âÈÔÈ»Îªrequests¿âºÍBeautifulsoup¿â£¬ÔÚ½øÐÐÊý¾Ý´æ´¢Ê±£¬¿¼ÂÇºóÐø»¹ÐèÒªÊ¹ÓÃÐÂÎÅÁÐ±íÖÐµÄ³¬Á´½Ó½øÐÐ¾ßÌåÐÂÎÅÄÚÈÝµÄÅÀÈ¡£¬Òò´ËÓÃ¼üÖµ¶ÔµÄÐÎÊ½±£´æÐÂÎÅÁÐ±íµÄÐÅÏ¢±ãÓÚ¼ìË÷£¬ÕâÀï²ÉÓÃjson¿â½«½âÎö³öÀ´µÄÐÂÎÅÁÐ±íÊý¾Ý±£´æÎªJSONÎÄ¼þ¡£

1. ·¢ËÍÇëÇó»ñÈ¡ÍøÒ³Êý¾Ý

ÈËÃñÍø¿Æ¼¼ÐÂÎÅÁÐ±íÐÅÏ¢³Ê·ÖÒ³ÏÔÊ¾£¬·ÖÒ³URLµØÖ·µÄÌØµãÊÇindexºó¸ú±ä»¯µÄÊý×Ö£¬¿¼ÂÇÊ¹ÓÃ×Ö·û´®µÄformatº¯ÊýÀ´ÉèÖÃ¾ßÌåµÄ·ÖÒ³Êý×Ö¡£Éè¼ÆÇëÇóÐÂÎÅÁÐ±íÒ³Ãæ·½·¨getNewsHtml(page)£¬ÆäÖÐpage±íÊ¾¾ßÌåÒ³Âë¡£



import requests

base_url="http://scitech.people.com.cn/GB/1057/index{}.html"#ÉèÖÃ»ù´¡URL

def getNewsHtml(page) :

url=base_url.format(page) 

r=requests.get(url) 

r.encoding=r.apparent_encoding

return r.text






2. ½âÎöÐÂÎÅÁÐ±íÊý¾Ý

¶¨ÒåparseNewsList(html)·½·¨ÊµÏÖ¶ÔÐÂÎÅÁÐ±íÒ³ÃæÊý¾ÝµÄ½âÎö£¬ÆäÖÐhtmlÊÇµ÷ÓÃgetNewsHTML·½·¨µÃµ½ÒÔ×Ö·û´®±íÊ¾µÄÍøÒ³ÐÅÏ¢£¬¾ßÌå´úÂëÈçÏÂ£º 



from bs4 import BeautifulSoup

def parseNewsList(html) :

soup=BeautifulSoup(html) 

pagelist=£Û£Ý#´æ·Å±¾Ò³ÐÂÎÅÁÐ±íÐÅÏ¢

foritem in soup.select("li") :#ËÑË÷Ò³ÃæÖÐËùÓÐµÄli±êÇ©

itemdic={}#±£´æÐÂÎÅÐÅÏ¢

itemdic£Û"±êÌâ"£Ý=item.a.text#ÌáÈ¡±êÌâ

urlitem=item.a.get("href") #ÌáÈ¡³¬Á´½Ó

itemdic£Û"url"£Ý=urlitem#ÌáÈ¡RULµØÖ·

itemdic£Û"time"£Ý=item.em.text#ÌáÈ¡Ê±¼ä

pagelist.append(itemdic) 

return pagelist






¶¨ÒåÁÐ±íÀàÐÍµÄ±äÁ¿pagelist±£´æµ±Ç°Ò³ÃæµÄËùÓÐÐÂÎÅÐÅÏ¢£¬Ã¿¸öÐÂÎÅµÄÐÅÏ¢±£´æÔÚ×ÖµäÀàÐÍµÄ±äÁ¿itemdicÖÐ£¬°üÀ¨3¸ökey£¬·Ö±ðÎª±êÌâ¡¢³¬Á´½ÓURLµØÖ·ºÍÊ±¼ä¡£ÒòËùÓÐµÄÐÂÎÅÁÐ±íÐÅÏ¢¶¼ÔÚli±êÇ©ÖÐ£¬ÕâÀïµ÷ÓÃBeautifulSoup¶ÔÏóµÄselect·½·¨ÕÒµ½Ò³ÃæÖÐËùÓÐµÄli±êÇ©£¬¶ÔÆä½øÐÐ±éÀú£¬·Ö±ðÌáÈ¡3¸ökeyËù¶ÔÓ¦µÄvalueÖµ¡£

ÒòÎª¿Æ¼¼°å¿éÖÐµÄÐÂÎÅÁÐ±íÒ³¹²ÓÐ18Ò³£¬ËùÒÔ¶¨ÒåÒ»¸ö±£´æÈ«²¿ÐÂÎÅÁÐ±íÐÅÏ¢µÄÁÐ±íÀàÐÍµÄ±äÁ¿urllist£¬Í¨¹ýforÑ­»·Ö´ÐÐ¶à¸öÒ³ÃæµÄ»ñÈ¡ºÍ½âÎö£¬¾ßÌå´úÂëÈçÏÂ£º 



urllist=£Û£Ý

for page in range(1,18) :

html=getNewsHtml(page) 

page=parseNewsList(html) 

urllist.extend(page)






×¢Òâ£º ÒòÎª´Ë´¦µÄpageÊÇÁÐ±í£¬ÕâÀïµ÷ÓÃurllistµÄextend·½·¨½«pageÁÐ±íÖÐµÄ¸÷¸öÔªËØ×·¼Óµ½urllistÁÐ±íµÄÄ©Î²¡£

3. ±£´æÊý¾Ý

½«»ñÈ¡µÄÐÂÎÅÁÐ±í±£´æÎªJSONÎÄ¼þ£¬¾ßÌåµÄÊµÏÖË¼Â·ºÍ·½·¨Í¬3.3.2½Ú£¬´úÂëÈçÏÂ£º 



import os

def saveJson(dic,path,filename) :

jData=json.dumps(dic,indent=2,ensure_ascii=False) 

if not os.path.exists(path) :

os.makedirs(path) 

with open(path+filename,"w",encoding="utf-8") as f:

f.write(jData) 

#½«ÐÅÏ¢±£´æÔÚfilesÎÄ¼þ¼ÐÏÂµÄnewslist.jsonÎÄ¼þÖÐ

saveJson(urllist,"files/","newslist.json")






ÏÂÃæÊÇÈ«²¿ÐÂÎÅÁÐ±íµÄ»ñÈ¡ºÍ´æ´¢µÄÊµÕ½°¸Àý´úÂë¡£

¡¾ÊµÕ½°¸Àý´úÂë3.5¡¿ÅÀÈ¡²¢´æ´¢ÈËÃñÍø¿Æ¼¼ÐÂÎÅÁÐ±í¡£



import json

import os

import requests

from bs4 import BeautifulSoup

#ÅÀÈ¡ÐÂÎÅÁÐ±íÒ³Ãæ

def getNewsHtml(page) :

url=base_url.format(page) 

r=requests.get(url) 

r.encoding=r.apparent_encoding

return r.text

#½âÎöÐÂÎÅÁÐ±íÒ³Ãæ

def parseNewsList(html) :

soup=BeautifulSoup(html) 

pagelist=£Û£Ý#´æ·Å±¾Ò³ÐÂÎÅÁÐ±íÐÅÏ¢

foritem in soup.select("li") :#ËÑË÷Ò³ÃæÖÐËùÓÐµÄli±êÇ©

itemdic={}#±£´æÐÂÎÅÐÅÏ¢

itemdic£Û"±êÌâ"£Ý=item.a.text#ÌáÈ¡±êÌâ

urlitem=item.a.get("href") #ÌáÈ¡³¬Á´½Ó

itemdic£Û"url"£Ý=urlitem#ÌáÈ¡URLµØÖ·

itemdic£Û"time"£Ý=item.em.text#ÌáÈ¡Ê±¼ä








pagelist.append(itemdic) 

return pagelist

#´æ´¢ÐÂÎÅÁÐ±íÐÅÏ¢ÎªJSONÎÄ¼þ

def saveJson(dic,path,filename) :

jData=json.dumps(dic,indent=2,ensure_ascii=False) 

if not os.path.exists(path) :

os.makedirs(path) 

with open(path+filename,"w",encoding="utf-8") as f:

f.write(jData) 

##·½·¨µ÷ÓÃ##

#ÉèÖÃ»ù´¡URL

base_url="http://scitech.people.com.cn/GB/1057/index{}.html" 

urllist=£Û£Ý

for page in range(1,18) :

html=getNewsHtml(page) 

page=parseNewsList(html) 

urllist.extend(page)

#½«ÐÅÏ¢±£´æÔÚfilesÎÄ¼þ¼ÐÏÂµÄnewslist.jsonÎÄ¼þÖÐ

saveJson(urllist,"files/","newslist.json")






3.5.3ÐÂÎÅµÄ»ñÈ¡Óë´æ´¢

¾ßÌåÐÂÎÅÄÚÈÝµÄ»ñÈ¡ÒªÓÃµ½Ö®Ç°ÅÀÈ¡µ½µÄÐÂÎÅÁÐ±íµÄÏà¹ØÐÅÏ¢¡£

(1)  ²ÉÓÃÄ£¿é»¯µÄ´¦Àí·½Ê½½«¾ßÌåµÄ»ñÈ¡ºÍ´æ´¢¶¨Òå³É4¸ö·½·¨¡£

(2) ÒÀ´Î±éÀúÃ¿ÆªÐÂÎÅµÄURL£¬ÌáÈ¡²¢±£´æÐÂÎÅÐÅÏ¢¡£

1. ¶¨ÒåÄ£¿é·½·¨

¶¨ÒåµÄ4¸öÄ£¿é·½·¨ÈçÏÂ£º 

¤r ¶ÁÈ¡ÐÂÎÅÁÐ±íJSONÎÄ¼þµÄreadJson(filename)·½·¨¡£

¤r ·¢ËÍÇëÇó»ñÈ¡Êý¾ÝµÄgetHtml(url)·½·¨¡£

¤r ½âÎöÐÂÎÅÎÄ±¾Êý¾ÝµÄparseNews(html)·½·¨¡£

¤r ±£´æÐÂÎÅÎÄ±¾µÄsaveFile(text,path,filename)·½·¨¡£

Æä¾ßÌåÊµÏÖ´úÂëÈçÏÂ£º 



import json

import requests

from bs4 import BeautifulSoup

import os

#¶ÁÈ¡ÐÂÎÅÁÐ±íÎÄ¼þ

def readJson(filename) :

with open(filename,"r",encoding="utf-8") as f:

newStr=f.read() 

JData=json.loads(newStr) 

return JData

#·¢ËÍÇëÇó£¬»ñÈ¡Êý¾Ý

def getHtml(url) :

r=requests.get(url) 








r.encoding=r.apparent_encoding

return r.text

#½âÎöÐÂÎÅÎÄ±¾Êý¾Ý

def parseNews(html) :

soup=BeautifulSoup(html) 

text=""

#ÕýÔò±í´ïÊ½Æ¥Åä£¬ÕÒµ½classÊôÐÔÖÐ°üÀ¨'_con'×Ö·û´®µÄdiv±êÇ©

for p in soup.select("div£Ûclass*='_con'£Ý p") : 

text+=p.text

return text

#±£´æÊý¾Ý

def saveFile(text,path,filename) :

if not os.path.exists(path) :

os.makedirs(path) 

with open(path+filename,"w",encoding="utf-8") as f:

f.write(text)






ÓÉÓÚÐÂÎÅ·Ö±ðÀ´Ô´ÓÚfinanceºÍcultureÁ½¸ö²»Í¬µÄÄ¿Â¼£¬Ê¹ÓÃµÄÍøÒ³Ò³ÃæÄ£°å²»Í¬£¬ÒªÌáÈ¡µÄÐÂÎÅÎÄ±¾Êý¾ÝËùÔÚµÄdiv±êÇ©ÊôÐÔ²»Í¬£¬ÎªÁË¼ò»¯´¦Àí£¬¶¨Òå½âÎöÐÂÎÅÎÄ±¾ÄÚÈÝ·½·¨£¬Ê¹ÓÃBeautifulSoupµÄselect·½·¨²éÕÒÄ¿±êdiv±êÇ©Ê±Ê¹ÓÃÕýÔò±í´ïÊ½£¬ÌáÈ¡classÊôÐÔÖÐº¬ÓÐ"_con"µÄ×Ö·û´®¡£

2. µ÷ÓÃ·½·¨»ñÈ¡ºÍ±£´æÐÂÎÅÄÚÈÝ

µ÷ÓÃÉÏÃæ¶¨ÒåµÄ4¸ö·½·¨»ñÈ¡ºÍ±£´æÐÂÎÅÄÚÈÝµÄ¾ßÌå²½ÖèÈçÏÂ£º 

(1) µ÷ÓÃreadJson·½·¨»ñÈ¡ÐÂÎÅÁÐ±íµÄJSONÊý¾Ý¡£

(2) ½øÐÐÐÂÎÅÁÐ±í±éÀú¡£

¤r ÌáÈ¡ÐÂÎÅËùÔÚµÄURLµØÖ·¡£

¤r ÌáÈ¡Ê±¼ätime×÷ÎªÐÂÎÅÎÄ¼þËùÔÚµÄÎÄ¼þ¼ÐÂ·¾¶path£¬ÒÔ±ã½«Í¬Ò»ÌìµÄÐÂÎÅ¹éµµ´æ´¢ÔÚÍ¬Ò»¸öÎÄ¼þÄ¿Â¼ÖÐ¡£

¤r ÌáÈ¡±êÌâtitle£¬²¢È¥µô·ÇÎÄ¼þÃû×Ö·û£¬×÷ÎªÎÄ¼þÃûfilename¡£

¤r µ÷ÓÃgetHtmlºÍparseNews·½·¨»ñµÃÐÂÎÅÄÚÈÝÎÄ±¾txt¡£

¤r µ÷ÓÃsaveFile·½·¨±£´æÐÂÎÅÎÄ¼þ¡£

Æä¾ßÌåµÄ´úÂëÈçÏÂ£º 



import re

JData=readJson("files/newslist.json") 

for item in JData:

url=item£Û"url"£Ý#ÌáÈ¡URLÁ´½Ó

time=item£Û"time"£Ý

title=item£Û"±êÌâ"£Ý

title=re.sub('£Û£Ü£Ü/:*?"<>|£Ý',"",title) #È¥µô±êÌâÖÐµÄ·ÇÎÄ¼þÃû×Ö·û

html=getHtml(url) 

page=parseNews(html) 

saveFile(page,"files/"+time+"/",title+".txt")






ÓÐµÄÐÂÎÅ±êÌâÖÐº¬ÓÐÀàËÆ'£¿'¡¢'£º'µÈµÄÎÄ¼þÃû½ûÓÃ×Ö·û£¬µ÷ÓÃre.sub·½·¨¶ÔÕâÐ©×Ö·û½øÐÐÕýÔòÌæ»»ºó×÷ÎªÎÄ¼þÃû¡£±£´æºóµÄ½á¹ûÈçÍ¼3.29~Í¼3.31ËùÊ¾¡£




Í¼3.29´æ´¢µÄÒÔÊ±¼äÃüÃûµÄÎÄ¼þÄ¿Â¼






Í¼3.30ÎÄ¼þ¼ÐÏÂ±£´æµÄÐÂÎÅÎÄ±¾ÎÄ¼þ







Í¼3.31ÎÄ¼þÖÐµÄÐÂÎÅÄÚÈÝ


ÏÂÃæÊÇÈ«²¿ÐÂÎÅÄÚÈÝµÄ»ñÈ¡ºÍ´æ´¢µÄÊµÕ½°¸Àý´úÂë¡£

¡¾ÊµÕ½°¸Àý´úÂë3.6¡¿ÅÀÈ¡Óë´æ´¢ÈËÃñÍøµÄ¿Æ¼¼ÐÂÎÅÄÚÈÝ¡£



import json

import requests

from bs4 import BeautifulSoup

import os

import re

#¶ÁÈ¡ÐÂÎÅÁÐ±íÎÄ¼þ

def readJson(filename) :

with open(filename,"r",encoding="utf-8") as f:

newStr=f.read() 

JData=json.loads(newStr) 

return JData

#·¢ËÍÇëÇó£¬»ñÈ¡Êý¾Ý

def getHtml(url) :

r=requests.get(url) 

r.encoding=r.apparent_encoding

return r.text

#½âÎöÐÂÎÅÎÄ±¾Êý¾Ý

def parseNews(html) :

soup=BeautifulSoup(html) 

text=""

#ÕýÔò±í´ïÊ½Æ¥Åä£¬ÕÒµ½classÊôÐÔÖÐ°üÀ¨'_con'×Ö·û´®µÄdiv±êÇ©

for p in soup.select("div£Ûclass*='_con'£Ý p") : 

text+=p.text

return text

#±£´æÊý¾Ý

def saveFile(text,path,filename) :

if not os.path.exists(path) :









os.makedirs(path) 

with open(path+filename,"w",encoding="utf-8") as f:

f.write(text)

#»ñÈ¡ÐÂÎÅÁÐ±íÊý¾Ý

JData=readJson("files/newslist.json") 

for item in JData:

url=item£Û"url"£Ý#ÌáÈ¡RULÁ´½Ó

time=item£Û"time"£Ý

title=item£Û"±êÌâ"£Ý

title=re.sub('£Û£Ü£Ü/:*?"<>|£Ý',"",title) #È¥µô±êÌâÖÐµÄ·ÇÎÄ¼þÃû×Ö·û

html=getHtml(url) 

page=parseNews(html) 

saveFile(page,"files/"+time+"/",title+".txt")






±¾ÕÂÐ¡½á

±¾ÕÂ½éÉÜÁË3¸öPythonÅÀ³æÊµÕ½ÏîÄ¿£¬Éæ¼°½á¹¹»¯¡¢°ë½á¹¹»¯ºÍ·Ç½á¹¹»¯ÍøÕ¾Êý¾Ý¡£Ã¿¸öÊµÕ½ÏîÄ¿¾ùÉæ¼°Ä¿±êÍøÕ¾·ÖÎö£¬Êý¾ÝµÄÅÀÈ¡¡¢½âÎöºÍ´æ´¢ÒÔ¼°Ä£¿é³ÌÐòµÄ±àÐ´µÈÏà¹ØÄÚÈÝ¡£±¾ÕÂÊ×ÏÈ½éÉÜÁË½á¹¹»¯Êý¾Ý¡ª¡ªÖÐ¹úA¹ÉÉÏÊÐ¹«Ë¾Ïà¹ØÊý¾ÝµÄ»ñÈ¡£» È»ºó½éÉÜÁËÈçºÎ´æÈ¡¡¢½âÎöÊý¾Ý£¬Ö÷Òª½éÉÜÎÄ¼þµÄ´æÈ¡·½·¨£¬°üÀ¨ÎÄ±¾ÎÄ¼þ¡¢CSVÎÄ¼þºÍJSONÎÄ¼þ£» ½ÓÏÂÀ´½éÉÜÁË°ë½á¹¹»¯Êý¾Ý¡ª¡ª¶¹°ê¶ÁÊéTop250Êý¾ÝµÄ»ñÈ¡£» ÎªÁË¸ü±ã½ÝµØ½âÎöÊý¾Ý£¬ÒýÈëÁËÕýÔò±í´ïÊ½£¬°üÀ¨ÕýÔò±í´ïÊ½»ù´¡¡¢ÓÃ·¨ÒÔ¼°ÓÃÆäÌáÈ¡¶¹°êÅÅÐÐ°ñÍøÒ³Êý¾ÝµÄÊµÕ½°¸Àý£» ×îºó½éÉÜÁË·Ç½á¹¹»¯Êý¾Ý¡ª¡ªÈËÃñÍø¿Æ¼¼ÀàÐÂÎÅµÄ»ñÈ¡¡£

Ï°Ìâ3