µÚ 1ÕÂ.ÍøÂçÅÀ³æ¿ìËÙÈëÃÅ


ÈË¹¤ÖÇÄÜÓ¦ÓÃÐèÒªÔ´Ô´²»¶ÏµÄÊý¾ÝÀ´ÈÃÓ¦ÓÃ¸úÉÏ±ä»¯µÄÊÀ½ç¡£¿ÉÒÔÊ¹ÓÃÍøÂçÅÀ³æ´Ó»¥ÁªÍøÖÐ×Ô¶¯»ñÈ¡Êý¾Ý¡£
ÔÚËÑË÷ÒýÇæÓÅ»¯£¨ SEO£©ÁìÓò£¬¿ÉÒÔÍ¨¹ýÍøÂçÅÀ³æ²¹³äÊý¾ÝÀ´ÊµÏÖ¸ü¶àµÄ¹Ø¼ü´ÊÊÕÂ¼¡£
ÍøÂçÅÀ³æ¾­¹ý×î½ü¼¸Ê®ÄêµÄ¿ìËÙ·¢Õ¹£¬ÒÑ¾­¸Ä±äÁËÈËÃÇ»ñÈ¡ÐÅÏ¢µÄ·½Ê½¡£´ÓËÑË÷ÒýÇæµ½ÍÆ¼öÏµÍ³£¬¶¼»áÓÃµ½ÍøÂçÅÀ³æ¼¼Êõ¡£±¾Êé½éÉÜ²ÉÓÃÁ÷ÐÐµÄ Python±à³ÌÓïÑÔÊµÏÖÍøÂçÅÀ³æ¡£
1.1¡¡¸÷ÖÖÍøÂçÅÀ³æ
ÓÐÔËÐÐÔÚ´ó¹æÄ£ÔÆ¼ÆËãÆ½Ì¨µÄÍ¨ÓÃÍøÂçÅÀ³æ£¬»¹ÓÐÒ»Ð©ÐÐÒµ´¹Ö±ÅÀ³æÒÔ¼°ÍøÕ¾¶¨ÏòÅÀ³æ¡£Í¨ÓÃÍøÂçÅÀ³æÊÇ´óöù£¬Ã¿Ò»Ö»¶¼ÓÐ×Ô¼º¶ÀÁ¢µÄÁìµØ¡£ÐÐÒµ´¹Ö±ÅÀ³æÊÇÁìÍ·Ñã£¬ÊÇ¸÷ÐÐÒµµÄÆìÖÄ¡£¶øÍøÕ¾¶¨ÏòÅÀ³æÔòÏñÒ»Ö»Ö»Ð¡ÂéÈ¸£¬ÂéÈ¸ËäÐ¡£¬ÎåÔà¾ãÈ«¡£
1.1.1¡¡Í¨ÓÃÅÀ³æ
Ä¿Ç°Í¨ÓÃÍøÂçÅÀ³æµÄ×éÖ¯·½Ê½Ö÷ÒªÓÐÍøÂç×ÛºÏÅÀ³æºÍÍøÂçÖ÷Ìâ×ÊÔ´ÅÀ³æÁ½ÖÖ¡£ÆäÖÐÍøÂç×ÛºÏÅÀ³æÄÜ¹»¹ã·ºµØ²É¼¯¸÷»¥ÁªÍøÕ¾µã×ÊÔ´£¬²¢¶ÔÆä½øÐÐÒ³ÃæËÑË÷£¬½«Ë÷Òý½á¹û´æÈëË÷ÒýÊý¾Ý¿â£¬¹©ÍøÂçÓÃ»§¼ìË÷£¬²¢ÇÒÄÜ¹»Ìá¹©»¥ÁªÍøÍøÂç×ÊÔ´µØµ¼º½¹¦ÄÜµÄ¹¤¾ß£¬Èç Google¡¢°Ù¶ÈµÈ¡£ 
Google¡¢°Ù¶ÈÕâÑùµÄ¹«Ë¾ÐèÒª´óÁ¿µÄ·þÎñÆ÷ºÍ×¨Òµ¿ª·¢ÈËÔ±£¬ÔËÓª¿ªÏú´ó£¬ÈçºÎÔÚ¾­¼ÃÉÏ¿ÉÐÐ¾ÍÊÇÒ»¸öÎÊÌâ¡£Í¨ÓÃÍøÂçÅÀ³æµÄÖ÷ÒªÊÕÈëÊÇÔÚËÑË÷½á¹ûÒ³ÖÐÕ¹Ê¾ºÍÓÃ»§ÊäÈëµÄ¹Ø¼ü´ÊÏà¹ØµÄ¹ã¸æ¡£Ìõ·ù¹ã¸æ±È¹Ø¼ü´Ê¹ã¸æ¸üÔç³öÏÖ¡£°´µã»÷¸¶·ÑµÄ¹Ø¼ü´Ê¹ã¸æ±ÈÌõ·ù¹ã¸æµÄÊÕ·Ñ¶î¶ÈµÍÐí¶à£¬µã»÷Ò»´Î¹ã¸æ¿ÉÄÜÖ»ÊÕ¼¸·ÖÇ®£¬¶øÌõ·ù¹ã¸æµÄ¼Æ¼Ûµ¥Î»ÖÁÉÙÔÚ¼¸°Ù¿é¡£ÄÇÐ©Ôø¾­±»ºöÊÓµÄÖÐÐ¡ÆóÒµ£¬Ò»¶È±»ÈÏÎªÊÇÓÎÀëÔÚ¹ã¸æÊÐ³¡Ö®ÍâµÄ¿Í»§£¬ÏÖÔÚÍ»È»½øÈëÁË»¥ÁªÍø¹ã¸æµÄÉúÌ¬ÏµÍ³¡£µØÇòÉÏ×î´óµÄ¶¯Îï¾¨Óã³ÔµÄÊÇÐ¡ÓãÐ¡Ïº£¬Ö»ÓÐÈÃ¸ü¶àµÄÉúÎï½øÈëÉúÌ¬Á´£¬²ÅÄÜ¹»²úÉúÅÓ´óµÄ¶¥¼¶ÉúÎï¡£
Í¨ÓÃÍøÂçÅÀ³æµÄÆóÒµÊÇ×Ê±¾ÃÜ¼¯ÐÍÆóÒµ£¬ÕâÑùµÄ¹«Ë¾ÍùÍùÇ°ÆÚÓÐ·çÏÕÍ¶×Ê£¬ÓÐÒ»¶¨Ó¯Àûºó³ÉÎªÉÏÊÐ¹«Ë¾¡£

1.1.2¡¡¶¨ÏòÅÀ³æ
´¹Ö±¶¨ÏòÅÀ³æÊÇÕë¶ÔÄ³Ò»¸öÐÐÒµµÄ×¨ÒµÅÀ³æ£¬ÀýÈçËÑ·¿£¨ http://www.soufun.com/£©£¬ 39½¡¿µÍøÉÏµÄËÑË÷¡£´¹Ö±ËÑË÷ÊÇËÑË÷ÒýÇæµÄÏ¸·ÖºÍÑÓÉì£¬ÊÇ¶ÔÍøÒ³¿âÖÐµÄÄ³Àà×¨ÃÅµÄÊý¾Ý½øÐÐ´¦ÀíºóÔÙÒÔÄ³ÐÅÏ¢½øÐÐÒ»´ÎÕûºÏ£¬¶¨Ïò·Ö×Ö¶Î³éÈ¡³öÐèÒªµÄÊý¾Ý½øÐÐ´¦ÀíºóÔÙÒÔÄ³ÖÖÐÎÊ½·µ»Ø¸øÓÃ»§¡£
´¹Ö±ÅÀ³æÐèÒª´ÓÃ£Ã£µÄ»¥ÁªÍøÖÐ»ñÈ¡ÐÐÒµÐÅÏ¢£¬ÐÅÏ¢°´ÐÐÒµ¹ýÂËºÍ·ÖÀàÊÇ±Ø²»¿ÉÉÙµÄ¡£´¹Ö±ËÑË÷ÒýÇæºÍÆÕÍ¨µÄÍøÒ³ËÑË÷ÒýÇæµÄÒ»¸ö×î´óÇø±ðÊÇ¶ÔÍøÒ³ÐÅÏ¢½øÐÐ½á¹¹»¯ÐÅÏ¢³éÈ¡£¬Ò²¾ÍÊÇ½«ÍøÒ³µÄ·Ç½á¹¹»¯Êý¾Ý³éÈ¡³ÉÌØ¶¨µÄ½á¹¹»¯ÐÅÏ¢Êý¾Ý£¬ºÃ±ÈÍøÒ³ËÑË÷ÊÇÒÔÍøÒ³Îª×îÐ¡µ¥Î»£¬»ùÓÚÊÓ¾õµÄÍøÒ³¿é·ÖÎöÊÇÒÔÍøÒ³¿éÎª×îÐ¡µ¥Î»£¬¶ø´¹Ö±ËÑË÷ÊÇÒÔ½á¹¹»¯Êý¾ÝÎª×îÐ¡µ¥Î»¡£È»ºó½«ÕâÐ©Êý¾Ý´æ´¢µ½Êý¾Ý¿âÖÐ£¬²¢½øÐÐ½øÒ»²½µÄ¼Ó¹¤´¦Àí£¬ÈçÈ¥ÖØ¡¢·ÖÀàµÈ¡£×îºó·Ö´Ê¡¢Ë÷ÒýÔÙÒÔËÑË÷µÄ·½Ê½Âú×ãÓÃ»§µÄÐèÇó¡£
Õû¸ö¹ý³ÌÖÐ£¬Êý¾ÝÓÉ·Ç½á¹¹»¯Êý¾Ý³éÈ¡³É½á¹¹»¯Êý¾Ý£¬¾­¹ýÉî¶È¼Ó¹¤´¦ÀíºóÒÔ·Ç½á¹¹»¯µÄ·½Ê½ºÍ½á¹¹»¯µÄ·½Ê½·µ»Ø¸øÓÃ»§¡£
´¹Ö±ÅÀ³æµÄÓ¦ÓÃ·½ÏòºÜ¶à£¬±ÈÈçÆóÒµ¿âÅÀ³æ¡¢¹©ÇóÐÅÏ¢ÅÀ³æ¡¢¹ºÎïÅÀ³æ¡¢·¿²úÅÀ³æ¡¢µØÀíÐÅÏ¢ÅÀ³æ¡¢ÒôÀÖÅÀ³æ¡¢Í¼Æ¬ÅÀ³æ¡­¡­¼¸ºõ¸÷ÐÐ¸÷Òµ¸÷ÀàÐÅÏ¢¶¼¿ÉÒÔ½øÒ»²½Ï¸»¯³É¸÷ÀàµÄ´¹Ö±ÅÀ³æ¡£
´¹Ö±ÅÀ³æµÄ¼¼ÊõÆÀ¹ÀÓ¦´ÓÒÔÏÂ¼¸µãÀ´ÅÐ¶Ï¡£
£¨1£©È«ÃæÐÔ£ºÓ¦¸ÃÄÜ´ÓÖÚ¶àµÄÀ´Ô´²É¼¯ÐÅÏ¢¡£

£¨2£©¸üÐÂÐÔ£ºÓÃ»§×îºÃ¿ÉÒÔÔÚ¼¸Ãë»ò¼¸·ÖÖÓÄÚ¿´µ½×îÐÂ·¢²¼µÄÐÅÏ¢¡£

£¨3£©×¼È·ÐÔ£ºÊý¾Ý·ÖÀà×¼È·£¬²»ÄÜ°üº¬ÖØ¸´ÈßÓàÐÅÏ¢¡£

£¨4£©¹¦ÄÜÐÔ£º¹¦ÄÜÍêÉÆ£¬¿ÉÒÔÍ¬Ê±ËÑË÷ÎÄ×ÖÐÅÏ¢¡¢Í¼Æ¬¡¢ÊÓÆµ¡¢µØÀíÐÅÏ¢µÈ¡£


1.2¡¡ÍøÂçÅÀ³æ»ù±¾¼¼Êõ
Ò»¸ö»ù±¾µÄÅÀ³æ°üÀ¨²É¼¯Êý¾ÝÏÂÔØÆ÷ºÍÔËÐÐ×´¿ö¼à¿ØÃæ°åµÈ²¿·Ö¡£
ÍøÂçÅÀ³æ£¨ Crawler£©µÄÖ÷ÒªÄ¿µÄÊÇÎª»ñÈ¡»¥ÁªÍøÉÏµÄÐÅÏ¢¡£ÍøÂçÅÀ³æÀûÓÃÖ÷Ò³ÖÐµÄ³¬ÎÄ±¾Á´½Ó±éÀú Web£¬Í¨¹ý URLÒýÓÃ´ÓÒ»¸ö HTMLÎÄµµÅÀÐÐµ½ÁíÒ»¸ö HTMLÎÄµµ¡£ http://dmoz.orgÊÇÕû¸ö»¥ÁªÍø×¥È¡µÄÈë¿Ú¡£ÍøÂçÅÀ³æÊÕ¼¯µ½µÄÐÅÏ¢¿ÉÓÐ¶àÖÖÓÃÍ¾£¬Èç½¨Á¢Ë÷Òý¡¢ HTMLÎÄ¼þµÄÑéÖ¤¡¢ URLÁ´½ÓÑéÖ¤¡¢»ñÈ¡¸üÐÂÐÅÏ¢¡¢Õ¾µã¾µÏñµÈ¡£ÍøÂçÅÀ³æ½¨Á¢µÄÒ³ÃæÊý¾Ý¿â£¬°üº¬ÓÐ¸ù¾ÝÒ³ÃæÄÚÈÝÉú³ÉµÄÎÄÕª£¬ÕâÊÇÒ»¸öÖØÒªÌØÉ«¡£
ÍøÕ¾±¾Éí¿ÉÒÔÉùÃ÷²»Ïë±»ÍøÂçÅÀ³æ×¥È¡µÄÄÚÈÝ¡£¿ÉÒÔÓÐÁ½ÖÖ·½Ê½ÊµÏÖ£ºµÚÒ»ÖÖ·½Ê½ÊÇÔÚÕ¾µãÔö¼ÓÒ»¸ö´¿ÎÄ±¾ÎÄ¼þ£¬ÀýÈç http://www.baidu.com/robots.txt£»ÁíÍâÒ»ÖÖ·½Ê½ÊÇÖ±½ÓÔÚ HTMLÒ³ÃæÖÐÊ¹ÓÃ robotsµÄ meta±êÇ©¡£ÔÚ×¥È¡ÍøÒ³Ê±´ó²¿·ÖÍøÂçÅÀ³æ»á×ñÑ­ robot.txtÐ­Òé¡£
1.3¡¡WindowsÃüÁîÐÐ
ÎªÁËÌá¸ßÑ§Ï°ºÍ¹¤×÷Ð§ÂÊ£¬ÐèÒªÑ§»áÊ¹ÓÃÒ»Ð©ÓÐÓÃµÄÈí¼þ¹¤¾ß£¬ÕâÀïÏÈ½éÉÜ WindowsÃüÁîÐÐµÄÊ¹ÓÃ¡£
¼ÙÉèÓÐÒ»¸ö±ê×¼¼þ¹¤³§£¬ÔÚ³µ¼äÉú²ú²úÆ·£¬ÔÚ¹¤µØÊ¹ÓÃÕâÐ©²úÆ·£¬ÀàËÆµØ£¬ÍùÍùÔÚ¼¯³É¿ª·¢»·¾³ÖÐ¿ª·¢Èí¼þ¡£Èç¹ûÔÚ Windows²Ù×÷ÏµÍ³ÖÐÔËÐÐ¿ª·¢µÄÈí¼þ£¬ÔòÍùÍùÍ¨¹ý WindowsÃüÁîÐÐÀ´ÔËÐÐ¡£
ÔÚÍ¼ÐÎ»¯ÓÃ»§½çÃæ³öÏÖÖ®Ç°£¬ÈËÃÇ¾ÍÊÇÓÃÃüÁîÐÐÀ´²Ù×÷¼ÆËã»úµÄ¡£ WindowsÃüÁîÐÐÊÇÍ¨¹ý WindowsÏµÍ³Ä¿Â¼ÏÂµÄ cmd.exeÖ´ÐÐµÄ¡£¿ÉÒÔÔÚ¿ªÊ¼²Ëµ¥µÄÔËÐÐ´°¿ÚÖ±½ÓÊäÈë³ÌÐòÃû£¬»Ø³µºóÔËÐÐÕâ¸ö³ÌÐò¡£´ò¿ª¿ªÊ¼¡úÔËÐÐ£¬ÕâÑù¾Í»á´ò¿ª×ÊÔ´¹ÜÀíÆ÷ÖÐµÄÔËÐÐ³ÌÐò´°¿Ú¡£»òÕßÊ¹ÓÃ¿ì½Ý¼ü¡ª¡ª´°¿Ú¼ü +R¼ü£¬´ò¿ªÔËÐÐ³ÌÐò´°¿Ú¡£×ÜÖ®£¬ÊäÈë³ÌÐòÃû cmdºóµ¥»÷È·¶¨£¬³öÏÖÃüÁîÌáÊ¾´°¿Ú¡£ÒòÎªÄÜ¹»Í¨¹ýÕâ¸öºÚÆÁµÄ´°¿ÚÖ±½ÓÊäÈëÃüÁîÀ´¿ØÖÆ¼ÆËã»ú£¬ËùÒÔÒ²³ÆÎª¿ØÖÆÌ¨´°¿Ú¡£
Í¨³£ÓÃÀ©Õ¹ÃûÀ´±íÊ¾ÎÄ¼þµÄÀà±ð£¬ÀýÈç£¬ exe±íÊ¾¿ÉÖ´ÐÐÎÄ¼þ¡£ÎÄ¼þÃû³ÆÓÉÎÄ¼þÃûºÍÀ©Õ¹Ãû×é³É¡£ÎÄ¼þÃûºÍÀ©Õ¹ÃûÖ®¼äÓÉÐ¡Êýµã·Ö¸ô£¬ÀýÈç calc.exe¡£Ê¹ÓÃ rmdirÃüÁîÉ¾³ýÄ¿Â¼£¬ÀýÈçÉ¾³ý opencvsharpÄ¿Â¼£º 

ÎªÁË·½±ã´ÓÃüÁîÐÐ°²×°Èí¼þ£¬¿ÉÒÔÏÈ°²×°Èí¼þ°ü¹ÜÀí¹¤¾ßÈí¼þ Chocolatey¡£Ê¹ÓÃÈçÏÂÃüÁî°²×° Chocolatey£º 

È»ºó¿ÉÒÔÊ¹ÓÃ chocoÃüÁî°²×°Ò»Ð©¿ª·¢ÓÃµÄÈí¼þ£¬ÀýÈç°²×° git£º 

µ±ÎÒÃÇ½¨Á¢»òÐÞ¸ÄÒ»¸öÎÄ¼þÊ±£¬±ØÐëÏò Windows Ö¸Ã÷Õâ¸öÎÄ¼þµÄÎ»ÖÃ¡£ÎÄ¼þµÄÎ»ÖÃÓÉÈý²¿·Ö×é³É£ºÇý¶¯Æ÷¡¢ÎÄ¼þËùÔÚÂ·¾¶ºÍÎÄ¼þÃû¡£Â·¾¶ÊÇÓÉÒ»ÏµÁÐÂ·¾¶Ãû×é³ÉµÄ£¬ÕâÐ©Â·¾¶ÃûÖ®¼äÓÃ¡°\¡±·Ö¿ª£¬ÀýÈç£º
C:\Windows\System32\calc.exe
¿ªÊ¼µÄÂ·¾¶ÍùÍùÊÇ C:\Users\Administrator¡£¹«Ô°µÄµØÍ¼ÉÏÍùÍù»á±ê³öÓÎ¿ÍµÄµ±Ç°Î»ÖÃ£¬ WindowsÃüÁîÐÐÒ²ÓÐ¸öµ±Ç°Ä¿Â¼µÄ¸ÅÄî£¬Õâ¸ö C:\Users\Administrator¾ÍÊÇµ±Ç°Â·¾¶¡£¿ÉÒÔÓÃ cdÃüÁî¸Ä±äµ±Ç°Â·¾¶£¬ÀýÈç¸Ä±äµ½ C:\Windows\System32Â·¾¶¡£ 

Èç¹ûÐ´ cd d:£¬ÕâÑùµÄÐ§¹ûÊÇ¸Ä±äµ±Ç°Â·¾¶µ½ d:×ÓÄ¿Â¼¡£ËùÒÔÇÐ»»ÅÌ·û²»ÄÜÊ¹ÓÃ cdÃüÁî£¬¶øÊÇÖ±½ÓÊäÈëÅÌ·ûµÄÃû³Æ£¬ÀýÈçÏëÒªÇÐ»»µ½ dÅÌ£¬¿ÉÒÔÊ¹ÓÃÈçÏÂÃüÁî£º 

Ö´ÐÐÒ»¸ö¿ÉÖ´ÐÐÎÄ¼þ£º 

Ò²¿ÉÒÔ²»Ö¸¶¨¿ÉÖ´ÐÐÎÄ¼þµÄÂ·¾¶£¬ÏµÍ³Ô¼¶¨´ÓÖ¸¶¨µÄÂ·¾¶ÕÒ¿ÉÖ´ÐÐÎÄ¼þ£¬Õâ¸öÂ·¾¶Í¨¹ý PATH»·¾³±äÁ¿Ö¸¶¨¡£»·¾³±äÁ¿ÊÇÒ»¸ö¡°±äÁ¿Ãû =±äÁ¿Öµ¡±µÄ¶ÔÓ¦¹ØÏµ£¬Ã¿Ò»¸ö±äÁ¿¶¼ÓÐÒ»¸ö»òÕß¶à¸öÖµÓëÖ®¶ÔÓ¦¡£Èç¹ûÊÇ¶à¸öÖµ£¬ÔòÕâÐ©ÖµÖ®¼äÓÃ·ÖºÅ·Ö¿ª£¬ÀýÈç PATH»·¾³±äÁ¿¿ÉÄÜ¶ÔÓ¦ÕâÑùµÄÖµ£º¡° C:\Windows\system32;C:\Windows¡±£¬±íÊ¾ Windows»á´Ó 
C:\Windows\system32ºÍ C:\WindowsÁ½¸öÂ·¾¶ÕÒ¿ÉÖ´ÐÐÎÄ¼þ¡£
ÉèÖÃ»òÕßÐÞ¸Ä»·¾³±äÁ¿µÄ¾ßÌå²Ù×÷²½ÖèÊÇ£ºÊ×ÏÈÔÚ Windows×ÀÃæÓÒ»÷´ËµçÄÔ¡úÊôÐÔ¡ú¸ß¼¶ÏµÍ³ÉèÖÃ¡ú»·¾³±äÁ¿£¬È»ºóÉèÖÃÓÃ»§±äÁ¿£¬»òÕßÏµÍ³±äÁ¿£¬È»ºóÔÙÉèÖÃ»·¾³±äÁ¿ PATHµÄÖµ¡£
ÆäÊµ´ò¿ª×ÀÃæÉÏÎÒµÄµçÄÔ¾ÍÊÇÔËÐÐ×ÊÔ´¹ÜÀíÆ÷¡£´ò¿ª×ÊÔ´¹ÜÀíÆ÷µÄÁíÍâÒ»ÖÖ·½·¨ÊÇ£ºÊ×ÏÈ°´×¡¼üÅÌÉÏµÄ´°¿Ú¼ü²»·Å£¬È»ºóÔÙ°´ E¼ü¡£ÐèÒªÖØÐÂÆô¶¯ÃüÁîÐÐ²ÅÄÜÈÃ»·¾³±äÁ¿ÉèÖÃÉúÐ§¡£ÎªÁË¼ì²é»·¾³±äÁ¿ÊÇ·ñÉèÖÃÕýÈ·£¬¿ÉÒÔÔÚÃüÁîÐÐÖÐÏÔÊ¾Ö¸¶¨»·¾³±äÁ¿µÄÖµ£¬ÀýÈçÏÔÊ¾ PATHµÄÖµ£º 

ÎªÁË´ÓÃüÁîÐÐÐÞ¸Ä»·¾³±äÁ¿£¬Ê¹ÓÃ Chocolatey°²×°»·¾³±äÁ¿±à¼­Æ÷ Rapid Environment Editor¡£ 

·þÎñÆ÷µÄÃû³ÆÍ¨¹ý DNS·þÎñÆ÷×ª»»³É¶ÔÓ¦µÄ IPµØÖ·£¬Ò²¾ÍÊÇËµ£¬Í¨¹ý DNSÈ¡µÃ¸Ã URLÓòÃûµÄ IPµØÖ·¡£µçÄÔÐèÒªÑ¡ÔñÒ»¸öºÃµÄ DNS·þÎñÆ÷£¬³£ÓÃµÄÓÐ 114.114.114.114£¬»òÕß 8.8.8.8¡£
Ê¹ÓÃ WMIC£¨Windows Management Instrumentation Command-line£©ÉèÖÃ DNS£º

ÎªÁË¿ìËÙ·ÃÎÊÍøÕ¾£¬»¹¿ÉÒÔÖ±½ÓÔÚ±¾»úÉèÖÃÍøÕ¾µÄ IPµØÖ·£¬ÀýÈç£¬Ê×ÏÈµÃµ½ stackover.ow.comµÄ IPµØÖ·£º 

·þÎñÆ÷£ºpublic1.114dns.com Address£º114.114.114.114·ÇÈ¨ÍþÓ¦´ð :Ãû³Æ£ºstackover.ow.com 
Addresses: 151.101.1.69 
151.101.129.69 
151.101.193.69 
151.101.65.69È»ºóÐÞ¸Ä HOSTSÎÄ¼þ£¬ËüÆäÊµ¾ÍÊÇÒ»¸öÎÄ±¾ÎÄ¼þ¡£Ã¿ÐÐÒ»¸öÓòÃû¶ÔÓ¦Ò»¸ö IPµØÖ·¡£ 

1.4.ÉÏÊÖ ScrapyÍøÂçÅÀ³æ¿ª·¢ 
PythonÈí¼þ»ù½ð»áÎ¬»¤µÄ PythonÓïÑÔ´úÂë½âÊÍÆ÷£¬¿ÉÒÔ´Ó Python¹Ù·½ÍøÕ¾ https:// www.python.orgÏÂÔØ¡£
ÔÚ WindowsÏÂ°²×° PythonÒÔºó£¬ÔÚ¿ØÖÆÌ¨ÊäÈë pythonÃüÁî½øÈë½»»¥Ê½»·¾³¡£ 

ÓÉÓÚ¿ªÔ´Èí¼þµÄÑ¸ËÙ·¢Õ¹£¬¿ÉÒÔ½èÖú¿ªÔ´Èí¼þ¼ò»¯×ÔÈ»ÓïÑÔ´¦ÀíµÄ¿ª·¢¹¤×÷¡£¼òµ¥µØ£¬¿ÉÒÔÊ¹ÓÃ SublimeÕâÑùµÄÎÄ±¾±à¼­Æ÷Ð´ Python´úÂë£¬Ò²¿ÉÒÔÊ¹ÓÃ Eric£¨https://eric-ide.python-projects.org£©»òÕß Microsoft Visual StudioÕâÑùµÄ¼¯³É¿ª·¢»·¾³¡£ 
Scrapy£¨https://github.com/scrapy/scrapy£©ÊÇÒ»¸öÁ÷ÐÐµÄÅÀ³æ¿ò¼Ü¡£Òª°²×° Scrapy£¬ÇëÔÚÖÕ¶ËÊ¹ÓÃÒÔÏÂÃüÁî£º 

Scrapy shellÊÇÒ»¸ö½»»¥Ê½ shell£¬¿ÉÒÔÔÚÆäÖÐ·Ç³£¿ìËÙµØ³¢ÊÔºÍµ÷ÊÔÅÀ³æ´úÂë¡£Í¨³££¬
ÎÒÃÇÍ¨¹ý´«µÝÍøÒ³µÄ URLÀ´Æô¶¯Ò»¸ö shell£¬ÈçÏÂËùÊ¾£º

ÀýÈç£º »ñµÃÍøÒ³±êÌâ£º 


ÔÚä¯ÀÀÆ÷ÖÐ²é¿´ÍøÒ³Ô´´úÂë£¬¿ÉÒÔ¿´µ½ÍøÒ³±êÌâ£º 

Ò»µ©ÎÒÃÇÑ§»áÁËÆô¶¯ shell£¬ÎÒÃÇ¾Í¿ÉÒÔÓÃËüÀ´²âÊÔÅÀÈ¡´úÂë¡£ÔÚ±àÐ´ÈÎºÎ Python ÅÀ³æ´úÂëÖ®Ç°£¬Ó¦¸ÃÊ¹ÓÃ shell ²âÊÔÍøÒ³ÒÔ½øÐÐ×¥È¡¡£ Scrapy shellÓÐÒ»Ð©¿ÉÓÃµÄ¿ì½Ý·½Ê½£¬Ò»µ©ÎÒÃÇÆô¶¯ÁË shell£¬ËüÃÇ¾Í¿ÉÓÃÁË¡£¿ì½Ý·½Ê½½éÉÜÈçÏÂ¡£ 
shelp()£ºshelp()ÃüÁî£¬ÏÔÊ¾ Scrapy¶ÔÏóÁÐ±íºÍÓÐÓÃµÄ¿ì½Ý·½Ê½¡£¿ÉÒÔ¿´µ½£¬ Request ¶ÔÏó´ú±í·¢ËÍµ½Á´½Ó http://quotes.toscrape.com/tag/friends/µÄ GETÇëÇó¡£´ËÍâ£¬Èç¹û Response¶ÔÏó°üº¬Ò»¸ö 200 HTTP´úÂë£¬±íÊ¾ÇëÇó³É¹¦£¬³ý´ËÖ®Íâ£¬Ëü»¹Ìáµ½ÁË CrawlerºÍ Spider¶ÔÏóµÄÎ»ÖÃ¡£ 
fetch£¨URL£©£º¡° URL¡±ÊÇÖ¸ÏòÐèÒª×¥È¡µÄÍøÒ³µÄÁ´½Ó¡£ fetch¿ì½Ý·½Ê½½ÓÊÜÒ»¸ö URL£¬¼´Òª×¥È¡µÄÍøÒ³£¬Ëü·µ»ØÅÀ³æÐÅÏ¢£¬ÒÔ¼°ÏìÓ¦ÊÇ³É¹¦»¹ÊÇÊ§°Ü¡£ÔÚÏÂÃæµÄÊ¾ÀýÖÐ£¬ÎÒÃÇÓÐÒ»¸öÓÐÐ§µÄ URLºÍÒ»¸öÎÞÐ§µÄ URL£¬¸ù¾ÝÇëÇóµÄÐÔÖÊ£¬ fetch»áÏÔÊ¾´íÎó»ò³É¹¦´úÂë¡£ 

fetch£¨request£©£ºÎÒÃÇ¿ÉÒÔ´´½¨Ò»¸ö Request¶ÔÏó£¬²¢½«Æä´«µÝ¸ø fetch()·½·¨£¬Îª´Ë£¬ÐèÒª´´½¨Ò»¸ö Scrapy¶ÔÏó¡£ RequestÀàÌá¼°µ½ÁËËùÐèµÄ HTTP·½·¨¡¢ÍøÒ³µÄ URL¡¢±êÍ·£¨Èç¹ûÓÐµÄ»°£©¡£ÎÒÃÇÒª×¥È¡ URL=¡®http://quotes.toscrape.com/tag/friends/¡¯µÄÍøÒ³£¬ÎÒÃÇÐèÒª×¼
±¸ÇëÇó¶ÔÏóÎª£º 

ÖÕ¶ËÊäÈëÊä³öÎª£º 

view£¨Response£©£ºÔÚÄ¬ÈÏä¯ÀÀÆ÷ÖÐ´ò¿ªÍøÒ³£¬ÍøÒ³ÊÇ×÷Îª Request¶ÔÏó»ò fetch()·½·¨ÖÐµÄ URL·¢ËÍµÄÍøÒ³¡£µ±ÎÒÃÇÊäÈë view£¨Response£©Ê±£¬ÔÚÉÏÊö fetch£¨Request£©Ö®ºó£¬ÍøÒ³»áÔÚÄ¬ÈÏä¯ÀÀÆ÷ÖÐ´ò¿ª¡£ 
1.5.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁË¸÷ÖÖÍøÂçÅÀ³æÒÔ¼°¿ª·¢ÍøÂçÅÀ³æËùÐèÒªµÄÈí¼þ¹¤¾ß¡£×îºó£¬½éÉÜÁË´Ó Scrapy shellÉÏÊÖÍøÂçÅÀ³æ¿ª·¢¡£



µÚ 2ÕÂ.Python¿ª·¢¿ìËÙÈëÃÅ
ÎªÁË·½±ã²ÉÓÃ×Ôµ×ÏòÉÏµÄ·½Ê½ÊµÏÖÍøÂçÅÀ³æ£¬ÐèÒª¸´Ï°ÏÂ Python±à³Ì»ù´¡£¬²¢×¼±¸ºÃÏà¹ØµÄËã·¨»ù´¡£¬ÓÐÁËÕâÐ©»ù´¡¾Í¿ÉÒÔÊµÏÖ¼òµ¥µÄÐÅÏ¢²É¼¯»òÕß·Ö²¼Ê½ÍøÂçÅÀ³æÏµÍ³¡£ÐèÒªÊìÁ·ÕÆÎÕ Python¿ª·¢·½ÃæµÄ»ù´¡ÖªÊ¶£¬²ÅÄÜÊ¹ÓÃ PythonÊµÏÖÍøÂçÅÀ³æ¡£ 
2.
1.±äÁ¿

¶¨Òå±äÁ¿Ê±²»ÉùÃ÷ÀàÐÍ£¬µ«±äÁ¿ÔÚÄÚ²¿ÊÇÓÐÀàÐÍµÄ¡£ÔÚ½»»¥Ê½»·¾³ÏÂÊäÈëÈçÏÂ´úÂë»áÊä³ö±äÁ¿ aµÄÀàÐÍ£º 

2.
2.×¢ÊÍ



ºÍ shellÀàËÆ£¬Python½Å±¾ÖÐÓÃ #±íÊ¾×¢ÊÍ¡£µ«Èç¹û #Î»ÓÚµÚÒ»ÐÐ¿ªÍ·£¬²¢ÇÒÊÇ #!£¨³ÆÎª Shebang£©ÔòÀýÍâ£¬Ëü±íÊ¾¸Ã½Å±¾Ê¹ÓÃºóÃæÖ¸¶¨µÄ½âÊÍÆ÷ /usr/bin/python3½âÊÍÖ´ÐÐ¡£Ã¿¸ö½Å±¾³ÌÐòÖ»ÄÜÔÚ¿ªÍ·°üº¬Õâ¸öÓï¾ä¡£
ÎªÁËÄÜ¹»ÔÚÔ´´úÂëÖÐÌí¼ÓÖÐÎÄ×¢ÊÍ£¬ÐèÒª°ÑÔ´´úÂë±£´æ³É UTF-8¸ñÊ½¡£ÀýÈç£º 

2.3.¼òµ¥Êý¾ÝÀàÐÍ
±¾½Ú½éÉÜ°üÀ¨ÊýÖµ¡¢×Ö·û´®ºÍÊý×éÔÚÄÚµÄ¼òµ¥Êý¾ÝÀàÐÍ¡£ 
2.3.1.ÊýÖµ 
PythonÖÐÓÐÈýÖÖ²»Í¬µÄÊýÖµÀàÐÍ£º int£¨ÕûÊý£©¡¢ float£¨¸¡µãÊý£©ºÍ complex£¨¸´Êý£©¡£ºÍ Java»òÕß CÓïÑÔÖÐµÄ intÀàÐÍ²»Í¬£¬PythonÖÐµÄ intÀàÐÍÊÇÎÞÏÞ¾«¶ÈµÄ£¬ÀýÈç£º 

PythonÒÀ¾Ý IEEE 754 ±ê×¼Ê¹ÓÃ¶þ½øÖÆ±íÊ¾ .oat£¨¸¡µãÊý£©£¬ËùÒÔ´æÔÚ±íÊ¾¾«¶ÈµÄÎÊÌâ£¬ÀýÈç£º 

¿ÉÒÔµ¼Èë decimalÄ£¿é²¢Ê¹ÓÃÊ®½øÖÆ±íÊ¾ÍêÕûµÄÐ¡Êý£¬ÀýÈç£º 

ÔÚ¸µÀïÒ¶±ä»»ÖÐ»áÓÃµ½¸´Êý¡£¸´ÊýÔÚ PythonÖÐÊÇÒ»¸ö»ù±¾Êý¾ÝÀàÐÍ£¨ complex£©£¬ÀýÈç£º 

Ò»¸ö¸´ÊýÓÐÒ»Ð©ÄÚÖÃµÄ·ÃÎÊÆ÷£º ¼¸¸öÄÚÖÃº¯Êý¶¼Ö§³Ö¸´ÊýÔËËã£º 

>>> abs(3 + 4j) 
5.0 
>>> pow(3 + 4j, 2) (-7+24j)
±ê×¼Ä£¿é cmath¾ßÓÐ´¦Àí¸´ÊýµÄ¸ü¶à¹¦ÄÜ£º 
>>> import cmath >>> cmath.sin(2 + 3j) 
(9.15449914691143-4.168906959966565j)
ÓÃÓÚÊýÖµÔËËãµÄËãÊõÔËËã·ûËµÃ÷ÁÐ±íÈç±í 2-1ËùÊ¾¡£
±í 2-1 ËãÊõÔËËã·û
Óï·¨ ÊýÑ§º¬Òå ÔËËã·ûÃû×Ö  
a+b  a+b ¼Ó  
a-b  a-b ¼õ  
a*b  a¡Áb ³Ë·¨  
a/b  a¡Âb ³ý·¨  
a//b  . .. .ab¡Â µØ°å³ý  
a%b  a mod b Ä£  
-a  -a È¡¸ºÊý  
abs(a)  | a | ¾ø¶ÔÖµ  
a**b  ab Ö¸Êý  
math.sqrt(a)  a Æ½·½¸ù 

¶ÔÓÚ "/"ÔËËã£¬¾ÍËã·Ö×Ó·ÖÄ¸¶¼ÊÇ int£¬·µ»ØµÄÒ²½«ÊÇ¸¡µãÊý£¬ÀýÈç£º 
>>> print(1/3) 
0.3333333333333333 

PythonÖ§³Ö²»Í¬µÄÊý×ÖÀàÐÍÏà¼Ó£¬ËüÊ¹ÓÃÊý×ÖÀàÐÍÇ¿ÖÆ×ª»»µÄ·½Ê½À´½â¾öÊý×ÖÀàÐÍ²»Ò»ÖÂµÄÎÊÌâ£¬¾ÍÊÇËµËü»á½«Ò»¸ö²Ù×÷Êý×ª»»ÎªÓëÁíÒ»¸ö²Ù×÷ÊýÏàÍ¬µÄÊý¾ÝÀàÐÍ¡£Èç¹ûÓÐÒ»¸ö²Ù×÷ÊýÊÇ¸´Êý£¬ÔòÁíÒ»¸ö²Ù×÷Êý±»×ª»»Îª¸´Êý£º 
>>> 3.0 + (5+6j) # ·Ç¸´Êý×ª¸´Êý 
(8+6j)
ÕûÊý×ª»»Îª¸¡µãÊý£º 
>>> 6 + 7.0 # ·Ç¸¡µãÐÍ×ª¸¡µãÐÍ

Python´úÂëÖÐÒ»°ãÒ»ÐÐ¾ÍÊÇÒ»ÌõÓï¾ä£¬µ«ÊÇ¿ÉÒÔÊ¹ÓÃÐ±¸Ü£¨ \£©½«Ò»ÌõÓï¾ä·ÖÎª¶àÐÐÏÔÊ¾¡£Àý×Ó´úÂëÈçÏÂ£º 


2.3.2.×Ö·û´®
ÔÚ¼ÆËã»ú±à³ÌÖÐ£¬×Ö·û´®ÊÇÒ»¸ö×Ö·ûÐòÁÐ£¬ÀýÈç£¬ "hello"ÊÇÒ»¸ö°üº¬×Ö·ûÐòÁÐ 'h'¡¢'e'¡¢'l'¡¢'l'ºÍ 'o'µÄ×Ö·û´®¡£
ÎÒÃÇÊ¹ÓÃµ¥ÒýºÅ»òË«ÒýºÅÀ´±íÊ¾ PythonÖÐµÄ×Ö·û´®£¬ÀýÈç£º 

¿ÉÒÔÍ¨¹ýÈýÖÖ·½Ê½·ÃÎÊ×Ö·û´®ÖÐµÄ×Ö·û¡£
£¨1£©Ë÷Òý¡£Ò»ÖÖ·½·¨ÊÇ½«×Ö·û´®ÊÓÎªÁÐ±í²¢Ê¹ÓÃË÷ÒýÖµ£¬ÀýÈç£º 

£¨2£©¸ºË÷Òý¡£ÓëÁÐ±íÀàËÆ£¬PythonÔÊÐí¶ÔÆä×Ö·û´®½øÐÐ¸ºË÷Òý£¬ÀýÈç£º 

£¨3£©ÇÐÆ¬¡£Ê¹ÓÃÇÐÆ¬ÔËËã·ûÃ°ºÅ£¨:£©·ÃÎÊ×Ö·û´®ÖÐµÄ×Ö·û·¶Î§£¬ÀýÈç£º 





# access character from 1st index to 3rd index 
print(greet[1:4]) # "ell"
¿ÉÒÔÔÚ PythonÖÐ´´½¨¶àÐÐ×Ö·û´®£¬Îª´Ë£¬ÎÒÃÇÊ¹ÓÃÈý¸öË«ÒýºÅ """»òÈý¸öµ¥ÒýºÅ '''£¬ÀýÈç£º 

ÔÚÉÏÃæµÄÊ¾ÀýÖÐ£¬·â±ÕÈýÒýºÅÄÚµÄÈÎºÎÄÚÈÝ¶¼ÊÇÒ»¸ö¶àÐÐ×Ö·û´®¡£
¿ÉÒÔÊ¹ÓÃ strip()·½·¨È¥µô×Ö·û´®Ê×Î²µÄ¿Õ¸ñ»òÕßÖ¸¶¨µÄ×Ö·û¡£ 


Ê¹ÓÃ split()·½·¨½«¾ä×Ó·Ö³Éµ¥´Ê¡£ÏÂÃæµÄ MaryÊÇÒ»¸öµ¥Ò»µÄ×Ö·û´®£¬¾¡¹ÜÕâÊÇÒ»¸ö¾ä×Ó£¬µ«ÕâÐ©´ÊÓï²¢Ã»ÓÐ±íÊ¾³ÉÑÏ½÷µÄµ¥Î»£¬Îª´Ë£¬ÐèÒªÒ»ÖÖ²»Í¬µÄÊý¾ÝÀàÐÍ£º×Ö·û´®ÁÐ±í£¬ÆäÖÐÃ¿¸ö×Ö·û´®¶ÔÓ¦Ò»¸öµ¥´Ê¡£Ê¹ÓÃ split()·½·¨À´°Ñ¾ä×ÓÇÐ·Ö³Éµ¥´Ê£º 

split()·½·¨¸ù¾Ý¿Õ¸ñ²ð·Ö mary£¬·µ»ØµÄ½á¹ûÊÇ maryÖÐµÄµ¥´ÊÁÐ±í£¬´ËÁÐ±í°üº¬ len()º¯ÊýÑÝÊ¾µÄ 5¸öÏîÄ¿¡£¶ÔÓÚ mary£¬len()º¯Êý·µ»Ø×Ö·û´®ÖÐµÄ×Ö·ûÊý£¨°üÀ¨¿Õ¸ñ£©¡£ 

¿Õ°××Ö·û°üÀ¨¿Õ¸ñ ' '£¬»»ÐÐ·û '\ n'ºÍÖÆ±í·û '\ t'µÈ¡£split()·½·¨¿ÉÒÔ·Ö¸ôÕâÐ©×Ö·ûµÄÈÎºÎ×éºÏÐòÁÐ£º 


Í¨¹ýÌá¹©¿ÉÑ¡²ÎÊý£¬ split('x')¿ÉÓÃÓÚÔÚÌØ¶¨×Ó×Ö·û´® 'x'ÉÏ²ð·Ö×Ö·û´®¡£Èç¹ûÃ»ÓÐÖ¸¶¨ 'x'£¬split()Ö»ÊÇÔÚËùÓÐ¿Õ¸ñÉÏ·Ö¸î£¬ÈçÏÂËùÊ¾¡£ 

µ«ÊÇÈç¹ûÄãÏë½«Ò»¸ö×Ö·û´®²ð·Ö³ÉÒ»¸ö×Ö·ûÁÐ±íÄØ£¿ÔÚ PythonÖÐ£¬×Ö·ûÖ»ÊÇ³¤¶ÈÎª 1µÄ×Ö·û´®¡£list()º¯Êý½«×Ö·û´®×ª»»Îªµ¥¸ö×Ö·ûµÄÁÐ±í£º 

Èç¹ûÓÐÒ»¸öµ¥´ÊÁÐ±í£¬¿ÉÒÔÊ¹ÓÃ join()·½·¨½«ËüÃÇÖØÐÂ×éºÏ³ÉÒ»¸öµ¥¶ÀµÄ×Ö·û´®¡£ÔÚ¡°·Ö¸ô·û¡±×Ö·û´® 'x'ÉÏµ÷ÓÃ 'x'.join(y)»áÁ¬½ÓÁÐ±í yÖÐÓÉ 'x'·Ö¸ôµÄÃ¿¸öÔªËØ¡£ÏÂÃæ£¬ mwordsÖÐµÄµ¥´ÊÓÃ¿Õ¸ñÁ¬½Ó»Ø¾ä×Ó×Ö·û´®£º 

Ò²¿ÉÒÔÔÚ¿Õ×Ö·û´® ''ÉÏµ÷ÓÃ¸Ã·½·¨×÷Îª·Ö¸ô·û£¬Ð§¹ûÊÇÁÐ±íÖÐµÄÔªËØÁ¬½ÓÔÚÒ»Æð£¬ÔªËØÖ®¼äÃ»ÓÐÈÎºÎÄÚÈÝ¡£ÏÂÃæ£¬½«Ò»¸ö×Ö·ûÁÐ±í·Å»Øµ½Ô­Ê¼×Ö·û´®ÖÐ£º 

¶ÔÒ»¸ö×Ö·û´®È¡×Ó´®µÄÊ¾Àý´úÂëÈçÏÂ£º 

>>> x[2:] 
'llo World!' 
>>> x[:2] 
'He' 
>>> x[:-2] 
'Hello Worl' 
>>> x[-2:] 
'd!' 
>>> x[2:-2] 
'llo Worl'
Ê¹ÓÃ ord()º¯ÊýºÍ chr()º¯ÊýÊµÏÖ×Ö·û´®ºÍÕûÊýÖ®¼äµÄ»¥Ïà×ª»»£º 
>>> a = 'v' 
>>> i = ord(a) 
>>> chr(i) 
'v'

×Ö·û´®²åÖµÊÇ½«±äÁ¿µÄÖµÌæ»»Îª×Ö·û´®ÖÐµÄÕ¼Î»·ûµÄ¹ý³Ì£¬ÀýÈç£º 
# Python program to demonstrate 
# string interpolation 

n1 = 'Hello' 
n2 = 'GeeksforGeeks' 
# f tells Python to restore the value of two 
# string variable name and program inside braces {} 
print(f"{n1}! This is {n2}") 


2.3.3.Êý×é
´´½¨Ò»¸öÊý×é£¬È»ºóÏòÕâ¸öÊý×éÖÐÌí¼ÓÔªËØµÄ´úÂëÈçÏÂ£º 
>>> temp_list = [] 
>>> print(temp_list) 
[] 
>>> temp_list.append("one") 
>>> temp_list.append("two") 
>>> print(temp_list) 

['one', 'two'] 
>>>
´´½¨Ò»¸öÖ¸¶¨³¤¶ÈµÄÊý×é£º 
>>> size = 10 

2.4.×ÖÃæÖµ 
Python°üÀ¨ÈçÏÂ¼¸ÖÖÀàÐÍµÄ×ÖÃæÖµ¡£
£¨1£©Êý×Ö£ºÕûÊý¡¢¸¡µãÊý¡¢¸´Êý£»

£¨2£©×Ö·û´®£ºÒÔµ¥ÒýºÅ¡¢Ë«ÒýºÅ»òÕßÈýÒýºÅ¶¨Òå×Ö·û´®£»

£¨3£©²¼¶ûÖµ£ºTrueºÍ False£»

£¨4£©¿ÕÖµ£ºNone¡£


ÓÐ 4ÖÖ²»Í¬µÄ×ÖÃæÖµ¼¯ºÏ£¬·Ö±ðÊÇ£ºÁÐ±í×ÖÃæÖµ¡¢Ôª×é×ÖÃæÖµ¡¢×Öµä×ÖÃæÖµºÍ¼¯ºÏ×ÖÃæÖµ£¬Ê¾Àý´úÂëÈçÏÂ£º 

2.5.¿ØÖÆÁ÷
Íê³ÉÒ»¼þÊÂÇéÒªÓÐÁ÷³Ì¿ØÖÆ£¬ÀýÈç£¬Ï´ÒÂµÄ 3¸ö²½Öè£º°ÑÔàÒÂ·þ·Å½øÏ´ÒÂ»ú¡úµÈÏ´ÒÂ»úÏ´ºÃÒÂ·þ¡úÁÀÒÂ·þ£¬ÕâÊÇË³Ðò¿ØÖÆ½á¹¹¡£Ë³ÐòÖ´ÐÐµÄ´úÂë²ÉÓÃÏàÍ¬µÄËõ½ø£¬½Ð×÷Ò»¸ö´úÂë¿é¡£ PythonÃ»ÓÐÏñ Java»òÕß C#ÓïÑÔÄÇÑù²ÉÓÃ {}·Ö¸ô´úÂë¿é£¬¶øÊÇ²ÉÓÃ´úÂëËõ½øºÍÃ°ºÅÀ´Çø·Ö´úÂëÖ®¼äµÄ²ã´Î¡£Ëõ½øµÄ¿Õ°×ÊýÁ¿ÊÇ¿É±äµÄ£¬µ«ÊÇËùÓÐ´úÂë¿éÓï¾ä±ØÐë°üº¬ÏàÍ¬µÄËõ½ø¿Õ°×ÊýÁ¿¡£ NodePad++ÕâÑùµÄÎÄ±¾±à¼­Æ÷Ö§³ÖÑ¡Ôñ¶àÐÐ´úÂëºó£¬°´ Tab¼ü¸Ä±ä´úÂë¿éµÄËõ½ø¸ñÊ½¡£¿ØÖÆÁ÷ÓÃÀ´¸ù¾ÝÔËÐÐÊ±µÄÇé¿öµ÷ÕûÓï¾äµÄÖ´ÐÐË³Ðò¡£Á÷³Ì¿ØÖÆÓï¾ä¿ÉÒÔ·ÖÎªÌõ¼þÓï¾äºÍµü´úÓï¾ä¡£

2.5.1.ifÓï¾ä
µ±Â·¾¶²»´æÔÚ¾Í´´½¨Ëü£¬¿ÉÒÔÊ¹ÓÃÌõ¼þÓï¾äÊµÏÖ¡£Ìõ¼þÓï¾äµÄÒ»°ãÐÎÊ½ÈçÏÂ£º 

ÀýÈç£¬ÅÐ¶ÏÒ»¸öÊýÊÇ·ñÊÇÕýÊý£º 

ÕâÀïµÄ if¸´ºÏÓï¾ä£¬Ê×ÐÐÒÔ¹Ø¼ü×Ö¿ªÊ¼£¬ÒÔÃ°ºÅ£¨:£©½áÊø¡£Ê¹ÓÃ¹ØÏµÔËËã·ûºÍÌõ¼þÔËËã·û×÷ÎªÅÐ¶ÏÒÀ¾Ý¡£¹ØÏµÔËËã·û·µ»ØÒ»¸ö²¼¶ûÖµ¡£¹ØÏµÔËËã·ûÍêÕûµÄÁÐ±íÈç±í 2-2ËùÊ¾¡£
±í 2-2 ¹ØÏµÔËËã·û
ÔËËã·û ÓÃ·¨ ·µ»Ø true£¬Èç¹û¡­¡­  
>  a > b  a ´óÓÚ b  
>=  a >= b  a ´óÓÚ»òµÈÓÚ b  
<  a < b  a Ð¡ÓÚ b  
<=  a <= b  a Ð¡ÓÚ»òµÈÓÚ b  
==  a == b  a µÈÓÚ b  
!=  a != b  a ²»µÈÓÚ b 

Èç¹ûÒªÕë¶Ô¶à¸öÖµ²âÊÔÒ»¸ö±äÁ¿£¬Ôò¿ÉÒÔÔÚ ifÌõ¼þÅÐ¶ÏÖÐÊ¹ÓÃÒ»¸ö¼¯ºÏ£º 



2.5.2.Ñ­»·
Ê¹ÓÃ¸´Ó¡»ú¸´Ó¡Ò»¸öÖ¤¼þ£¬¿ÉÒÔÉè¶¨¸´ÖÆµÄ·ÝÊý£¬ÀýÈç£¬¸´ÖÆ 3·Ý¸±±¾¡£ÔÚ PythonÖÐ£¬¿ÉÒÔÊ¹ÓÃ forÑ­»·»òÕß whileÑ­»·ÊµÏÖ¶à´ÎÖØ¸´Ö´ÐÐÒ»¸ö´úÂë¿é¡£ forÑ­»·¿ÉÒÔ±éÀúÈÎºÎÐòÁÐ£¬ÀýÈç£¬Êä³öÊý×éÖÐµÄÔªËØ£º 

¿ÉÒÔÊ¹ÓÃ range()º¯ÊýÑ­»·Ò»×é´úÂëÖ¸¶¨µÄ´ÎÊý¡£ range()º¯Êý·µ»ØÒ»¸öÊý×ÖÐòÁÐ£¬Ä¬ÈÏ´Ó 0¿ªÊ¼£¬Ä¬ÈÏÒÔ 1µÝÔö£¬²¢ÒÔÖ¸¶¨µÄÊý×Ö½áÊø£¬ÀýÈç£º 

Ã¿Ò»´ÎÔÚÖ´ÐÐÑ­»·´úÂë¿éÖ®Ç°£¬¸ù¾ÝÑ­»·Ìõ¼þ¾ö¶¨ÊÇ·ñ¼ÌÐøÖ´ÐÐÑ­»·´úÂë¿é£¬µ±Âú×ãÑ­»·Ìõ¼þÊ±£¬¼ÌÐøÖ´ÐÐÑ­»·ÌåÖÐµÄ´úÂë¡£ÔÚÑ­»·Ìõ¼þÖ®Ç°Ð´ÉÏ¹Ø¼ü´Ê while£¬ÕâÀïµÄ while¾ÍÊÇ¡°µ±¡±µÄÒâË¼£¬ÀýÈç£¬µ±ÓÃ»§Ö±½ÓÊäÈë»Ø³µÊ±ÍË³öÑ­»·£º 

2.6.ÁÐ±í
¿ÉÒÔÊ¹ÓÃÒ»¸öÁÐ±í£¨List£©´æ´¢ÈÎºÎÀàÐÍµÄ¶ÔÏó£¬ÀýÈç£º 

Êä³ö£º
list1[0]: physics list2[1:5]: [2, 3, 4, 5]
´ËÍâ£¬ÁÐ±íÉõÖÁ¿ÉÒÔ½«ÁíÒ»¸öÁÐ±í×÷ÎªÏîÄ¿£¬Õâ³ÆÎªÇ¶Ì×ÁÐ±í¡£ 

Ê¹ÓÃ rangeº¯ÊýÉú³ÉÁÐ±í£º 

¿ÉÒÔÊ¹ÓÃ¸³ÖµÔËËã·û£¨=£©À´¸ü¸ÄÒ»¸öÏîÄ¿»òÏîÄ¿·¶Î§¡£ 

¿ÉÒÔÊ¹ÓÃ append()·½·¨½«Ò»¸öÏîÌí¼Óµ½ÁÐ±íÖÐ£¬»òÊ¹ÓÃ extend()·½·¨Ìí¼Ó¶à¸öÏî¡£ 

¿ÉÒÔÊ¹ÓÃ +ÔËËã·ûÀ´Á¬½ÓÁ½¸öÁÐ±í¡£*ÔËËã·ûÖØ¸´ÁÐ±í¸ø¶¨´ÎÊý¡£ 

´ËÍâ£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃ·½·¨ insert()ÔÚËùÐèÎ»ÖÃ²åÈëÒ»¸öÏîÄ¿£¬»òÕßÍ¨¹ý½«¶à¸öÏîÄ¿¼·Ñ¹µ½ÁÐ±íµÄ¿Õ°×ÇÐÆ¬ÖÐÀ´²åÈë¶à¸öÏîÄ¿¡£

¿ÉÒÔÊ¹ÓÃ¹Ø¼ü×Ö del´ÓÁÐ±íÖÐÉ¾³ýÒ»¸ö»ò¶à¸öÏîÄ¿¡£ 

ÉõÖÁ¿ÉÒÔÍêÈ«É¾³ýÁÐ±í¡£ 

¿ÉÒÔÊ¹ÓÃ remove()·½·¨É¾³ý¸ø¶¨µÄÏîÄ¿£¬»òÊ¹ÓÃ pop()·½·¨É¾³ý¸ø¶¨Ë÷Òý´¦µÄÏîÄ¿£¬Ò²¿ÉÒÔÊ¹ÓÃ clear()·½·¨Çå¿ÕÁÐ±í¡£ 

×îºó£¬ÎÒÃÇ»¹¿ÉÒÔÍ¨¹ýÎªÒ»¸öÔªËØÆ¬¶Î·ÖÅäÒ»¸ö¿ÕÁÐ±íÀ´É¾³ýÁÐ±íÖÐµÄÏîÄ¿¡£ 

for-inÓï¾ä¿ÉÒÔÇáËÉ±éÀúÁÐ±íÖÐµÄÏîÄ¿£º 

ÎªÁË¸´ÖÆ³öÒ»¸öÐÂµÄÁÐ±í£¬¿ÉÒÔÊ¹ÓÃÄÚÖÃµÄ list.copy()·½·¨£¨´Ó Python 3.3¿ªÊ¼Ìá¹©£©¡£ 

Ê¹ÓÃ new_list = my_list£¬Êµ¼ÊÉÏÃ»ÓÐÁ½¸öÁÐ±í£¬¸³Öµ½ö¸´ÖÆ¶ÔÁÐ±íµÄÒýÓÃ£¬¶ø²»ÊÇÊµ¼ÊÁÐ±í£¬Òò´Ë new_listºÍ my_listÔÚ¸³ÖµºóÒýÓÃÏàÍ¬µÄÁÐ±í¡£
Í¨³££¬ÎÒÃÇÖ»ÏëÊÕ¼¯·ûºÏÌØ¶¨Ìõ¼þµÄÏîÄ¿¡£ÏÂÃæ£¬ÎÒÃÇÓÐÒ»¸öµ¥´ÊÁÐ±í£¬ÎÒÃÇÖ»Ïë´ÓÖÐÌáÈ¡°üº¬ 'wo'µÄµ¥´Ê£¬Îª´Ë£¬ÎÒÃÇÐèÒªÏÈ´´½¨Ò»¸öÐÂµÄ¿ÕÁÐ±í£¬È»ºó±éÀúÔ­Ê¼ÁÐ±íÒÔ²éÕÒÒª·ÅÈëµÄÏîÄ¿£º 

´òÓ¡ÁÐ±íµÄÄÚÈÝ£º 

2.7.Ôª×é
Ôª×éÊÇÒ»¸ö²»¿É±äµÄ Python¶ÔÏóÐòÁÐ¡£Ôª×é±äÁ¿µÄ¸³ÖµÒªÔÚ¶¨ÒåÊ±¾Í½øÐÐ£¬¸³ÖµÖ®ºó¾Í²»ÔÊÐíÓÐÐÞ¸Ä¡£ 

Í¨³£½«Ôª×éÓÃÓÚÒì¹¹£¨²»Í¬£©Êý¾ÝÀàÐÍ£¬½«ÁÐ±íÓÃÓÚÍ¬Àà£¨ÏàËÆ£©Êý¾ÝÀàÐÍ¡£°üº¬¶à¸öÏîÄ¿µÄÎÄ×ÖÔª×é¿ÉÒÔ·ÖÅä¸øµ¥¸ö¶ÔÏó¡£µ±·¢ÉúÕâÖÖÇé¿öÊ±£¬¾ÍºÃÏñÔª×éÖÐµÄÏîÄ¿ÒÑ¾­¡°´ò°ü¡±µ½¶ÔÏóÖÐ¡£ 

½«Ôª×éÖÐµÄÔªËØ·Ö±ð¸³¸ø±äÁ¿³ÆÎª²ð°ü¡£ 

°ü×°ºÍ²ð°ü¿ÉÒÔºÏ²¢ÎªÒ»¸öÓï¾ä£¬ÒÔ½øÐÐ¸´ºÏ·ÖÅä£º 

¿ÉÒÔ¹¹½¨Ò»¸öÔª×é×é³ÉµÄÊý×é£º 

... a 1 b 2 c 3
¿ÉÒÔÊ¹ÓÃÃüÃûÔª×é¸øÔª×éÖÐµÄÔªËØÆðÒ»¸öÓÐÒâÒåµÄÃû×Ö£º 

2.8.¼¯ºÏ
¿ÉÒÔÊ¹ÓÃÔËËã·û inÀ´¼ì²é¸ø¶¨ÔªËØÊÇ·ñ´æÔÚÓÚ¼¯ºÏÖÐ¡£Èç¹û¼¯ºÏÖÐ´æÔÚÖ¸¶¨ÔªËØ£¬Ôò·µ»Ø True£¬·ñÔò·µ»Ø False¡£ 

Êä³ö×Ö·û´® 'banana'ÖÐµÄ×Ö·û¼¯ºÏ£º 

2.9.×Öµä
×ÖµäÊÇÁíÒ»ÖÖ¿É±äÈÝÆ÷Ä£ÐÍ£¬ÇÒ¿É´æ´¢ÈÎÒâÀàÐÍµÄ¶ÔÏó¡£Òª·ÃÎÊ×ÖµäÔªËØ£¬¿ÉÒÔÊ¹ÓÃÊìÏ¤µÄ·½À¨ºÅºÍ¼üÀ´»ñÈ¡ËüµÄÖµ¡£ 

Èç¹ûÐèÒª¸ù¾Ý×ÖµäÖÐµÄÖµÅÅÐò£¬ÓÉÓÚ×Öµä±¾ÖÊÉÏÊÇÎÞÐòµÄ£¬ËùÒÔ¿ÉÒÔ°ÑÅÅÐò½á¹û±£´æµ½ÓÐÐòµÄÁÐ±í¡£ 

OrderedDictÊÇÒ»¸ö×Öµä×ÓÀà£¬Ëü»á¼Ç×¡¼ü /Öµ¶ÔµÄË³Ðò¡£ 

2.10.º¯Êý
°ÑÒ»¶Î¶à´ÎÖØ¸´³öÏÖµÄº¯ÊýÃüÃû³ÉÒ»¸öÓÐÒâÒåµÄÃû×Ö£¬È»ºóÍ¨¹ýÃû×ÖÀ´Ö´ÐÐÕâ¶Î´úÂë¡£
ÓÐÃû×ÖµÄ´úÂë¶Î¾ÍÊÇÒ»¸öº¯Êý¡£Ê¹ÓÃ¹Ø¼ü×Ö def¶¨ÒåÒ»¸öº¯Êý£¬ÀýÈç£º 
def square(number):  #¶¨ÒåÒ»¸öÃûÎª squareµÄº¯Êý 
 return number * number  #·µ»ØÒ»¸öÊýµÄÆ½·½  
print(square(3))  # Êä³ö£º9 
´úÂëÖÐ¿ÉÒÔ¸øº¯ÊýÔö¼ÓËµÃ÷£º  
def square_root(n): 
 """¼ÆËãÒ»¸öÊý×ÖµÄÆ½·½¸ù¡£ 

 Args:
 n: ÓÃÀ´ÇóÆ½·½¸ùµÄÊý×Ö¡£ Returns: nµÄÆ½·½¸ù¡£
 Raises: TypeError: Èç¹û n²»ÊÇÊý×Ö¡£ ValueError: Èç¹û nÊÇ¸ºÊý¡£
 """ pass
²ÎÊý¿ÉÒÔÓÐÄ¬ÈÏÖµ£¬ÀýÈç£¬¶¨ÒåÒ»¸öÃûÎª greet_personµÄº¯Êý£º 
def greet_person(person, number=2):
 for greeting in range(number): print(f"Hello {person}! How are you doing today?") # 1. 
greet_person("Sara", 5) 
# 2. greet_person("Kevin")
Êä³ö½á¹ûÈçÏÂ£º 
Hello Sara! How are you doing today? Hello Sara! How are you doing today? Hello Sara! How are you doing today? Hello Sara! How are you doing today? Hello Sara! How are you doing today? Hello Kevin! How are you doing today? Hello Kevin! How are you doing today?
Èç¹ûÐèÒªÉùÃ÷¿É±äÊýÁ¿µÄ²ÎÊý£¬ÔòÔÚÕâ¸ö²ÎÊýÇ°Ãæ¼Ó *£¬Ê¾Àý´úÂëÈçÏÂ£º 
def myFun(*argv): for arg in argv: print (arg) 

º¯Êý¶¨ÒåÖÐµÄÌØÊâÓï·¨ **kwargsÓÃÓÚ´«µÝÒ»¸ö¼ü /Öµ¶ÔµÄ¿É±ä³¤¶ÈµÄ²ÎÊýÁÐ±í£¬Ê¾Àý´úÂëÈçÏÂ£º 

Êä³ö½á¹ûÈçÏÂ£º 

Ã¿¸ö PythonÎÄ¼þ /½Å±¾£¨Ä£¿é£©¶¼ÓÐÒ»Ð©Î´Ã÷È·ÉùÃ÷µÄÄÚ²¿ÊôÐÔ¡£ÆäÖÐÒ»¸öÊôÐÔÊÇ __builtins__ÊôÐÔ£¬Ëü±¾Éí°üº¬Ðí¶àÓÐÓÃµÄÊôÐÔºÍ¹¦ÄÜ£¬ÎÒÃÇ¿ÉÒÔÔÚÕâÀïÕÒµ½ __name__ÊôÐÔ£¬¸ù¾ÝÄ£¿éµÄÊ¹ÓÃ·½Ê½£¬Ëü¿ÉÒÔ¾ßÓÐ²»Í¬µÄÖµ¡£
µ±°Ñ PythonÄ£¿é×÷Îª³ÌÐòÖ±½ÓÔËÐÐÊ±£¨ÎÞÂÛÊÇ´ÓÃüÁîÐÐ»¹ÊÇË«»÷Ëü£©£¬__name__ÖÐ°üº¬µÄÖµ¶¼ÊÇÎÄ×Ö×Ö·û´® "__main__"¡£
Ïà±ÈÖ®ÏÂ£¬µ±Ò»¸öÄ£¿é±»µ¼Èëµ½ÁíÒ»¸öÄ£¿éÖÐ£¨»òÕßÔÚ Python REPL±»µ¼Èë£©Ê±£¬__ name__ÊôÐÔÖÐµÄÖµÊÇÄ£¿é±¾ÉíµÄÃû³Æ£¨¼´ÒþÊ½ÉùÃ÷ËüµÄ PythonÎÄ¼þ /½Å±¾µÄÃû³Æ£©¡£ 
Python½Å±¾Ö´ÐÐµÄ·½Ê½ÊÇ×ÔÉÏ¶øÏÂµÄ£¬Ö¸ÁîÔÚ½âÊÍÆ÷¶ÁÈ¡ËüÃÇÊ±Ö´ÐÐ¡£Õâ¿ÉÄÜÊÇÒ»¸öÎÊÌâ£¬Èç¹ûÄãÏëÒª×öµÄ¾ÍÊÇµ¼ÈëÄ£¿é²¢ÀûÓÃËüµÄÒ»¸ö»òÁ½¸ö·½·¨¡£Äã»áÔõÃ´×ö£¿ÄãÓÐÌõ¼þµØÖ´ÐÐÕâÐ©Ö¸Áî£º½«ËüÃÇ°ü×°ÔÚÒ»¸ö ifÓï¾ä¿éÖÐ¡£
ÕâÊÇ 'mainº¯Êý 'µÄÄ¿µÄ£¬ËüÊÇÒ»¸öÌõ¼þ¿é£¬Òò´Ë³ý·ÇÂú×ã¸ø¶¨µÄÌõ¼þ£¬·ñÔò²»»á´¦Àí mainº¯Êý¡£ 
mainº¯ÊýµÄÊ¾Àý´úÂëÈçÏÂ£º 

ÔÚ PythonÖÐ£¬º¯ÊýÊÇÒ»¼¶¶ÔÏó¡£ÕâÒâÎ¶×Åº¯Êý¾ÍÏñÆäËûÈÎºÎ¶ÔÏóÒ»Ñù£¬¿ÉÒÔ´Óº¯Êý·µ»Øº¯Êý¡£
ÔÚÏÂÃæµÄ³ÌÐòÖÐ£¬ÎÒÃÇ¶¨ÒåÁËÁ½¸öº¯Êý£º function1()ºÍ function2()¡£function1()·µ»Ø function2()×÷Îª·µ»ØÖµ¡£ 

2.11.Ä£¿é
¿ÉÒÔÊ¹ÓÃ importÓï¾äµ¼ÈëÒ»¸ö .pyÎÄ¼þÖÐ¶¨ÒåµÄº¯Êý¡£Ò»¸ö .pyÎÄ¼þ¾Í³ÆÖ®ÎªÒ»¸öÄ£¿é£¨Module£©£¬ÀýÈç´æÔÚÒ»¸ö re.pyÎÄ¼þ¡£¿ÉÒÔÊ¹ÓÃ import reÓï¾äµ¼ÈëÕâ¸öÕýÔò±í´ïÊ½Ä£¿é¡£Ê¹ÓÃÕýÔò±í´ïÊ½Ä£¿éÈ¥µôÒ»Ð©±êµã·ûºÅµÄÊ¾Àý´úÂëÈçÏÂ£º 

´Ó reÄ£¿éÖ±½Óµ¼Èë subº¯ÊýµÄÊ¾Àý´úÂë£º 

Ä£¿éÔ½À´Ô½¶àÒÔºó£¬»áÄÑÒÔ¹ÜÀí£¬ÀýÈç£¬¿ÉÄÜ»á³öÏÖÖØÃûµÄÄ£¿é¡£Ò»¸ö°àÀïÓÐÁ½¸ö½Ð×÷³Â³¿µÄÍ¬Ñ§£¬Èç¹ûËûÃÇÔÚ²»Í¬µÄÐ¡×é£¬¿ÉÒÔ½ÐµÚÒ»×éµÄ³Â³¿»òÕßµÚÈý×éµÄ³Â³¿£¬ÕâÑù¾ÍÄÜÇø·ÖÍ¬ÃûÁË¡£ÎªÁË±ÜÃâÃû×Ö³åÍ»£¬Ä£¿é¿ÉÒÔÎ»ÓÚ²»Í¬µÄÃüÃû¿Õ¼ä£¬½Ð×÷°ü¡£¿ÉÒÔÔÚÄ£¿éÃûÇ°Ãæ¼ÓÉÏ°üÃûÏÞ¶¨£¬ÕâÑù¼´Ê¹Ä£¿éÃûÏàÍ¬£¬Ò²²»»á³åÍ»ÁË¡£ 
Python ÖÐµÄÍâ²¿Ä£¿éÒ²¿ÉÒÔÊ¹ÓÃ°ü¹ÜÀíÆ÷ pipÏÂÔØºÍ°²×°£¬ÀýÈç£¬°²×°Ä£¿é bs4£º 

ÁíÒ»·½Ãæ£¬Ò»Ð©Ä£¿é£¬ÀýÈç MathÄ£¿é£¬²»ÐèÒª°²×°£¬ÎÒÃÇÖ»ÐèÒªÔÚ importºó¼ÓÄ£¿éÃû³Æ¡£
ÎªÁË²é¿´±¾µØÓÐÄÄÐ©Ä£¿é¿ÉÓÃ£¬¿ÉÒÔÔÚ Python½»»¥Ê½»·¾³ÖÐÊäÈë£º 

2.12.¼ì²é×Ö·û´®ÊÇ·ñ°üº¬×Ó×Ö·û´®
¼ì²é Python×Ö·û´®ÊÇ·ñ°üº¬×Ó×Ö·û´®µÄ×î¼òµ¥·½·¨ÊÇÊ¹ÓÃ inÔËËã·û¡£ 
inÔËËã·ûÓÃÓÚÔÚ PythonÖÐ¼ì²éÊý¾Ý½á¹¹µÄ³ÉÔ±Éí·Ý£¬Ëü·µ»Ø²¼¶ûÖµ£¨ True»ò False£©¡£ÒªÊ¹ÓÃ inÔËËã·û¼ì²é×Ö·û´®ÊÇ·ñ°üº¬ PythonÖÐµÄ×Ó×Ö·û´®£¬ÎÒÃÇÖ»ÐèÔÚ³¬×Ö·û´®ÉÏµ÷ÓÃËü£º 

´ËÔËËã·ûÊÇµ÷ÓÃ¶ÔÏóµÄ __contains__·½·¨µÄ¼òÐ´£¬Ò²ÊÊÓÃÓÚ¼ì²éÁÐ±íÖÐÊÇ·ñ´æÔÚÏî¡£ÖµµÃ×¢ÒâµÄÊÇ£¬Ëü²»ÊÇ¿Õ°²È«µÄ£¬Òò´ËÈç¹û fullstringÖ¸Ïò None£¬Ôò»áÅ×³öÒì³££º 

ÎªÁË±ÜÃâÕâÖÖÇé¿ö£¬Ê×ÏÈÒª¼ì²éËüÊÇ·ñÖ¸Ïò None£º 

PythonÖÐµÄ StringÀàÐÍÓÐÒ»¸öÃûÎª index()µÄ·½·¨£¬¿ÉÓÃÓÚ²éÕÒ×Ö·û´®ÖÐ×Ó×Ö·û´®µÚÒ»¸ö³öÏÖµÄÎ»ÖÃ¡£
Èç¹ûÎ´ÕÒµ½×Ó×Ö·û´®£¬½«Òý·¢ ValueErrorÒì³££¬¿ÉÒÔÊ¹ÓÃ try-except else¿éÀ´´¦Àí£º 

except ValueError:
 print("Not found!") 
else:
 print("Found!")
Èç¹ûÐèÒªÖªµÀ×Ó×Ö·û´®µÄÎ»ÖÃ£¬¶ø²»ÊÇÖ»ÖªµÀËüÔÚÕû¸ö×Ö·û´®ÖÐÊÇ·ñ³öÏÖ£¬Ôò´Ë·½·¨·Ç³£ÓÐÓÃ¡£ 
StringÀàÐÍÓÐÁíÒ»¸ö·½·¨ .nd()£¬Ëü±È index()¸ü·½±ãÊ¹ÓÃ£¬ÒòÎªÎÒÃÇ²»ÐèÒªµ£ÐÄ´¦ÀíÈÎºÎÒì³£¡£
Èç¹û .nd()ÕÒ²»µ½Æ¥ÅäÏî£¬Ôò·µ»Ø -1£¬·ñÔò·µ»Ø½Ï´ó×Ö·û´®ÖÐ×Ó×Ö·û´®µÄ×î×ó±ßË÷Òý¡£ 

Èç¹ûÏ£Íû±ÜÃâ²¶»ñ´íÎó£¬ÄÇÃ´¸Ã·½·¨Ó¦¸ÃÓÅÓÚ index()¡£
ÕýÔò±í´ïÊ½Ìá¹©ÁËÒ»ÖÖ¸üÁé»î£¨¾¡¹Ü¸ü¸´ÔÓ£©µÄ·½Ê½À´¼ì²é×Ö·û´®µÄÄ£Ê½Æ¥Åä¡£ Python¸½´øÁËÒ»¸öÓÃÓÚÕýÔò±í´ïÊ½µÄÄÚÖÃÄ£¿é£¬³ÆÎª re¡£reÄ£¿é°üº¬Ò»¸öÃûÎª search()µÄº¯Êý£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃËüÀ´Æ¥Åä×Ó×Ö·û´®Ä£Ê½£º 

Èç¹ûÐèÒª¸ü¸´ÔÓµÄÆ¥Åäº¯Êý£¬Èç²»Çø·Ö´óÐ¡Ð´µÄÆ¥Åä£¬Ôò´Ë·½·¨ÊÇ×îºÃµÄ£¬·ñÔò£¬¶ÔÓÚ¼òµ¥µÄ×Ó×Ö·û´®Æ¥ÅäÓÃÀý£¬Ó¦¸Ã±ÜÃâÕýÔò±í´ïÊ½µÄ¸´ÔÓÐÔºÍ½ÏÂýµÄËÙ¶È¡£ 
2.13.ÃæÏò¶ÔÏó±à³Ì
ÎªÁËÄÜ¹»·â×°Ï¸½Ú£¬ÐèÒª³éÏó³ö¶ÔÏó¡£¶ÔÏóÖ»ÊÇÊý¾Ý£¨±äÁ¿£©ºÍ×÷ÓÃÓÚÕâÐ©Êý¾ÝµÄ·½·¨£¨º¯Êý£©µÄ¼¯ºÏ¡£Àà±¾ÖÊÉÏÊÇÓÃÓÚ´´½¨¶ÔÏóµÄÄ£°å¡£
¾ÍºÃÏñº¯Êý¶¨ÒåÒÔ¹Ø¼ü×Ö def¿ªÍ·Ò»Ñù£¬ÔÚ PythonÖÐ£¬¿ÉÒÔÊ¹ÓÃ¹Ø¼ü×Ö class¶¨ÒåÒ»¸öÀà¡£
ÕâÊÇÒ»¸ö¼òµ¥µÄÀà¶¨Òå¡£ 

Ò»¸öÀà´´½¨Ò»¸öÐÂµÄ±¾µØÃüÃû¿Õ¼ä£¬ÆäÖÐ¶¨ÒåÁËËùÓÐÊôÐÔ¡£ÊôÐÔ¿ÉÒÔÊÇÊý¾Ý»òº¯Êý¡£ÆäÖÐ»¹ÓÐÒ»Ð©ÌØÊâÊôÐÔ£¬ÕâÐ©ÊôÐÔÒÔË«ÏÂ»­Ïß£¨ __£©¿ªÍ·£¬ÀýÈç£¬ __doc__ÎªÎÒÃÇÌá¹©ÁË¸ÃÀàµÄÎÄµµ×Ö·û´®£¬Ê¾Àý´úÂëÈçÏÂ£º 

¿ÉÒÔ¸ù¾ÝÀàÄ£°åÀ´´´½¨¶ÔÏó£¬´´½¨¶ÔÏóµÄ¹ý³ÌÀàËÆÓÚº¯Êýµ÷ÓÃ¡£ 

Õâ½«´´½¨Ò»¸öÃûÎª obµÄÐÂÊµÀý¶ÔÏó¡£ÎÒÃÇ¿ÉÒÔÊ¹ÓÃ¶ÔÏóÃû³ÆÇ°×ºÀ´·ÃÎÊ¶ÔÏóµÄÊôÐÔ¡£ 

Äú¿ÉÄÜÒÑ¾­×¢Òâµ½ÁËÀàÖÐº¯Êý¶¨ÒåµÄ self²ÎÊý£¬µ«ÊÇÎÒÃÇ½«¸Ã·½·¨¼òµ¥µØ³ÆÎª ob.func()¶øÃ»ÓÐÈÎºÎ²ÎÊý£¬ËüÈÔÈ»×àÐ§¡£ÕâÊÇÒòÎª£¬Ö»Òª¶ÔÏóµ÷ÓÃÆä·½·¨£¬¶ÔÏó±¾Éí¾Í×÷ÎªµÚÒ»¸ö²ÎÊý´«µÝ¡£Òò´Ë£¬ob.func()×ª»»Îª MyClass.func(ob)¡£
·½·¨Óë¶ÔÏóÊµÀý»òÀàÏà¹ØÁª£¬º¯ÊýÔò²»ÊÇ¡£µ± Pythonµ÷¶È£¨µ÷ÓÃ£©Ò»¸ö·½·¨Ê±£¬Ëü»á½«¸Ãµ÷ÓÃµÄµÚÒ»¸ö²ÎÊý°ó¶¨µ½ÏàÓ¦µÄ¶ÔÏóÒýÓÃ£¨¶ÔÓÚ´ó¶àÊý·½·¨£¬Õâ¸ö²ÎÊýÍ¨³£³ÆÎª self£©¡£
ÔÚ PythonÖÐ£¬³ýÁËÓÃ»§¶¨ÒåµÄÊôÐÔÍâ£¬Ã¿¸ö¶ÔÏó¶¼ÓÐÒ»Ð©Ä¬ÈÏµÄÊôÐÔºÍ·½·¨¡£Òª²é¿´¶ÔÏóµÄËùÓÐÊôÐÔºÍ·½·¨£¬¿ÉÒÔÊ¹ÓÃÄÚÖÃµÄ dir()º¯Êý¡£Ö´ÐÐÒÔÏÂ½Å±¾¿ÉÒÔ²é¿´ ob¶ÔÏóµÄËùÓÐÊôÐÔ£º 

ÔÚ PythonÖÐ£¬¾²Ì¬±äÁ¿ÊÇÔÚÀàµÄËùÓÐÊµÀýÖ®¼ä¹²ÏíµÄ±äÁ¿£¬¶ø²»ÊÇÃ¿¸öÊµÀýÎ¨Ò»µÄ±äÁ¿£¬ËüÓÐÊ±Ò²±»³ÆÎªÀà±äÁ¿£¬ÒòÎªËüÊôÓÚÀà±¾Éí¶ø²»ÊÇÀàµÄÈÎºÎÌØ¶¨ÊµÀý¡£¾²Ì¬±äÁ¿Í¨³£ÓÃÒ»¸öÖµ³õÊ¼»¯£¬¾ÍÏñÊµÀý±äÁ¿Ò»Ñù£¬µ«ÊÇ¿ÉÒÔÍ¨¹ýÀà±¾Éí¶ø²»ÊÇÍ¨¹ýÊµÀýÀ´·ÃÎÊºÍÐÞ¸ÄËüÃÇ£¬Ê¾Àý´úÂëÈçÏÂ£º 

2.14.·ºÐÍ
·ºÐÍÀàÐÍÔÊÐíÎÒÃÇ¶¨Òå¿ÉÒÔ´¦Àí²»Í¬Êý¾ÝÀàÐÍµÄÀà¡¢º¯Êý»ò·½·¨£¬¶øÎÞÐëÊÂÏÈÖ¸¶¨È·ÇÐµÄÊý¾ÝÀàÐÍ¡£µ±ÎÒÃÇÏëÒª´´½¨Ò»¸ö¿ÉÒÔ´¦Àí¶àÖÖÊý¾ÝÀàÐÍµÄµ¥¸öÊµÏÖÊ±£¬ÕâºÜÓÐÓÃ¡£
ÒªÔÚ PythonÖÐ¶¨Òå·ºÐÍÀàÐÍ£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃÄÚÖÃµÄÄ£¿é typing£¬ËüÎª Python 3.5¼°¸üÐÂ°æ±¾Ìá¹©ÁËÒ»×éÀàÐÍÌáÊ¾¡£ typingÄ£¿é¶¨ÒåÁËÐí¶à·ºÐÍÀàÐÍ£¬Èç List¡¢Tuple¡¢DictºÍ Union£¬ÕâÐ©ÀàÐÍ¿ÉÓÃÓÚ¶¨Òå·ºÐÍº¯Êý¡¢·½·¨ºÍÀà¡£
ÔÚÉú»îÖÐ£¬Ò»°ã°ÑÍ¬Ò»¸öÈÝÆ÷´æ·ÅÍ¬Ò»Àà¶«Î÷£¬ÀýÈç£¬ÃÞÇ©ºÐ×¨ÃÅÓÃÀ´·ÅÃÞÇ©£¬ÌÇ¹ûºÐ×¨ÃÅÓÃÀ´·ÅÌÇ¹û¡£¿ÉÒÔÊ¹ÓÃ·ºÐÍÀ´¼ì²é¼¯ºÏÖÐ´æ´¢µÄÊý¾ÝÀàÐÍ£¬ÀýÈç£¬ List<str>Ö¸¶¨·Å×Ö·û´®¡£
ÔÚÕâ¸ö»ù±¾Ê¾ÀýÖÐ£¬ÎÒÃÇ½«¶¨ÒåÒ»¸ö¿ÉÒÔ´¦Àí²»Í¬ÀàÐÍÁÐ±íµÄ·ºÐÍº¯Êý£º 

# Example usage 
num_lst = [1, 2, 3, 4, 5] str_lst = ['a', 'b', 'c', 'd', 'e'] 
print(reverse_list(num_lst)) print(reverse_list(str_lst))
¶¨ÒåÒ»¸ö¿ÉÒÔÊ¹ÓÃ²»Í¬ÀàÐÍÖµµÄ·ºÐÍÀà£º 
from typing import TypeVar 
T = TypeVar('T') 
class Box:
    def __init__(self, value: T):
 self.value = value
 def get_value(self) -> T:
 return self.value 

# Example usage box1 = Box(10) box2 = Box('Sling Academy') print(box1.get_value()) print(box2.get_value())
´´½¨Ò»¸öÍ¨ÓÃµÄÊý¾Ý´æ´¢¿âÀà£¬¸ÃÀà¿ÉÒÔ´¦Àí²»Í¬µÄÊý¾ÝÀàÐÍ¡£ 
from typing import TypeVar, Generic, List 
T = TypeVar('T') 
class DataRepository(Generic[T]):
    def __init__(self):
 self.data = []
 def add_data(self, item: T) -> None:
 self.data.append(item)

 def remove_data(self, item: T) -> None:
 self.data.remove(item)

 def get_all_data(self) -> List[T]:
 return self.data 

# Example usage 
repo = DataRepository[int]() 
repo.add_data(10) 
repo.add_data(20) 
repo.add_data(30) 

print(repo.get_all_data()) # Output: [10, 20, 30] 
repo.remove_data(20) 
print(repo.get_all_data()) # Output: [10, 30] 
repo2 = DataRepository[str]() 
repo2.add_data('apple') 
repo2.add_data('banana') 
repo2.add_data('orange') 

print(repo2.get_all_data()) # Output: ['apple', 'banana', 'orange'] 
repo2.remove_data('banana') 
print(repo2.get_all_data()) # Output: ['apple', 'orange'] 
DataRepositoryÀàÊ¹ÓÃ·ºÐÍÀàÐÍ TÀ´¶¨Òå´æ´¢¿â¿ÉÒÔ´æ´¢µÄÊý¾ÝÀàÐÍ¡£·ºÐÍÀàÐÍ TÈ·±£Ìí¼Óµ½´æ´¢¿âµÄÊý¾ÝÊÇÕýÈ·µÄÀàÐÍ£¬·ºÐÍ·µ»ØÀàÐÍ List[T]È·±£´Ó´æ´¢¿â¼ìË÷µÄÊý¾ÝÒ²ÊÇÕýÈ·µÄÀàÐÍ¡£ 
2.15.ÈÕÖ¾¼ÇÂ¼
ÍøÂçÅÀ³æµÄÔËÐÐ¹ý³Ì¿ÉÄÜºÜ³¤£¬ÎªÁË¼à¿ØÔËÐÐ×´Ì¬£¬¿ÉÒÔÓÃÈÕÖ¾¼ÇÂ¼¡£ 

ÈÕÖ¾¼¶±ð´óÐ¡¹ØÏµÎª£º CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET£¬
µ±È»Ò²¿ÉÒÔ×Ô¼º¶¨ÒåÈÕÖ¾¼¶±ð¡£´¦ÀíÆ÷½«ÈÕÖ¾¼ÇÂ¼·¢ËÍµ½ÈÎºÎÊä³ö£¬ÕâÐ©Êä³öÓÃ×Ô¼ºµÄ·½Ê½´¦ÀíÈÕÖ¾¼ÇÂ¼¡£ÀýÈç£¬FileHandler»á»ñÈ¡ÈÕÖ¾¼ÇÂ¼²¢½«Æä¸½¼Óµ½ÎÄ¼þÖÐ¡£±ê×¼ÈÕÖ¾¼ÇÂ¼Ä£¿éÒÑ¾­Åä±¸ÁË¶à¸öÄÚÖÃ´¦ÀíÆ÷£¬Èç£º
£¨1£©¿ÉÒÔÐ´ÈëÎÄ¼þµÄ¶à¸öÎÄ¼þ´¦ÀíÆ÷£¨TimeRotated¡¢SizeRotated¡¢Watched£©£»

£¨2£©StreamHandler¿ÉÒÔÊä³öµ½ stdout»ò stderrµÈÁ÷£»

£¨3£©SMTPHandlerÍ¨¹ýµç×ÓÓÊ¼þ·¢ËÍÈÕÖ¾¼ÇÂ¼£»

£¨4£©SocketHandler½«ÈÕÖ¾¼ÇÂ¼·¢ËÍµ½Á÷Ì×½Ó×Ö¡£´ËÍâ£¬»¹ÓÐ SyslogHandler¡¢NTEventHandler¡¢HTTPHandler¡¢MemoryHandlerµÈ´¦ÀíÆ÷¡£


¸ñÊ½Æ÷¸ºÔð½«ÔªÊý¾Ý·á¸»µÄÈÕÖ¾¼ÇÂ¼ÐòÁÐ»¯ÎªÒ»¸ö×Ö·û´®¡£Èç¹ûÃ»ÓÐÌá¹©£¬ÔòÓÐÒ»¸öÄ¬ÈÏ¸ñÊ½Æ÷¡£¼ÇÂ¼¿âÌá¹©µÄÍ¨ÓÃ¸ñÊ½Æ÷Àà½«Ä£°åºÍÑùÊ½×÷ÎªÊäÈë£¬È»ºó¿ÉÒÔÎªÈÕÖ¾¼ÇÂ¼¶ÔÏóÖÐµÄËùÓÐÊôÐÔÉùÃ÷Õ¼Î»·û¡£
¾Ù¸öÀý×Ó£¬'%(asctime)s %(levelname)s %(name)s: %(message)s'»áÉú³ÉÀàËÆÕâÑùµÄÈÕÖ¾£º 2017-07-19 15:31:13,942 INFO parent.child: Hello EuroPython¡£Çë×¢Òâ£¬ÊôÐÔÏûÏ¢ÊÇÊ¹ÓÃÌá¹©µÄ²ÎÊý¶ÔÈÕÖ¾µÄÔ­Ê¼Ä£°å½øÐÐ²åÖµµÄ½á¹û£¬ÀýÈç£¬¶ÔÓÚ 
logger.info("Hello %s", "Laszlo")£¬ÏûÏ¢½«ÊÇ "Hello Laszlo"¡£ TestStreamHandler.pyÖÐµÄÊ¾Àý´úÂëÈçÏÂ£º 

Êä³ö£º 

2.16.Êý¾Ý¿â 
Python±à³ÌÓïÑÔ¾ßÓÐÇ¿´óµÄÊý¾Ý¿â±à³Ì¹¦ÄÜ¡£ PythonÖ§³Ö¸÷ÖÖÊý¾Ý¿â£¬Èç SQLite¡¢ MySQL¡¢Oracle¡¢Sybase¡¢PostgreSQLµÈ¡£Êý¾Ý¿â½Ó¿ÚµÄ Python±ê×¼ÊÇ Python DB-API£¬´ó¶àÊý PythonÊý¾Ý¿â½Ó¿Ú¶¼×ñÑ­Õâ¸ö±ê×¼¡£ 
Python DB-API°üÀ¨µÄ·½·¨ÈçÏÂ¡£
£¨1£©module.connect()£ºÁ¬½Óµ½Êý¾Ý¿â£¬ÒªÁ¬½ÓµÄ²ÎÊýÒòÄ£¿é¶øÒì¡£ connect()·½·¨·µ»Ø Connection¶ÔÏó»òÒý·¢Òì³£¡£

£¨2£©Connection.cursor()£º´ÓÁ¬½ÓÉú³ÉÓÎ±ê¶ÔÏó¡£ÓÎ±êÓÃÓÚ½« SQLÓï¾ä·¢ËÍµ½Êý¾Ý¿â²¢»ñÈ¡½á¹û¡£


£¨3£©Connection.commit()£ºÌá½»µ±Ç°Á¬½ÓÖÐËù×öµÄ¸ü¸Ä¡£Èç¹ûÒª±£´æ¸ü¸Ä£¨Èç²åÈë¡¢
¸üÐÂ»òÉ¾³ý£©£¬±ØÐëÔÚ¹Ø±ÕÁ¬½ÓÖ®Ç°µ÷ÓÃ commit()¡£Î´Ìá½»µÄ¸ü¸Ä´Óµ±Ç°Á¬½ÓÖÐ¿É¼û£¬µ«´ÓÆäËûÁ¬½ÓÖÐ¿´²»µ½¡£
£¨4£©Connection.rollback()£º»Ø¹ö£¨³·Ïú£©µ±Ç°Á¬½ÓÖÐËù×öµÄ¸ü¸Ä¡£Èç¹ûÓöµ½Òì³£Ê±Òª¼ÌÐøÊ¹ÓÃÍ¬Ò»Á¬½Ó£¬Ôò±ØÐë»Ø¹ö¡£

£¨5£©Connection.close()£º¹Ø±ÕÁ¬½Ó¡£µ±³ÌÐòÍË³öÊ±£¬Á¬½Ó×ÜÊÇÒþÊ½¹Ø±ÕµÄ£¬µ«ÊÖ¶¯¹Ø±ÕÁ¬½ÓÊÇ¸öºÃÖ÷Òâ£¬ÓÈÆäÊÇµ±´úÂë¿ÉÄÜÔÚÑ­»·ÖÐÔËÐÐÊ±¡£

£¨6£©Cursor.execute(statement)£º¶ÔÊý¾Ý¿âÖ´ÐÐ SQLÓï¾ä¡£

£¨7£©Cursor.execute(statement, tuple)£º¶ÔÊý¾Ý¿âÖ´ÐÐ SQLÓï¾ä¡£Èç¹ûÒª½«±äÁ¿Ìæ»»µ½ SQLÓï¾äÖÐ£¬ÇëÊ¹ÓÃÕâÖÖÐÎÊ½¡£

£¨8£©Cursor.fetchall()£º´Óµ±Ç°Óï¾ä»ñÈ¡ËùÓÐ½á¹û¡£

£¨9£©Cursor.fetchone()£ºÖ»»ñÈ¡Ò»¸ö½á¹û£¬·µ»ØÔª×é£¬Èç¹ûÃ»ÓÐ½á¹û£¬Ôò·µ»Ø None¡£ SQLAlchemyÊÇÒ»¸ö¿ª·ÅÔ´ÂëµÄ SQL¹¤¾ß°üºÍ¶ÔÏó¹ØÏµÓ³ÉäÆ÷¡£ÎªÁËÓëÊý¾Ý¿â½»»¥£¬ÎÒÃÇÐèÒª»ñµÃËüµÄ¾ä±ú¡£ session¶ÔÏóÊÇÊý¾Ý¿âµÄ¾ä±ú¡£ session




ÀàÊÇÊ¹ÓÃ sessionmaker()¶¨ÒåµÄ£¬ÕâÊÇÒ»¸ö¿ÉÅäÖÃµÄ session¹¤³§·½·¨£¬Ëü°ó¶¨µ½Ç°Ãæ´´½¨µÄÒýÇæ¶ÔÏó£¬Ê¾Àý´úÂëÈçÏÂ£º 


2.17.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁËÊ¹ÓÃ Python¿ª·¢ÍøÂçÅÀ³æËùÐèÒªµÄ Python»ù´¡¡£ 
PythonÓÚ 20ÊÀ¼Í 80Äê´úºóÆÚÓÉºÉÀ¼µÄ Guido van RossumÉè¼Æ£¬×÷Îª ABCÓïÑÔµÄ¼Ì³ÐÕß£¬ÄÜ¹»´¦ÀíÒì³£²¢Óë°¢Ã×°Í²Ù×÷ÏµÍ³Á¬½Ó¡£Python 2.0ÓÚ 2000Äê 10ÔÂ 16ÈÕ·¢²¼£¬¾ßÓÐÐí¶àÖ÷ÒªµÄÐÂ¹¦ÄÜ£¬°üÀ¨Ñ­»·¼ì²âÀ¬»øÊÕ¼¯Æ÷ºÍ¶Ô UnicodeµÄÖ§³Ö¡£ Python 3.0ÓÚ 2008Äê 12ÔÂ 3ÈÕ·¢²¼£¬ËüÊÇ¸ÃÓïÑÔµÄÒ»¸öÖØÒªÐÞ¶©£¬²¢·ÇÍêÈ«Ïòºó¼æÈÝ£¬ËüµÄÐí¶àÖ÷Òª¹¦ÄÜ¶¼±»·´ÏòÒÆÖ²µ½ Python 2.6.xºÍ Python 2.7.x°æ±¾ÏµÁÐ¡£Python 3µÄ·¢²¼°üÀ¨ 2to3ÊµÓÃ³ÌÐò£¬Ëü¿ÉÒÔ×Ô¶¯£¨ÖÁÉÙ²¿·ÖµØ£©½« Python 2µÄ´úÂë×ª»»Îª Python 3¡£ 
PythonÊÇÒ»ÖÖ¶à·¶Ê½±à³ÌÓïÑÔ¡£ PythonÍêÈ«Ö§³ÖÃæÏò¶ÔÏóµÄ±à³ÌºÍ½á¹¹»¯±à³Ì£¬ÆäÐí¶à¹¦ÄÜÖ§³Öº¯Êý±à³ÌºÍÃæÏòÇÐÃæ±à³Ì¡£ 
Monty PythonÒýÓÃ¾­³£³öÏÖÔÚ PythonµÄ´úÂëºÍÎÄ»¯ÖÐ£¬ÀýÈç£¬ PythonÖÐ¾­³£Ê¹ÓÃµÄÎ±±äÁ¿ÊÇ spamºÍ eggs£¬¶ø²»ÊÇ´«Í³µÄ fooºÍ bar¡£



µÚ 3ÕÂ.Ê¹ÓÃ Python¿ª·¢ÍøÂçÅÀ³æ
²É¹ºÈËÔ±ÐèÒªÕÒµ½Ìá¹©²úÆ·µÄÓÐ¾ºÕùÁ¦µÄ³§¼ÒºÍ¼Û¸ñ£¬½ðÈÚ½»Ò×ÈËÔ±ÐèÒªÕÒµ½ÓÐÇ±Á¦µÄÍ¶×Ê¹«Ë¾£¬³ö°æÐÐÒµÈËÊ¿ÐèÒªÕÒµ½Ñ¸ËÙ±äÈÈµÄ»°Ìâ£¬ÕâÐ©¶¼¿ÉÒÔÊ¹ÓÃÍøÂçÅÀ³æ°ïÃ¦ÊµÏÖ¡£
ÍøÂçÅÀ³æ´Ó»¥ÁªÍøÔ´Ô´²»¶ÏµØ×¥È¡º£Á¿ÐÅÏ¢£¬ËÑË÷ÒýÇæ½á¹ûÖÐµÄÐÅÏ¢¶¼À´Ô´ÓÚ´Ë¡£Èç¹û°Ñ»¥ÁªÍø±ÈÓ÷³ÉÒ»¸ö¸²¸ÇµØÇòµÄÖ©ÖëÍø£¬ÄÇÃ´×¥È¡³ÌÐò¾ÍÊÇÔÚÍøÉÏÅÀÀ´ÅÀÈ¥µÄÖ©Öë¡£
ÍøÂçÅÀ³æÅÀÈ¡µ½µÄÊÇÍøÒ³µÄÔ´ÎÄ¼þ£¬¼´ HTML´úÂë£¬×¥µ½Ö®ºóÊÇ´ÓÕâ¸öÔ´ÂëÀïÃæÌáÈ¡ÐÅÏ¢¡£
ÐèÒª×¥È¡ÄÄÐ©ÐÅÏ¢ÄØ£¿Ó¦µ±Ê×ÏÈ¹Ø×¢Ò»Ð©¸ßÖÊÁ¿µÄÍøÒ³ÐÅÏ¢¡£ÄÄÐ©ÊÇ¸ßÖÊÁ¿µÄÍøÒ³ÄØ£¿ÍøÃñÍ¶Æ±Ñ¡Ôñ³öÀ´µÄÍøÒ³£¬Ò²¾ÍÊÇ·ÃÎÊÁ¿¸ßµÄÍøÕ¾ÖÐµÄÒ»Ð©ÈÈÃÅÍøÒ³¡£µ«ÊÇ³ßÓÐËù¶Ì£¬´çÓÐËù³¤£¬ºÜ¶à·ÃÎÊÁ¿Ò»°ãµÄÍøÕ¾°üÀ¨ÁË¸ü¶àÎÊÌâµÄ´ð°¸£¬ÓÐµãÀàËÆ³¤Î²Ð§Òæ¡£ Alexa£¨http://www.alexa.com£©×¨ÃÅÍ³¼ÆÍøÕ¾·ÃÎÊÁ¿²¢·¢²¼ÍøÕ¾ÊÀ½çÅÅÃû¡£
ÓÐÐ©ÎÄµµµÄÊ±Ð§ÐÔºÜÇ¿£¬ÀýÈçÐÂÎÅ»òÕß²Æ¾­ÐÅÏ¢¡£´ó²¿·ÖÈËÏëÒªÖªµÀµÄÊÇµ±Ìì¹ÉÆ±ÊÐ³¡µÄ±¨µÀ£¬Ö»ÓÐºÜÉÙÈË¹ØÐÄ×òÌìµÄÊÐ³¡·¢ÉúÁËÊ²Ã´¡£
ÍøÂçÅÀ³æÐèÒªÊµÏÖµÄ»ù±¾¹¦ÄÜ°üÀ¨ÏÂÔØÍøÒ³ÒÔ¼°¶Ô URLµØÖ·µÄ±éÀú¡£ÎªÁË¸ßÐ§¿ìËÙ±éÀúÍøÕ¾»¹ÐèÒªÓ¦ÓÃ×¨ÃÅµÄÊý¾Ý½á¹¹À´ÓÅ»¯¡£ÅÀ³æºÜÏûºÄ´ø¿í×ÊÔ´£¬Éè¼ÆÅÀ³æÊ±ÐèÒª×ÐÏ¸¿¼ÂÇÈçºÎ½ÚÊ¡ÍøÂç´ø¿í¡£ 
3.1.Ê¹ÓÃ BeautifulSoupÊµÏÖ¶¨Ïò²É¼¯
°²×°ËùÐèµÄµÚÈý·½¿â£º 

´ÓÍøÖ··ÃÎÊ HTMLÄÚÈÝ£º ÈÃÎÒÃÇÊÔ×ÅÀí½âÕâ¶Î´úÂë¡£

£¨1£©Ê×ÏÈµ¼Èë requests¿â¡£

£¨2£©È»ºó£¬Ö¸¶¨Òª×¥È¡µÄÍøÒ³µÄ URL¡£


£¨3£©ÏòÖ¸¶¨µÄ URL·¢ËÍ HTTPÇëÇó£¬²¢½«À´×Ô·þÎñÆ÷µÄÏìÓ¦±£´æÔÚÃûÎª rµÄÏìÓ¦¶ÔÏóÖÐ¡£
£¨4£©ÏÖÔÚ£¬Í¨¹ý print£¨r.content£©À´»ñÈ¡ÍøÒ³µÄÔ­Ê¼ HTMLÄÚÈÝ£¬ËüÊÇ×Ö·û´®ÀàÐÍ¡£ÓÐÊ±¿ÉÄÜ»áÊÕµ½¡°²»½ÓÊÜ¡±´íÎó£¬ÕâÊ±Çë³¢ÊÔÌí¼ÓÈçÏÂä¯ÀÀÆ÷ÓÃ»§´úÀí¡£ 

½âÎö HTMLÄÚÈÝ£º 

BeautifulSoup¿âµÄÒ»¸ö·Ç³£ºÃµÄµØ·½ÊÇËü¹¹½¨ÔÚ HTML½âÎö¿â£¨Èç html5lib¡¢lxml¡¢ html.parserµÈ£©Ö®ÉÏ£¬Òò´Ë¿ÉÒÔÍ¬Ê±´´½¨ BeautifulSoup¶ÔÏóºÍÖ¸¶¨½âÎöÆ÷¿â¡£ÔÚÉÏÃæµÄÀý×ÓÖÐ£¬ 

ÎÒÃÇÍ¨¹ý´«µÝÁ½¸ö²ÎÊýÀ´´´½¨Ò»¸ö BeautifulSoup¶ÔÏó¡£
£¨1£©r.content £ºËüÊÇÔ­Ê¼ HTMLÄÚÈÝ¡£

£¨2£©html5lib £ºÖ¸¶¨ÎÒÃÇÒªÊ¹ÓÃµÄ HTML½âÎöÆ÷¡£ÏÖÔÚ soup.prettify()±»´òÓ¡³öÀ´ÁË£¬Ëü¸ø³öÁË´ÓÔ­Ê¼ HTMLÄÚÈÝ´´½¨µÄ½âÎöÊ÷µÄ¿ÉÊÓ


»¯±íÊ¾¡£ÏÖÔÚ£¬ÎÒÃÇÏë´Ó HTMLÄÚÈÝÖÐÌáÈ¡Ò»Ð©ÓÐÓÃµÄÊý¾Ý¡£ soup¶ÔÏó°üº¬Ç¶Ì×½á¹¹ÖÐµÄËùÓÐÊý¾Ý£¬ÕâÐ©Êý¾Ý¿ÉÒÔÍ¨¹ý±à³Ì·½Ê½ÌáÈ¡¡£ÔÚÎÒÃÇµÄÊ¾ÀýÖÐ£¬ÕýÔÚ×¥È¡Ò»¸ö°üº¬Ò»Ð©ÃûÑÔµÄÍøÒ³£¬Òò´Ë£¬ÎÒÃÇÏë´´½¨Ò»¸ö³ÌÐòÀ´±£´æÕâÐ©ÃûÑÔ£¨ÒÔ¼°ÓÐ¹ØËüÃÇµÄËùÓÐÏà¹ØÐÅÏ¢£©¡£ 

ÔÚ¼ÌÐøÖ®Ç°£¬½¨Òéä¯ÀÀÎÒÃÇÊ¹ÓÃ soup.prettify()·½·¨´òÓ¡µÄÍøÒ³µÄ HTMLÄÚÈÝ£¬²¢³¢ÊÔÕÒµ½µ¼º½µ½ÃûÑÔµÄÄ£Ê½»ò·½·¨¡£
×¢Òâµ½ËùÓÐµÄÃûÑÔ¶¼ÔÚÒ»¸ö idÎª¡®all_quotes¡¯µÄ divÈÝÆ÷ÖÐ£¬Òò´Ë£¬ÎÒÃÇÊ¹ÓÃ .nd()·½·¨ÕÒµ½¸Ã divÔªËØ£¨ÔÚÉÏÃæµÄ´úÂëÖÐ³ÆÎª table£©£º 

µÚÒ»¸ö²ÎÊýÊÇÄúÒªËÑË÷µÄ HTML±ê¼Ç£»µÚ¶þ¸ö²ÎÊýÊÇ×ÖµäÀàÐÍÔªËØ£¬ÓÃÓÚÖ¸¶¨Óë¸Ã
±ê¼Ç¹ØÁªµÄ¸½¼ÓÊôÐÔ¡£ .nd()·½·¨·µ»ØµÚÒ»¸öÆ¥ÅäµÄÔªËØ¡£Äú¿ÉÒÔ³¢ÊÔ´òÓ¡ table.prettify()ÒÔÁË½âÕâ¶Î´úÂëµÄ×÷ÓÃ¡£
ÏÖÔÚ£¬ÔÚ±í¸ñÔªËØÖÐ£¬¿ÉÒÔ×¢Òâµ½Ã¿¸öÃûÑÔ¶¼ÔÚÒ»¸öÀàµÄ divÈÝÆ÷ÖÐ£¬Òò´Ë£¬ÎÒÃÇ±éÀúÃ¿¸öÀàÎª quoteµÄ divÈÝÆ÷¡£ÔÚÕâÀï£¬ÎÒÃÇÊ¹ÓÃ .ndAll()·½·¨£¬ËüÔÚ²ÎÊý·½ÃæÀàËÆÓÚ .nd()·½·¨£¬µ«Ëü·µ»ØËùÓÐÆ¥ÅäÔªËØµÄÁÐ±í¡£ÏÖÔÚ£¬Ã¿¸öÃûÑÔ¶¼Ê¹ÓÃÃûÎª rowµÄ±äÁ¿½øÐÐµü´ú¡£
ÎÒÃÇ´´½¨Ò»¸ö×ÖµäÀ´±£´æÓÐ¹ØÃûÑÔµÄËùÓÐÐÅÏ¢£¬¿ÉÒÔÊ¹ÓÃµã±íÊ¾·¨·ÃÎÊÇ¶Ì×½á¹¹¡£Òª·ÃÎÊ HTMLÔªËØÖÐµÄÎÄ±¾£¬ÎÒÃÇÊ¹ÓÃ .textÎÄ¼þ£º 

ÎÒÃÇ¿ÉÒÔÌí¼Ó¡¢É¾³ý¡¢ÐÞ¸ÄºÍ·ÃÎÊ±êÇ©µÄÊôÐÔ£¬ÕâÊÇÍ¨¹ý½«±êÇ©ÊÓÎª×ÖµäÀ´Íê³ÉµÄ£º 

È»ºó£¬ËùÓÐÃûÑÔ¶¼¸½¼Óµ½ÃûÎª quotesµÄÁÐ±íÖÐ¡£
×îºó£¬ÎÒÃÇÏ£Íû½«ËùÓÐÊý¾Ý±£´æÔÚÄ³¸ö CSVÎÄ¼þÖÐ¡£ 

ÔÚÕâÀï£¬ÎÒÃÇ´´½¨ÁËÒ»¸ö CSVÎÄ¼þ£¬ÃûÎª inspirational_quotes.csv£¬²¢½«ËùÓÐÃûÑÔ±£´æÔÚÆäÖÐÒÔ¹©½øÒ»²½Ê¹ÓÃ¡£
Õâ¾ÍÊÇÒ»¸öÈçºÎÔÚ Python ÖÐ´´½¨ÍøÂçÅÀ³æµÄ¼òµ¥Ê¾Àý¡£´ÓÕâÀï£¬Äú¿ÉÒÔ³¢ÊÔ×¥È¡ÄúÑ¡ÔñµÄÈÎºÎÍøÕ¾¡£ 
3.2.URL»ù´¡
ÍøÂç×ÊÔ´Ò»°ãÊÇ Web·þÎñÆ÷ÉÏµÄÒ»Ð©¸÷ÖÖ¸ñÊ½µÄÎÄ¼þ£¬Í¨¹ý URL¿ÉÒÔÕÒµ½ÕâÐ©ÍøÂç×ÊÔ´¡£URL¾ÍÊÇÍøÂç×ÊÔ´µØÖ·µÄËõÐ´¡£
ËùÎ½ÍøÒ³×¥È¡£¬¾ÍÊÇ°Ñ URLµØÖ·ÖÐÖ¸¶¨µÄÍøÂç×ÊÔ´´ÓÍøÂçÁ÷ÖÐ¶ÁÈ¡³öÀ´£¬±£´æµ½±¾µØ£¬ÀàËÆÓÚÊ¹ÓÃ³ÌÐòÄ£ÄâÍøÒ³ä¯ÀÀÆ÷µÄ¹¦ÄÜ¡£ÔÚ HTTPÇëÇóÖÐËµÃ÷ÒªÄÄ¸ö URL£¬È»ºó¶ÁÈ¡·þÎñÆ÷¶Ë·µ»ØµÄ×ÊÔ´ÄÚÈÝ¡£
3.2.1.URI 
URI°üÀ¨ URLºÍ URN£¬µ«ÊÇ URNÃ»ÓÐÁ÷ÐÐÆðÀ´£¬Ö»ÐèÒªÖªµÀ URLÊÇ URIµÄÒ»ÖÖ¾Í¿ÉÒÔ¡£URLÊÇ Uniform Resource LocatorµÄËõÐ´£¬ÒëÎª¡°Í³Ò»×ÊÔ´¶¨Î»·û¡±¡£Í¨Ë×µØËµ£¬ URLÊÇ InternetÉÏÃèÊöÐÅÏ¢×ÊÔ´µÄ×Ö·û´®£¬Ö÷ÒªÓÃÔÚ¸÷ÖÖ WWW¿Í»§³ÌÐòºÍ·þÎñÆ÷³ÌÐòÉÏ¡£²ÉÓÃ URL¿ÉÒÔÓÃÒ»ÖÖÍ³Ò»µÄ¸ñÊ½À´ÃèÊö¸÷ÖÖÐÅÏ¢×ÊÔ´£¬°üÀ¨ÎÄ¼þ¡¢·þÎñÆ÷µÄµØÖ·ºÍÄ¿Â¼µÈ¡£ 
URLÓÉÐ­ÒéÃû¡¢Ö÷»úÃûºÍ×ÊÔ´Â·¾¶ 3²¿·Ö×é³É£¬Ò»¸ö¾ßÌåµÄÊ¾ÀýÈçÍ¼ 3-1ËùÊ¾¡£ 

https://pynecone.io/docs/getting-started/introduction
httpspynecone.io/docs/getting-started/introduction
Ð­ÒéÃû Ö÷»úÃû ×ÊÔ´Â·¾¶ 
Í¼ 3-1 URL·ÖÎªÈý²¿·Ö
Ð­ÒéÒ²³ÆÎª·þÎñ·½Ê½¡£Ö÷»úÃûÒ²¿ÉÒÔÓÃÖ÷»ú IPµØÖ·´úÌæ£¬Èç¹û·ÃÎÊÕßÄÜ¼Ç×¡µÄ»°¡£ÓÐÊ±Ò²°üÀ¨¶Ë¿ÚºÅ£¬Èç
¹ûÕâ¸ö¶Ë¿ÚºÅ·ÃÎÊÕßÒ²ÄÜ¼Ç×¡µÄ»°¡£×ÊÔ´Â·¾¶ÊÇÖ÷»ú×ÊÔ´µÄ¾ßÌåµØÖ·£¬ÈçÄ¿Â¼ºÍÎÄ¼þÃûµÈ¡£Ð­ÒéÃûºÍÖ÷»úÃûÖ®¼äÓÃ¡°://¡±·ûºÅ¸ô¿ª£¬Ö÷»úÃûºÍ×ÊÔ´Â·¾¶ÓÃ¡°/¡±·ûºÅ¸ô¿ª¡£Ð­ÒéÃû
ºÍÖ÷»úÃûÊÇ²»¿ÉÈ±ÉÙµÄ£¬×ÊÔ´Â·¾¶Èç¹ûÕýºÃÊÇ·ÃÎÊ¸ùÂ·¾¶ÏÂµÄÈ±Ê¡×ÊÔ´ÔòÓÐÊ±¿ÉÒÔÊ¡ÂÔ¡£ÀýÈç£º http://bj.cityhouse.cn/street/hd/onedistlist.html£¬ÆäÖ÷»úÓòÃûÎª bj.cityhouse.cn¡£³¬¼¶ÎÄ±¾ÎÄ¼þ£¨ÎÄ¼þÀàÐÍÎª .html£©ÊÇÔÚÄ¿Â¼ street/hdÏÂµÄ onedistlist.htmlÖÐ¡£¸ù¾ÝÍøÖ·Éú³ÉÒ»¸ö¶ÔÓ¦µÄ URI¶ÔÏó£º 


3.2.2.½âÎöÏà¶ÔµØÖ·
ÔÚ WindowsµÄ¿ØÖÆÌ¨´°¿ÚÖÐ£¬¿ÉÒÔ¸ù¾Ýµ±Ç°Â·¾¶µÄÏà¶ÔÂ·¾¶×ªÒÆµ½Ò»¸öÂ·¾¶£¬ÀýÈç cd ..×ªÒÆµ½µ±Ç°Â·¾¶µÄÉÏ¼¶Â·¾¶¡£ÔÚ HTMLÍøÒ³ÖÐÒ²¾­³£Ê¹ÓÃÏà¶Ô URL¡£
¾ø¶Ô URL¾ÍÊÇ²»ÒÀÀµÆäËûµÄ URLÂ·¾¶£¬ÀýÈç£º "https://stackover.ow.com/questions/ 3764291"¡£ÔÚÒ»¶¨µÄÉÏÏÂÎÄ»·¾³ÏÂ¿ÉÒÔÊ¹ÓÃÏà¶Ô URL¡£ÍøÒ³ÖÐµÄ URLµØÖ·¿ÉÄÜÊÇÏà¶ÔµØÖ·£¬ÀýÈç£º"./index.html"¡£¿ÉÒÔÔÚ < A>ºÍ <img>±êÇ©ÖÐÊ¹ÓÃÏà¶Ô URL£¬ÀýÈç£º

¿ÉÒÔ¸ù¾ÝËùÔÚÍøÒ³µÄ¾ø¶Ô URLµØÖ·£¬°ÑÏà¶ÔµØÖ·×ª»»Îª¾ø¶ÔµØÖ·¡£ÎªÁËÁé»îµØÒýÓÃÍøÕ¾ÄÚ²¿×ÊÔ´£¬Ïà¶ÔÂ·¾¶ÔÚÍøÒ³ÖÐºÜ³£¼û¡£ÅÀ³æÎªÁËºóÐø´¦Àí·½±ã£¬ÐèÒª°ÑÏà¶ÔµØÖ·×ª»»Îª¾ø¶ÔµØÖ·¡£ÏÂÃæµÄ´úÂë°ÑÏà¶ÔµØÖ·×ª»»³É¾ø¶ÔµØÖ·£º 


3.2.3.DNS½âÎö 
dig£¨domain information groper£©ÊÇÒ»¸öÀà UNIXÍøÂç¹ÜÀíÃüÁîÐÐ¹¤¾ß£¬ÓÃÓÚ²éÑ¯ÓòÃûÏµÍ³£¨DNS£©·þÎñÆ÷¡£ 

ÔÚÈÎºÎ DNS ¼ÇÂ¼ÎÄ¼þ£¨ Domain Name System (DNS) Zone .le£©ÖÐ£¬¶¼ÊÇÒÔ SOA£¨Start of Authority£©¼ÇÂ¼¿ªÊ¼µÄ¡£SOA×ÊÔ´¼ÇÂ¼±íÃ÷´Ë DNS Ãû³Æ·þÎñÆ÷ÊÇ¸Ã DNS ÓòÖÐµÄÊý¾ÝµÄÐÅÏ¢µÄ×î¼ÑÀ´Ô´¡£
Ê¹ÓÃ digÃüÁîÏÔÊ¾ SOA£º 

DNSÖ÷ÒªÊ¹ÓÃÓÃ»§Êý¾Ý±¨Ð­Òé¡£ÓÃ»§Êý¾Ý±¨Ð­Òé¼ò³Æ UDP£¨User Datagram Protocol£©£¬Ê¹ÓÃ¶Ë¿Ú 53·þÎñÇëÇó¡£ DNS²éÑ¯ÓÉÒ»¸öµ¥Ò»µÄÀ´Ô´ÓÚ¿Í»§¶ËµÄ UDPÇëÇóºÍÒ»¸ö·þÎñÆ÷·µ»ØµÄ UDP´ð¸´×é³É¡£µ±ÏìÓ¦Êý¾Ý³¬¹ý 512×Ö½ÚÊ±£¬Ê¹ÓÃ TCP¡£ÓÐÐ©½âÎöÆ÷ÊµÏÖ¶ÔËùÓÐµÄ²éÑ¯¶¼Ê¹ÓÃ TCP¡£
ÔÚ WindowsÏÂ DNS½âÎöµÄÎÊÌâ¿ÉÒÔÓÃ nslookupÃüÁîÀ´·ÖÎö£¬ÀýÈç£º 

Èç¹ûÏëÒªÔÚ WindowsÏÂÊ¹ÓÃ digÃüÁî£¬Ôò¿ÉÒÔÏÈ°²×° bind-toolsonly°ü¡£ 

¸ù¾Ý·þÎñÆ÷Ãû³ÆÈ¡µÃ IPµØÖ·µÄ´úÂëÈçÏÂ¡£ 

3.3.ÍøÂçÅÀ³æ×¥È¡Ô­Àí
¼ÈÈ»ËùÓÐµÄÍøÒ³¶¼¿ÉÄÜÁ´½Óµ½ÆäËûµÄÍøÕ¾£¬ÄÇÃ´´ÓÒ»¸öÍøÕ¾¿ªÊ¼£¬¸ú×ÙËùÓÐÍøÒ³ÉÏµÄËùÓÐÁ´½Ó£¬¾Í¿ÉÄÜ±éÀúÕû¸ö»¥ÁªÍø¡£
ÎªÁË¸ü¿ìµØ×¥È¡ÏëÒªµÄÐÅÏ¢£¬ÍøÒ³×¥È¡Ê×ÏÈ´ÓÒ»¸öÒÑÖªµÄ URLµØÖ·ÁÐ±í¿ªÊ¼±éÀú£¬¶Ô´¹Ö±ËÑË÷À´Ëµ£¬Ò»°ãÊÇ»ýÀÛµÄÐÐÒµÄÚµÄÍøÕ¾¡£ÓÐÈË¿ÉÄÜ»áÆæ¹ÖÏñ Google»ò°Ù¶ÈÕâÑùµÄËÑË÷ÃÅ»§ÔõÃ´ÉèÖÃÕâ¸ö³õÊ¼µÄ URLµØÖ·ÁÐ±í¡£Ò»°ãÀ´Ëµ£¬ÍøÕ¾ÓµÓÐÕß»á°ÑÍøÕ¾Ìá½»¸ø·ÖÀàÄ¿Â¼£¬ÀýÈç dmoz£¨https://www.dmoz-odp.org/£©£¬ÅÀ³æÔò¿ÉÒÔ´Ó¿ª·ÅÊ½·ÖÀàÄ¿Â¼ dmozÖÐ×¥È¡¡£
×¥È¡ÏÂÀ´µÄÍøÒ³ÖÐ°üº¬ÁËÏëÒªµÄÐÅÏ¢£¬Ò»°ã´æ·ÅÔÚÊý¾Ý¿â»òË÷Òý¿âÕâÑùµÄ×¨ÃÅµÄ´æ´¢ÏµÍ³ÖÐ£¬ÈçÍ¼ 3-2ËùÊ¾¡£

³õÊ¼URLµØÖ·ÁÐ±í
ÐÂ½âÎö³öµÄ URL
½âÎöÍø

Í¼ 3-2 ÅÀ³æ»ù±¾½á¹¹Í¼
ÔÚËÑË÷ÒýÇæÖÐ£¬ÅÀ³æ³ÌÐòÊÇ´ÓÒ»ÏµÁÐÖÖ×ÓÁ´½Ó°ÑÕâÐ©³õÊ¼µÄÍøÒ³ÖÐµÄ URLÌáÈ¡³öÀ´£¬·ÅÈë URL¹¤×÷¶ÓÁÐ£¨ Todo¶ÓÁÐ£¬ÓÖ½Ð×÷ Frontier£©£¬È»ºó±éÀúËùÓÐ¹¤×÷¶ÓÁÐÖÐµÄ URL£¬ÏÂÔØÍøÒ³²¢°ÑÆäÖÐÐÂ·¢ÏÖµÄ URLÔÙ´Î·ÅÈë¹¤×÷¶ÓÁÐ¡£ÎªÁËÅÐ¶ÏÒ»¸ö URLÊÇ·ñÒÑ¾­±éÀú¹ý£¬°ÑËùÓÐ±éÀú¹ýµÄ URL·ÅÈëÀúÊ·±í£¨Visited±í£©¡£ÅÀ³æ×¥È¡µÄ»ù±¾¹ý³ÌÈçÍ¼ 3-3ËùÊ¾¡£
.. URL ..
.. URL 

Visited. 
..... URL 
Í¼ 3-3 ÍøÒ³±éÀúÁ÷³ÌÍ¼
CrawlerÀàµÄ Crawling·½·¨Ö´ÐÐ×¥È¡¹ý³Ì£¬CrawlerÀàµÄÖ÷ÒªÊµÏÖ´úÂëÈçÏÂ¡£ 
import logging from urllib.parse import urljoin import requests 
from bs4 import BeautifulSoup 
from collections import deque 
logging.basicConfig( format='%(asctime)s %(levelname)s:%(message)s',
 level=logging.INFO) 
class Crawler:
    def __init__(self, urls=deque()):
 self.visited_urls = set()
 self.urls_to_visit = urls

 def download_url(self, url):
 return requests.get(url).text
 def get_linked_urls(self, url, html):
 soup = BeautifulSoup(html, 'html.parser')
 for link in soup.find_all('a'):

 path = link.get('href')
 if path and path.startswith('/'):

 path = urljoin(url, path)
 yield path
 def add_url_to_visit(self, url):
 if url not in self.visited_urls and url not in self.urls_to_visit: self.urls_to_visit.append(url)
 def crawl(self, url):
 html = self.download_url(url)
 for url in self.get_linked_urls(url, html):
 self.add_url_to_visit(url)
 def run(self):
 while self.urls_to_visit:
 url = self.urls_to_visit.popleft()
 logging.info(f'Crawling: {url}')
 try:

 self.crawl(url)
 except Exception: 

 logging.exception(f'Failed to crawl: {url}')
 finally:
 self.visited_urls.add(url) 
if __name__ == '__main__':
 Crawler(urls=deque(['https://www.imdb.com/'])).run()
ÕâÀï²ÉÓÃ Deque£¨Ë«¶Ë¶ÓÁÐ£©ÊµÏÖ Todo¶ÓÁÐ¡£Èç¹û²ÉÓÃ QueueÀ´ÊµÏÖ Todo£¬Ôò¶ÔÃ¿¸öÔö¼Óµ½ TodoµÄÔªËØ¶¼ÐèÒªÓÃ¶ÔÏó·â×°¡£ DequeÔÊÐíÔÚÄ©¶ËÔö¼Ó»òÉ¾³ýÔªËØ£¬ÒòÎª Dequeµ×²ã²ÉÓÃÊý×éÊµÏÖ£¬ËùÒÔÔö¼Óµ½ DequeµÄÔªËØ²»ÐèÒªÓÃ¶ÔÏó·â×°¡£¶øÇÒ DequeÐÔÄÜ±È Queue¸üºÃ¡£ËùÒÔÓÃ DequeÀ´ÊµÏÖ Todo¶ÓÁÐ¡£ 
Visited¼¯ºÏÒ²½Ð×÷ URLSeen´æ´¢¡£Èç¹û VisitedÊÇÈ«¾ÖÎ¨Ò»µÄ£¬ÄÇ¾ÍÐèÒªÍ¬²½ÁË¡£ 
3.4.ÅÀ³æ¼Ü¹¹
±¾½ÚÊ×ÏÈ½éÉÜÅÀ³æµÄ»ù±¾¼Ü¹¹£¬È»ºó½éÉÜ¿ÉÒÔÔÚ¶àÌ¨·þÎñÆ÷ÉÏÔËÐÐµÄ·Ö²¼Ê½ÅÀ³æ¼Ü¹¹¡£ 

3.4.1.»ù±¾¼Ü¹¹
Ò»°ãµÄÅÀ³æÈí¼þ£¬Í¨³£¶¼°üº¬ÒÔÏÂ¼¸¸öÄ£¿é£º
£¨1£©±£´æÖÖ×Ó URLºÍ´ý×¥È¡µÄ URLµÄÊý¾Ý½á¹¹¡£

£¨2£©±£´æÒÑ¾­×¥È¡¹ýµÄ URLµÄÊý¾Ý½á¹¹£¬·ÀÖ¹ÖØ¸´×¥È¡¡£

£¨3£©Ò³Ãæ»ñÈ¡Ä£¿é¡£

£¨4£©¶ÔÒÑ¾­»ñÈ¡µÄÒ³ÃæÄÚÈÝµÄ¸÷¸ö²¿·Ö½øÐÐ³éÈ¡µÄÄ£¿é£¬ÀýÈç³éÈ¡ HTML¡¢JavaScriptµÈ¡£ÆäËû¿ÉÑ¡µÄÄ£¿é°üÀ¨£º

£¨1£©¸ºÔðÁ¬½ÓÇ°´¦ÀíÄ£¿é¡£

£¨2£©¸ºÔðÁ¬½Óºó´¦ÀíÄ£¿é¡£

£¨3£©¹ýÂËÆ÷Ä£¿é¡£

£¨4£©¸ºÔð¶àÏß³ÌµÄÄ£¿é¡£

£¨5£©¸ºÔð·Ö²¼Ê½µÄÄ£¿é¡£
¸÷Ä£¿éÏêÏ¸½éÉÜÈçÏÂ£º 



1. ±£´æÖÖ×ÓºÍ´ý×¥È¡µÄ URLµÄÊý¾Ý½á¹¹
Å©Ãñ»á°ÑÓÐÉú³¤Ç±Á¦µÄ×ÑÓÃ×÷ÖÖ×Ó£¬ÕâÀï°ÑÒ»Ð©»îÔ¾µÄÍøÒ³ÓÃ×÷ÖÖ×Ó URL£¬ÀýÈçÍøÕ¾µÄÊ×Ò³»òÕßÁÐ±íÒ³£¬ÒòÎªÔÚÕâÐ©Ò³Ãæ¾­³£»á·¢ÏÖÐÂµÄÁ´½Ó¡£Í¨³££¬ÅÀ³æ¶¼ÊÇ´ÓÒ»ÏµÁÐµÄÖÖ×Ó URL¿ªÊ¼ÅÀÈ¡£¬Ò»°ã´ÓÊý¾Ý¿â±í»òÕßÅäÖÃÎÄ¼þÖÐ¶ÁÈ¡ÕâÐ©ÖÖ×Ó URL¡£ÖÖ×Ó URLÃè
µÚ 3ÕÂ Ê¹ÓÃ Python¿ª·¢ÍøÂçÅÀ³æ 
Êö±íÈçÏÂ¡£ 
±í 3-1  ÖÖ×Ó URLÃèÊö±í 

×Ö¶ÎÃû ×Ö¶ÎÀàÐÍ ËµÃ÷  
Id  NUMBER(12) Î¨Ò»±êÊ¶  
url  Varchar(128) ÍøÕ¾ URL  
source  Varchar(128) ÍøÕ¾À´Ô´ÃèÊö  
rank  NUMBER(12) ÍøÕ¾ PageRankÖµ 

µ«ÊÇ±£´æ´ý×¥È¡µÄ URLµÄÊý¾Ý½á¹¹È´ÒòÏµÍ³µÄ¹æÄ£¡¢¹¦ÄÜ²»Í¬¶ø¿ÉÄÜ²ÉÓÃ²»Í¬µÄ²ßÂÔ¡£Ò»¸ö±È½ÏÐ¡µÄÅÀ³æ³ÌÐò£¬¿ÉÄÜ¾ÍÊ¹ÓÃÄÚ´æÖÐµÄÒ»¸ö¶ÓÁÐ£¬»òÕßÊÇÓÅÏÈ¼¶¶ÓÁÐ½øÐÐ´æ´¢¡£Ò»¸öÖÐµÈ¹æÄ£µÄÅÀ³æ³ÌÐò£¬¿ÉÄÜÊ¹ÓÃ BekerlyDBÕâÖÖÄÚ´æÊý¾Ý¿âÀ´´æ´¢£¬Èç¹ûÄÚ´æÖÐ´æ·Å²»ÏÂ£¬»¹¿ÉÒÔÐòÁÐ»¯µ½´ÅÅÌÉÏ¡£µ«ÊÇ£¬ÕæÕýµÄ´ó¹æÄ£ÅÀ³æÏµÍ³£¬ÊÇÍ¨¹ý·þÎñÆ÷¼¯ÈºÀ´´æ´¢ÒÑ¾­ÅÀÈ¡³öÀ´µÄ URLµÄ£¬²¢ÇÒ£¬»¹»áÔÚ´æ´¢ URLµÄ±íÖÐ¸½´øÒ»Ð©ÆäËûÐÅÏ¢£¬±ÈÈçËµ PageRankÖµµÈ£¬¹©Ö®ºóµÄ¼ÆËãÓÃ¡£ 

2. ±£´æÒÑ¾­×¥È¡¹ýµÄ URLµÄÊý¾Ý½á¹¹
ÒÑ¾­×¥È¡¹ýµÄ URLµÄ¹æÄ£ºÍ´ý×¥È¡µÄ URLµÄ¹æÄ£ÊÇÒ»¸öÏàµ±µÄÁ¿¼¶£¬ÕýÈçÎÒÃÇÇ°Ãæ½éÉÜµÄ Todo¶ÓÁÐºÍ Visited±í¡£µ«ÊÇ£¬ËüÃÇÎ¨Ò»µÄ²»Í¬ÊÇ£¬ Visited±í»á¾­³£±»²éÑ¯£¬ÒÔ±ãÈ·¶¨·¢ÏÖµÄ URLÊÇ·ñÒÑ¾­´¦Àí¹ý¡£Òò´Ë£¬ Visited±íÊý¾Ý½á¹¹Èç¹ûÊÇÒ»¸öÄÚ´æÊý¾Ý½á¹¹£¬¿ÉÒÔ²ÉÓÃÉ¢ÁÐ±í£¨ HashMap»òÕß HashSet£©À´´æ´¢£»Èç¹û±£´æÔÚÊý¾Ý¿âÖÐ£¬¿ÉÒÔ¶Ô URLÁÐ½¨Á¢Ë÷Òý¡£ 

3. Ò³Ãæ»ñÈ¡Ä£¿é
µ±´ÓÖÖ×Ó URL¶ÓÁÐ»òÕß×¥È¡³öÀ´µÄ URL¶ÓÁÐÖÐ»ñµÃ URLºó£¬±ãÒª¸ù¾ÝÕâ¸ö URLÀ´»ñµÃµ±Ç°Ò³ÃæµÄÄÚÈÝ£¬»ñµÃµÄ·½·¨·Ç³£¼òµ¥£¬¾ÍÊÇÆÕÍ¨µÄ IO²Ù×÷¡£ÔÚÕâ¸öÄ£¿éÖÐ£¬½ö½öÊÇ°Ñ URLËùÖ¸µÄÄÚÈÝ°´ÕÕ¶þ½øÖÆµÄ¸ñÊ½¶Á³öÀ´£¬¶ø²»¶ÔÄÚÈÝ×öÈÎºÎ´¦Àí¡£ 

4. ÌáÈ¡ÒÑ¾­»ñÈ¡µÄÍøÒ³µÄÄÚÈÝÖÐµÄÓÐÐ§ÐÅÏ¢
´ÓÒ³Ãæ»ñÈ¡Ä£¿éµÄ½á¹ûÊÇÒ»¸ö±íÊ¾ HTMLÔ´´úÂëµÄ×Ö·û´®¡£´ÓÕâ¸ö×Ö·û´®ÖÐ³éÈ¡¸÷ÖÖÏà¹ØµÄÄÚÈÝ£¬ÊÇÅÀ³æÈí¼þµÄÄ¿µÄ£¬Òò´Ë£¬Õâ¸öÄ£¿é¾ÍÏÔµÃ·Ç³£ÖØÒª¡£
Í¨³££¬ÔÚÒ»¸öÍøÒ³ÖÐ£¬³ýÁË°üº¬ÓÐÎÄ±¾ÄÚÈÝ»¹ÓÐÍ¼Æ¬¡¢³¬Á´½ÓµÈ¡£¶ÔÓÚÎÄ±¾ÄÚÈÝ£¬Ê×ÏÈ°Ñ HTMLÔ´´úÂëµÄ×Ö·û´®±£´æ³É HTMLÎÄ¼þ¼´¿É¡£¹ØÓÚ³¬Á´½ÓµÄÌáÈ¡£¬¿ÉÒÔ¸ù¾Ý HTMLÓï·¨£¬Ê¹ÓÃÕýÔò±í´ïÊ½À´ÌáÈ¡£¬²¢ÇÒ°ÑÌáÈ¡µÄ³¬Á´½Ó¼ÓÈëµ½ Todo¶ÓÁÐÖÐ£¬Ò²¿ÉÒÔÊ¹ÓÃ×¨ÃÅµÄ HTMLÎÄµµ½âÎö¹¤¾ß¡£
ÔÚÍøÒ³ÖÐ£¬³¬Á´½Ó²»¹âÖ¸Ïò HTMLÒ³Ãæ£¬»¹»áÖ¸Ïò¸÷ÖÖÎÄ¼þ£¬¶ÔÓÚ³ýÁË HTMLÒ³ÃæµÄ³¬Á´½ÓÖ®Íâ£¬ÆäËûÄÚÈÝµÄÁ´½Ó²»ÄÜ·ÅÈë Todo¶ÓÁÐÖÐ£¬¶øÒªÖ±½ÓÏÂÔØ¡£Òò´Ë£¬ÔÚÕâ¸öÄ£¿éÖÐ£¬»¹±ØÐë°üº¬ÌáÈ¡Í¼Æ¬¡¢ JavaScript¡¢PDF¡¢DOCµÈÄÚÈÝµÄ²¿·Ö¡£²¢ÇÒ£¬ÔÚÌáÈ¡¹ý³ÌÖÐ£¬»¹ÒªÕë¶Ô HTTPÐ­Òé£¬À´´¦Àí·µ»ØµÄ×´Ì¬Âë¡£ÕâÕÂÎÒÃÇÖ÷ÒªÑÐ¾¿ÍøÒ³µÄ¼Ü¹¹ÎÊÌâ£¬½«ÔÚÏÂÒ»ÕÂÏêÏ¸ÑÐ¾¿´Ó¸÷ÖÖÎÄ¼þ¸ñÊ½ÌáÈ¡ÓÐÐ§ÐÅÏ¢¡£ 
5. ¸ºÔðÁ¬½ÓÇ°´¦ÀíÄ£¿é£¬¸ºÔðÁ¬½Óºó´¦ÀíÄ£¿é£¬¹ýÂËÆ÷Ä£¿é
Èç¹ûÖ»×¥È¡Ä³¸öÍøÕ¾µÄÍøÒ³£¬Ôò¿ÉÒÔ¶Ô URL°´ÓòÃû¹ýÂË¡£ 

6. ¶àÏß³ÌÄ£¿é
ÅÀ³æÖ÷ÒªÏûºÄÈýÖÖ×ÊÔ´£ºÍøÂç´ø¿í¡¢ÖÐÑë´¦ÀíÆ÷ºÍ´ÅÅÌ¡£ÈýÕßÖÐÈÎºÎÒ»Õß¶¼ÓÐ¿ÉÄÜ³ÉÎªÆ¿¾±£¬ÆäÖÐÍøÂç´ø¿íÒ»°ãÊÇ×âÓÃµÄ£¬ËùÒÔ¼Û¸ñÏà¶Ô°º¹ó¡£ÎªÁËÔö¼ÓÅÀ³æÐ§ÂÊ£¬×îÖ±½ÓµÄ·½·¨¾ÍÊÇÊ¹ÓÃ¶àÏß³ÌµÄ·½Ê½½øÐÐ´¦Àí¡£ÔÚÅÀ³æÏµÍ³ÖÐ£¬½«Òª´¦ÀíµÄ URL¶ÓÁÐÍùÍùÊÇÎ¨Ò»µÄ¡£¶à¸öÏß³ÌË³ÐòµØ´Ó¶ÓÁÐÖÐÈ¡µÃ URL£¬Ö®ºó¸÷×Ô½øÐÐ´¦Àí£¨´¦Àí½×¶ÎÊÇ²¢·¢½øÐÐ£©¡£Í¨³££¬¿ÉÒÔÀûÓÃÏß³Ì³ØÀ´¹ÜÀíÏß³Ì¡£³ÌÐòÖÐ×î´ó¿ÉÒÔÊ¹ÓÃµÄÏß³ÌÊýÊÇ¿ÉÅäÖÃµÄ¡£ 

7. ·Ö²¼Ê½´¦Àí
·Ö²¼Ê½ÊÇµ±½ñ¼ÆËãµÄÖ÷Á÷£¬ÕâÏî¼¼ÊõÒ²¿ÉÒÔÍ¬Ê±ÓÃÔÚÍøÂçÅÀ³æÉÏÃæ¡£ºóÐøÓÐÕÂ½Ú×¨ÃÅ½éÉÜ¶àÌ¨»úÆ÷²¢ÐÐ²É¼¯µÄ·½·¨¡£ 


3.4.2.·Ö²¼Ê½ÅÀ³æ¼Ü¹¹
°Ñ×¥È¡ÈÎÎñ·Ö²¼µ½²»Í¬µÄ½Úµã·Ö²¼Ö÷ÒªÊÇÎªÁË¿ÉÀ©Õ¹ÐÔ£¬Ò²¿ÉÒÔÊ¹ÓÃÎïÀí·Ö²¼µÄÅÀ³æÏµÍ³£¬ÈÃÃ¿¸öÅÀ³æ½Úµã×¥È¡¿¿½üËüµÄÍøÕ¾£¬ÀýÈç£¬±±¾©µÄÅÀ³æ½Úµã×¥È¡±±¾©µÄÍøÕ¾£¬ÉÏº£µÄÅÀ³æ½Úµã×¥È¡ÉÏº£µÄÍøÕ¾¡£»¹±ÈÈç£¬µçÐÅÍøÂçÖÐµÄÅÀ³æ½Úµã×¥È¡ÍÐ¹ÜÔÚµçÐÅµÄÍøÕ¾£¬ÁªÍ¨ÍøÂçÖÐµÄÅÀ³æ½Úµã×¥È¡ÍÐ¹ÜÔÚÁªÍ¨µÄÍøÕ¾¡£
Í¼ 3-4ËùÊ¾ÊÇÒ»ÖÖÃ»ÓÐÖÐÑë·þÎñÆ÷µÄ·Ö²¼Ê½ÅÀ³æ½á¹¹¡£ 

Í¼ 3-4 ·Ö²¼Ê½ÅÀ³æ½á¹¹Í¼
ÒªµãÔÚÓÚ°´ÓòÃû·ÖÅä²É¼¯ÈÎÎñ¡£Ã¿Ì¨»úÆ÷É¨Ãèµ½µÄÍøÖ·£¬²»ÊôÓÚËü×Ô¼ºµÄ»á½»»»¸øÊôÓÚËüµÄ»úÆ÷£¬ÀýÈç£¬×¨ÃÅÓÐÒ»Ì¨»úÆ÷×¥È¡ s¿ªÍ·µÄÍøÕ¾£º http://www.sina.com.cn ºÍ http:// www.sohu.com£¬¶øÁíÍâÒ»Ì¨»úÆ÷×¥È¡ c¿ªÍ·µÄÍøÕ¾£ºhttp://www.cctv.com¡£
´¹Ö±ÐÅÏ¢·Ö²¼Ê½×¥È¡µÄ»ù±¾Éè¼ÆÈçÏÂ¡£
£¨1£©°´Òª´¦ÀíµÄÐÅÏ¢µÄÊ××ÖÄ¸×öÉ¢ÁÐ£¬ÈÃ²»Í¬µÄ»úÆ÷×¥È¡²»Í¬µÄÐÅÏ¢¡£
£¨2£©Ã¿Ì¨»úÆ÷Í¨¹ýÅäÖÃÎÄ¼þ¶ÁÈ¡×Ô¼ºÒª´¦ÀíµÄ×ÖÄ¸¡£Ã¿Ì¨»úÆ÷×¥È¡ÍêÒ»Ìõ½á¹ûºó°Ñ¸Ã½á¹ûÐ´Èëµ½Í³Ò»µÄÒ»¸öÊý¾Ý¿âÖÐ£¬±ÈÈçËµÓÐ 26Ì¨»úÆ÷£¬µÚÒ»Ì¨»úÆ÷×¥È¡×ÖÄ¸ a¿ªÍ·µÄ¹«Ë¾£¬µÚ¶þÌ¨»úÆ÷×¥È¡×ÖÄ¸ b¿ªÍ·µÄ¹«Ë¾£¬ÒÀ´ÎÀàÍÆ¡£
£¨3£©Èç¹ûÄ³Ò»Ì¨»úÆ÷×¥È¡ËÙ¶ÈÌ«Âý£¬Ôò°Ñ¸ÃÈÎÎñ²ð·Öµ½ÆäËûµÄ»úÆ÷¡£ 

3.4.3.´¹Ö±ÅÀ³æ¼Ü¹¹
´¹Ö±ÅÀ³æÍùÍù×¥È¡Ö¸¶¨ÍøÕ¾µÄÐÂÎÅ»òÂÛÌ³µÈÐÅÏ¢¡£¿ÉÒÔÖ¸¶¨³õÊ¼×¥È¡µÄÊ×Ò³»òÕßÁÐ±íÒ³£¬È»ºóÌáÈ¡Ïà¹ØµÄÏêÏ¸Ò³ÖÐµÄÓÐÐ§ÐÅÏ¢´æÈëÊý¾Ý¿â£¬×ÜÌå½á¹¹ÈçÍ¼ 3-5ËùÊ¾¡£

.....
.......º¥
Í¼ 3-5 ´¹Ö±ÅÀ³æ½á¹¹Í¼
´¹Ö±ÅÀ³æÉæ¼°µÄ¹¦ÄÜÈçÏÂ¡£
£¨1£©´ÓÊ×Ò³ÌáÈ¡²»Í¬À¸Ä¿µÄÁÐ±íÒ³¡£

£¨2£©ÍøÒ³·ÖÀà£º°ÑÍøÒ³·ÖÀà³ÉÁÐ±íÒ³»òÏêÏ¸Ò³»òÕßÎ´ÖªÀàÐÍ¡£


£¨3£©ÁÐ±íÒ³Á´½ÓÌáÈ¡£º´ÓÁÐ±íÒ³ÌáÈ¡Í¬Ò»¸öÀ¸Ä¿ÏÂµÄÁÐ±íÒ³£¬ÕâÐ©Ò³ÃæÍùÍùÓÃ¡°ÏÂÒ»Ò³¡±¡°Î²Ò³¡±µÈÐÅÏ¢ÃèÊö¡£
£¨4£©ÏêÏ¸Ò³ÃæÄÚÈÝÌáÈ¡£º´ÓÏêÏ¸Ò³ÌáÈ¡ÍøÒ³±êÌâ¡¢Ö÷ÒªÄÚÈÝ¡¢·¢²¼Ê±¼äµÈÐÅÏ¢¡£
Ã¿¸öÍøÕ¾¿ÉÒÔÓÃÒ»¸öÏß³Ì×¥È¡£¬ÕâÑù·½±ã¿ØÖÆ¶Ô±»×¥ÍøÕ¾µÄ·ÃÎÊÆµÂÊ¡£×îºÃÓÐÍ¨ÓÃµÄÐÅÏ¢ÌáÈ¡·½Ê½À´½âÎöÍøÒ³£¬ÕâÑù¿ÉÒÔ¼õÉÙÈË¹¤Î¬»¤³É±¾¡£Í¬Ê±£¬Ò²¿ÉÒÔ²ÉÓÃ×¨ÃÅµÄÌáÈ¡ÀàÀ´´¦ÀíÊý¾ÝÁ¿´óµÄÍøÕ¾£¬ÕâÑù¿ÉÒÔÌá¸ß×¥È¡Ð§ÂÊ¡£
3.5¡¡ÏÂÔØÍøÒ³
ÏÂÔØÍøÒ³×î»ù±¾µÄ·½·¨£¬¿ÉÒÔÓÃÃüÁîÐÐ¹¤¾ßÈí¼þ curlÏÂÔØÍøÒ³¡£°²×° curlµÄÒ»¸ö·½·¨
ÊÇÔÚÃüÁîÐÐÔËÐÐ choco install curl¡£ÕâÀïÊ×ÏÈ½éÉÜÍøÖ·µÄ»ù±¾ÖªÊ¶£¬È»ºó½éÉÜÍ¨¹ý curlÃüÁîÏÂÔØÍøÒ³¡£ÀýÈçÏëÒª»ñµÃÃ¿¸ö³ÇÊÐµØÇø¶ÔÓ¦µÄ½ÖµÀ£¬ÍøÖ·£º 

ÆäÖÐ°üº¬Ò»Ð©ÕâÑùµÄÐÅÏ¢¡£ÏÈÓÃÍøÒ³ä¯ÀÀÆ÷´ò¿ªÕâ¸öÍøÒ³£¬ÏÂÔØÍøÒ³ºÍä¯ÀÀÆ÷¸ù¾ÝÍøÖ·´ò¿ªÍøÒ³µÄµÀÀíÊÇÒ»ÑùµÄ¡£¡°´ò¿ª¡±ÍøÒ³µÄ¹ý³ÌÆäÊµ¾ÍÊÇä¯ÀÀÆ÷×÷ÎªÒ»¸öä¯ÀÀµÄ¡°¿Í»§¶Ë¡±Ïò·þÎñÆ÷¶Ë·¢ËÍÁËÒ»´ÎÇëÇó£¬°Ñ·þÎñÆ÷¶ËµÄÎÄ¼þ¡°×¥¡±µ½±¾µØ£¬ÔÙ½øÐÐ½âÊÍ¡¢Õ¹ÏÖ¡£¸ü½øÒ»²½£¬¿ÉÒÔÍ¨¹ýä¯ÀÀÆ÷¶Ë²é¿´¡°ÏÂÔØ¡±¹ýÀ´µÄÎÄ¼þÔ´´úÂë¡£Ñ¡Ôñä¯ÀÀÆ÷µÄ¡°²é¿´¡± |¡°Ô´ÎÄ¼þ¡±²Ëµ¥£¬¾Í»á¿´µ½ä¯ÀÀÆ÷´Ó·þÎñÆ÷ÉÏÃæ¡°ÏÂÔØ¡±ÏÂÀ´µÄÎÄ¼þµÄÔ´´úÂë¡£
ÔÚÉÏÃæµÄÀý×ÓÖÐ£¬ÎÒÃÇÔÚä¯ÀÀÆ÷µÄµØÖ·À¸ÖÐÊäÈëµÄ×Ö·û´®½Ð×÷ URL¡£ÄÇÃ´£¬Ê²Ã´ÊÇ URLÄØ£¿Ö±¹ÛµØ½²£¬ URL¾ÍÊÇÔÚä¯ÀÀÆ÷¶ËÊäÈëµÄ http://bj.cityhouse.cn/street/hd/onedistlist. htmlÕâ¸ö×Ö·û´®¡£ÓÃ URLÀ´´ú±íÒ»¸öÍøÒ³¡£
Ê×ÏÈÒªÖªµÀÍøÒ³ÔÚÄÄ¸öÍøÕ¾¡£Ã¿¸öÍøÕ¾¶¼ÓÐÒ»¸öÓ¢ÎÄÃû×Ö£¬½Ð×÷ÓòÃû£¬Ò²¾ÍÊÇÖ÷»úÃû¡£È»ºóÒªÖªµÀÍøÒ³Î»ÓÚÕâ¸öÖ÷»úµÄÄÄ¸öÂ·¾¶¡£»¹ÓÐ£¬Í¨¹ýÊ²Ã´Ð­ÒéµÃµ½Õâ¸öÍøÒ³¡£ËùÒÔ URLÓÉÐ­ÒéÃû¡¢Ö÷»úÃûºÍ×ÊÔ´Â·¾¶ 3²¿·Ö×é³É¡£
Ò»°ãÊÇÍ¨¹ý HTTP»òÕß HTTPSÐ­ÒéµÃµ½ÍøÒ³ÄÚÈÝ£¬ËùÒÔºÜ¶àÍøÖ·¶¼ÓÃ http://»òÕß https://¿ªÍ·¡£

3.5.1¡¡HTTP
Ò»°ãÍ¨¹ý HTTPÐ­ÒéºÍ Web·þÎñÆ÷´ò½»µÀ£¬ÕâÑùµÄ Web·þÎñÆ÷ÓÖ½Ð×÷ HTTP·þÎñÆ÷¡£ HTTP·þÎñÆ÷´æ´¢ÁË»¥ÁªÍøÉÏµÄÊý¾Ý²¢ÇÒ¸ù¾Ý HTTP¿Í»§¶ËµÄÇëÇóÌá¹©Êý¾Ý¡£ÍøÂçÅÀ³æÒ²ÊÇÒ»ÖÖ HTTP¿Í»§¶Ë£¬¸ü³£¼ûµÄ HTTP¿Í»§¶ËÊÇ Webä¯ÀÀÆ÷¡£¿Í»§¶Ë·¢ÆðÒ»¸öµ½·þÎñÆ÷ÉÏÖ¸¶¨¶Ë¿Ú£¨Ä¬ÈÏ¶Ë¿ÚÎª 80£©µÄ HTTPÇëÇó£¬·þÎñÆ÷¶Ë°´Ö¸¶¨¸ñÊ½·µ»ØÍøÒ³»òÕßÆäËûÍøÂç×ÊÔ´£¬ÈçÍ¼ 3-6ËùÊ¾¡£
HTTP.
.
www.lietu.com 
.... 

Í¼ 3-6 HTTPÐ­Òé
¿Í»§¶ËÏò·þÎñÆ÷·¢ËÍµÄÇëÇóÍ·°üº¬ÇëÇóµÄ·½·¨¡¢ URL¡¢Ð­Òé°æ±¾ÒÔ¼°ÇëÇóÐÞÊÎ·û¡¢¿Í»§ÐÅÏ¢ºÍÄÚÈÝ¡£·þÎñÆ÷ÒÔÒ»¸ö×´Ì¬ÐÐ×÷ÎªÏìÓ¦£¬ÏàÓ¦µÄÄÚÈÝ°üÀ¨ÏûÏ¢Ð­ÒéµÄ°æ±¾¡¢³É¹¦»òÕß´íÎóµÄ±àÂë¼ÓÉÏ·þÎñÆ÷ÐÅÏ¢¡¢ÊµÌåÔªÐÅÏ¢ÒÔ¼°¿ÉÄÜµÄÊµÌåÄÚÈÝ¡£ 
HTTPÇëÇó¸ñÊ½ÊÇ£º 

ÔÚ HTTPÇëÇóÖÐ£¬µÚÒ»ÐÐ±ØÐëÊÇÒ»¸öÇëÇóÐÐ£¨ Request Line£©£¬ÓÃÀ´ËµÃ÷ÇëÇóÀàÐÍ¡¢Òª·ÃÎÊµÄ×ÊÔ´ÒÔ¼°Ê¹ÓÃµÄ HTTP°æ±¾¡£½ô½Ó×ÅÊÇÍ·ÐÅÏ¢£¨ Header£©£¬ÓÃÀ´ËµÃ÷·þÎñÆ÷ÒªÊ¹ÓÃµÄ¸½¼ÓÐÅÏ¢¡£ÔÚÍ·ÐÅÏ¢Ö®ºóÊÇÒ»¸ö¿ÕÐÐ£¬ÔÚ´ËÖ®ºó¿ÉÒÔÌí¼ÓÈÎÒâµÄÆäËûÊý¾Ý£¬ÕâÐ©¸½¼ÓµÄÊý¾Ý³ÆÖ®ÎªÖ÷Ìå£¨Body£©¡£ 
HTTP¹æ·¶¶¨ÒåÁË 8ÖÖ¿ÉÄÜµÄÇëÇó·½·¨¡£ÅÀ³æ¾­³£ÓÃµ½ GET¡¢HEADºÍ POST 3ÖÖÇëÇó·½·¨£¬·Ö±ðËµÃ÷ÈçÏÂ¡£
£¨1£©GET£º¼ìË÷ URIÖÐ±êÊ¶×ÊÔ´µÄÒ»¸ö¼òµ¥ÇëÇó£¬ÀýÈçÅÀ³æ·¢ËÍÇëÇó GET /index.html HTTP/1.1¡£

£¨2£©HEAD£ºÓë GET·½·¨ÏàÍ¬£¬·þÎñÆ÷Ö»·µ»Ø×´Ì¬ÐÐºÍÍ·±ê£¬²¢²»·µ»ØÇëÇóÎÄµµ£¬ÀýÈçÓÃ HEAD·½·¨ÇëÇó¼ì²éÍøÒ³¸üÐÂÊ±¼ä¡£


£¨3£©POST£º·þÎñÆ÷½ÓÊÜ±»Ð´Èë¿Í»§¶ËÊä³öÁ÷ÖÐµÄÊý¾ÝµÄÇëÇó¡£¿ÉÒÔÓÃ POST·½·¨À´
Ìá½»±íµ¥²ÎÊý¡£ÀýÈç£¬ÇëÇóÍ·£º 

¿Í»§¶ËËµÃ÷ÁË¿ÉÒÔ½ÓÊÕÎÄ±¾ÀàÐÍµÄÐÅÏ¢£¬×îºÃ²»Òª·¢ËÍÒôÆµ¸ñÊ½µÄÊý¾Ý¡£ 

´ú±í´ÓÕâ¸öÍøÒ³¿ªÊ¼Ö±µ½ÕýÔÚÇëÇóµÄÍøÒ³¡£ 

Ã¿¸öÓïÑÔºó°üÀ¨Ò»¸ö q-value£¬±íÊ¾ÓÃ»§¶ÔÕâÖÖÓïÑÔµÄÆ«ºÃ¹À¼Æ£¬È±Ê¡ÖµÊÇ 1.0£¬1.0Ò²ÊÇ×î´óÖµ¡£ 

Keep-aliveÊÇÖ¸ÔÚÍ¬Ò»¸öÁ¬½ÓÖÐ·¢³öºÍ½ÓÊÕ¶à´Î HTTPÇëÇó£¬µ¥Î»ÊÇºÁÃë¡£
½éÉÜÍê¿Í»§¶ËÏò·þÎñÆ÷µÄÇëÇóÏûÏ¢ºó£¬È»ºóÔÙÁË½â·þÎñÆ÷Ïò¿Í»§¶Ë·µ»ØµÄÏìÓ¦ÏûÏ¢¡£ÕâÖÖÀàÐÍµÄÏûÏ¢Ò²ÊÇÓÉÒ»¸öÆðÊ¼ÐÐ£¬Ò»¸ö»òÕß¶à¸öÍ·ÐÅÏ¢£¬Ò»¸öÖ¸Ê¾Í·ÐÅÏ¢½áÊøµÄ¿ÕÐÐºÍ¿ÉÑ¡µÄÏûÏ¢Ìå×é³É¡£ 
HTTPµÄÍ·ÐÅÏ¢°üÀ¨Í¨ÓÃÍ·¡¢ÇëÇóÍ·¡¢ÏìÓ¦Í·ºÍÊµÌåÍ· 4¸ö²¿·Ö¡£Ã¿¸öÍ·ÐÅÏ¢ÓÉÒ»¸öÓòÃû£¬Ã°ºÅ£¨ :£©ºÍÓòÖµÈý²¿·Ö×é³É¡£ÓòÃûÊÇ´óÐ¡Ð´ÎÞ¹ØµÄ£¬ÓòÖµÇ°¿ÉÒÔÌí¼ÓÈÎºÎÊýÁ¿µÄ¿Õ¸ñ·û¡£Í·ÐÅÏ¢¿ÉÒÔ±»À©Õ¹Îª¶àÐÐ£¬ÔÚÃ¿ÐÐ¿ªÊ¼´¦£¬Ê¹ÓÃÖÁÉÙÒ»¸ö¿Õ¸ñ»òÖÆ±í·û¡£
ÀýÈç£¬ÅÀ³æ³ÌÐò·¢³ö GETÇëÇó£º 

·þÎñÆ÷·µ»ØÏìÓ¦£º 

GETÇëÇóµÄÍ·ÏÔÊ¾ÀàËÆÏÂÃæµÄÐÅÏ¢£º 

ÏìÓ¦Í·ÏÔÊ¾ÀàËÆÈçÏÂÐÅÏ¢£º 

 Content-Type: text/html
 Expires: Sun, 19 Mar 2006 19:40:05 GMT
 Cache-Control: max-age=60, private
 Connection: keep-alive
 Proxy-Connection: keep-alive
 Server: Apache
 Last-Modified: Sun, 19 Mar 2006 19:38:58 GMT
 Vary: Accept-Encoding,User-Agent
 Via: 1.1 webcache (NetCache NetApp/6.0.1P3)

·þÎñÆ÷·µ»ØµÄÏìÓ¦µÚÒ»ÐÐ¾Í°üÀ¨×´Ì¬Âë¡£×´Ì¬ÂëÊÇÒ»¸öÓÉ 3¸öÊý×Ö×é³ÉµÄ½á¹û´úÂë¡£ÅÀ³æ¿ÉÒÔÓÃ×´Ì¬ÂëÊ¶±ð Web·þÎñÆ÷´¦ÀíµÄÇé¿ö¡£×´Ì¬ÂëµÄµÚÒ»¸öÊý×Ö¶¨ÒåÏìÓ¦µÄÀà±ð£¬ºóÁ½¸öÊý×ÖÓÐ·ÖÀàµÄ×÷ÓÃ£¬¾ßÌåÃèÊöÈçÏÂ¡£
£¨1£©1XX£ºÐÅÏ¢ÏìÓ¦Àà£¬±íÊ¾½ÓÊÕµ½ÇëÇó²¢ÇÒ¼ÌÐø´¦Àí£»

£¨2£©2XX£º´¦Àí³É¹¦ÏìÓ¦Àà£¬±íÊ¾¶¯×÷±»³É¹¦½ÓÊÕ¡¢Àí½âºÍ½ÓÊÜ£»

£¨3£©3XX£ºÖØ¶¨ÏòÏìÓ¦Àà£¬ÎªÁËÍê³ÉÖ¸¶¨µÄ¶¯×÷£¬±ØÐë½ÓÊÜ½øÒ»²½´¦Àí£»

£¨4£©4XX£º¿Í»§¶Ë´íÎó£¬¿Í»§ÇëÇó°üº¬Óï·¨´íÎó»òÕßÊÇ²»ÄÜÕýÈ·Ö´ÐÐ£»

£¨5£©5XX£º·þÎñ¶Ë´íÎó£¬·þÎñÆ÷²»ÄÜÕýÈ·Ö´ÐÐÒ»¸öÕýÈ·µÄÇëÇó¡£ 
HTTP³£ÓÃ×´Ì¬ÂëÈç±í 3-2ËùÊ¾¡£



±í 3-2 HTTP³£ÓÃ×´Ì¬Âë
×´Ì¬´úÂë ´úÂëÃèÊö ´¦Àí·½Ê½  
200 ÇëÇó³É¹¦ »ñµÃÏìÓ¦µÄÄÚÈÝ£¬½øÐÐ´¦Àí  
201 ÇëÇóÍê³É£¬½á¹ûÊÇ´´½¨ÁËÐÂ×ÊÔ´¡£ÐÂ´´½¨×ÊÔ´µÄ URI¿ÉÔÚÏìÓ¦µÄÊµÌåÖÐµÃµ½ ÅÀ³æÖÐ²»»áÓöµ½  
202 ÇëÇó±»½ÓÊÜ£¬µ«´¦ÀíÉÐÎ´Íê³É ×èÈûµÈ´ý  
204 ·þÎñÆ÷¶ËÒÑ¾­ÊµÏÖÁËÇëÇó£¬µ«ÊÇÃ»ÓÐ·µ»ØÐÂµÄÐÅÏ¢¡£Èç¹û¿Í»§ÊÇÓÃ»§´úÀí£¬ÔòÎÞÐëÎª´Ë¸üÐÂ×ÔÉíµÄÎÄµµÊÓÍ¼ ¶ªÆú  
300 ¸Ã×´Ì¬Âë²»±» HTTP/1.0µÄÓ¦ÓÃ³ÌÐòÖ±½ÓÊ¹ÓÃ£¬Ö»ÊÇ×÷Îª 3XXÀàÐÍ»ØÓ¦µÄÄ¬ÈÏ½âÊÍ¡£´æÔÚ¶à¸ö¿ÉÓÃµÄ±»ÇëÇó×ÊÔ´ Èô³ÌÐòÖÐÄÜ¹»´¦Àí£¬Ôò½øÐÐ½øÒ»²½´¦Àí£»Èç¹û³ÌÐòÖÐ²»ÄÜ´¦Àí£¬Ôò¶ªÆú  
301 ÇëÇóµ½µÄ×ÊÔ´¶¼»á·ÖÅäÒ»¸öÓÀ¾ÃµÄ URL£¬ÕâÑù¾Í¿ÉÒÔÔÚ½«À´Í¨¹ý¸Ã URLÀ´·ÃÎÊ´Ë×ÊÔ´ ÖØ¶¨Ïòµ½·ÖÅäµÄ URL  
302 ÇëÇóµ½µÄ×ÊÔ´ÔÚÒ»¸ö²»Í¬µÄ URL´¦ÁÙÊ±±£´æ ÖØ¶¨Ïòµ½ÁÙÊ±µÄ URL  
304 ÇëÇóµÄ×ÊÔ´Î´¸üÐÂ ¶ªÆú  
400 ·Ç·¨ÇëÇó ¶ªÆú 

Ðø±í
×´Ì¬´úÂë ´úÂëÃèÊö ´¦Àí·½Ê½  
401 Î´ÊÚÈ¨ ¶ªÆú  
403 ½ûÖ¹ ¶ªÆú  
404 Ã»ÓÐÕÒµ½ ¶ªÆú  
500 ·þÎñÆ÷ÄÚ²¿´íÎó ¶ªÆú  
502 ´íÎóÍø¹Ø ¶ªÆú  
503 ·þÎñÆ÷ÔÝÊ±²»¿ÉÓÃ ¶ªÆú 

ÈçÏÂ´úÂë¼ì²é requests¿âÖÐµÄ×´Ì¬´úÂë¡£ 

HTTPÇëÇóÒ»ÕÅÍ¼Æ¬£¬Èç¹ûÃ»ÓÐÊý¾ÝÄÜ²»ÄÜ×ö³öÅÐ¶Ï ?¿´·µ»ØµÄ HTTP×´Ì¬Âë£¬Ã»ÓÐÕÒµ½¾Í·µ»Ø 404×´Ì¬Âë¡£ÓÐÊ±ºò£¬Ò²¿ÉÄÜ·µ»ØÒ»¸öÍ³Ò»µÄ 404´íÎóÒ³Ãæ¡£
ÔÚÌá½»±íµ¥µÄÊ±ºò£¬Èç¹û²»Ö¸¶¨·½·¨£¬ÔòÄ¬ÈÏÎª GETÇëÇó£¬±íµ¥ÖÐÌá½»µÄÊý¾Ý½«»á¸½¼ÓÔÚ urlÖ®ºó£¬ÒÔ¡° ?¡±Óë url·Ö¿ª¡£×ÖÄ¸Êý×Ö×Ö·ûÔ­Ñù·¢ËÍ£¬µ«¿Õ¸ñ×ª»»Îª¡° +¡±ºÅ£¬ÆäËû·ûºÅ×ª»»Îª %XX£¬ÆäÖÐ XXÎª¸Ã·ûºÅÒÔÊ®Áù½øÖÆ±íÊ¾µÄ ASCIIÖµ¡£GETÇëÇóÌá½»µÄÊý¾Ý·ÅÖÃÔÚ HTTPÇëÇóÐ­ÒéÍ·ÖÐ£¬¶ø POSTÌá½»µÄÊý¾ÝÔò·ÅÔÚÊµÌåÊý¾ÝÖÐ¡£GET·½Ê½Ìá½»µÄÊý¾Ý×î¶àÖ»ÄÜÓÐ 1024×Ö½Ú£¬¶ø POSTÔòÃ»ÓÐ´ËÏÞÖÆ¡£
ÀýÈç£¬³ÌÐò·¢³ö HEADÇëÇó£º 

·þÎñÆ÷·µ»ØÏìÓ¦£º 


3.5.2.HTMLÎÄµµ 
HTMLÔªËØÊÇÓÉµ¥¸ö»òÒ»¶Ô±êÇ©¶¨ÒåµÄ°üº¬·¶Î§¡£Ò»¸ö±êÇ©¾ÍÊÇ×óÓÒ·Ö±ðÓÐÒ»¸öÐ¡ÓÚºÅ£¨<£©ºÍ´óÓÚºÅ£¨ >£©µÄ×Ö·û´®¡£¿ªÊ¼±êÇ©ÊÇÖ¸²»ÒÔÐ±¸Ü£¨ /£©¿ªÍ·µÄ±êÇ©£¬ÆäÄÚÊÇÒ»´®ÔÊÐíµÄÊôÐÔ /Öµ¶Ô¡£½áÊø±êÇ©ÔòÊÇÒÔÒ»¸öÐ±¸Ü£¨/£©¿ªÍ·µÄ¡£
ÀýÈçÒ»¸ö HTMLÔªËØ p£º 

<p>ÊÇ¿ªÊ¼±êÇ©£¬</p>ÊÇ½áÊø±êÇ©¡£
±êÇ©¿ÉÒÔÓÐÊôÐÔ£¬ÀýÈç img±êÇ©£º 


img±êÇ©ÖÐ£¬ÊôÐÔ alt µÄÖµÊÇ "logo"¡£
Ò»¸ö±ê×¼µÄ HTMLÎÄ¼þÓ¦¸ÃÒÔ <html>¿ªÊ¼±êÇ©¿ªÊ¼ÎÄµµ£¬ÖÐ¼ä°üº¬ <head>Óë <body>µÈÔªËØ£¬ÆäÖÐ <head>²¿·ÖÖÐ¿ÉÒÔ¶¨ÒåÒ³ÃæµÄ±êÌâ¡¢¼ò½é¡¢±àÂë¸ñÊ½µÈÄÚÈÝ£¬ <body>²¿·ÖÎªÔÚä¯ÀÀÆ÷ÖÐÏÔÊ¾µÄÒ³ÃæÕýÎÄ¡£ÏÂÃæµÄ´úÂëÎªÒ»¸ö²»°üº¬ÄÚÈÝµÄ±ê×¼ HTMLÎÄµµ½á¹¹£º 

×Ö·ûÒýÓÃºÍÊµÌåÒýÓÃ¶¼ÊÇÒÔÒ»¸öºÍºÅ£¨ &£©¿ªÊ¼²¢ÒÔÒ»¸ö·ÖºÅ£¨ ;£©½áÊø¡£Èç¹ûÊ¹ÓÃµÄÊÇ×Ö·ûÒýÓÃ£¬ÐèÒªÔÚºÍºÅÖ®ºó¼ÓÉÏÒ»¸ö¾®ºÅ£¨ #£©£¬Ö®ºóÊÇËùÐè×Ö·ûµÄÊ®½øÖÆ´úÂë»òÊ®Áù½øÖÆ´úÂë¡£Èç¹ûÊ¹ÓÃµÄÊÇÊµÌåÒýÓÃ£¬ÔÚºÍºÅÖ®ºóÐ´ÉÏ×Ö·ûµÄÖú¼Ç·û¡£ 

3.5.3.Ê¹ÓÃ curlÃüÁîÏÂÔØÍøÂç×ÊÔ´ 
curlÃüÁîµÄÓï·¨Îª£º 

Èç¹ûÃ»ÓÐÈÎºÎÃüÁîÐÐ²ÎÊý£¬curlÃüÁî½«»ñÈ¡Ò»¸öÎÄ¼þ²¢½«ÆäÄÚÈÝÏÔÊ¾µ½±ê×¼Êä³ö¡£ 

Òª½«Ô¶³ÌÎÄ¼þ±£´æµ½±¾µØÏµÍ³£¬²¢Ê¹ÎÄ¼þÃûÓëÏÂÔØ·þÎñÆ÷µÄÎÄ¼þÃûÏàÍ¬£¬ÇëÌí¼Ó --
remote-name²ÎÊý£¬»òÊ¹ÓÃ -OÑ¡Ïî£º 

curl²»ÏÔÊ¾ÎÄ¼þµÄÄÚÈÝ£¬¶øÊÇÏÔÊ¾Ò»¸ö»ùÓÚÎÄ±¾µÄ½ø¶È±í£¬²¢½«ÎÄ¼þ±£´æÎªÓëÔ¶³ÌÎÄ¼þÃûÏàÍ¬µÄÃû³Æ¡£
¸ÃÎÄ¼þ°üº¬ÓëÖ®Ç°¿´µ½µÄÄÚÈÝÏàÍ¬µÄÄÚÈÝ£º 

ÏÖÔÚ£¬ÈÃÎÒÃÇ¿´¿´ÎªÏÂÔØµÄÎÄ¼þÖ¸¶¨Ò»¸öÎÄ¼þÃû¡£¿ÉÄÜÒÑ¾­ÓÐÒ»¸ö±¾µØÎÄ¼þÓëÔ¶³Ì·þÎñÆ÷ÉÏµÄÎÄ¼þÍ¬Ãû¡£ÎªÁË±ÜÃâ¸²¸ÇÍ¬ÃûµÄ±¾µØÎÄ¼þ£¬ÇëÊ¹ÓÃ -o»ò --output²ÎÊý£¬ºó¸úÒª±£´æÄÚÈÝµÄ±¾µØ
ÎÄ¼þµÄÃû³Æ¡£Ö´ÐÐÒÔÏÂÃüÁîÏÂÔØÔ¶³Ì robots.txtÎÄ¼þµ½±¾µØÃûÎª do-bots.txtµÄÎÄ¼þ£º 

Ä¬ÈÏÇé¿öÏÂ£¬ curl²»¸úËæÖØ¶¨Ïò£¬Òò´Ëµ±ÎÄ¼þÒÆ¶¯Ê±£¬¿ÉÄÜÎÞ·¨»ñµÃÔ¤ÆÚµÄ½á¹û¡£ÈÃÎÒÃÇ¿´¿´ÈçºÎ½â¾öÕâ¸öÎÊÌâ¡£
µ½Ä¿Ç°ÎªÖ¹£¬ËùÓÐÊ¾Àý¶¼°üº¬ÁË°üº¬ https://Ð­ÒéµÄÍêÈ«ÏÞ¶¨ URL¡£Èç¹ûÄãÅöÇÉÈ¥ÄÃ robots.txtÎÄ¼þ£¬ÇÒ½öÖ¸¶¨ www.digitalocean.com£¬Ôò²»»á¿´µ½ÈÎºÎÊä³ö£¬ÒòÎª DigitalOcean½«ÇëÇó´Ó http://ÖØ¶¨Ïòµ½ https://¡£
¿ÉÒÔÊ¹ÓÃ -I±êÖ¾À´ÑéÖ¤ÕâÒ»µã£¬¸Ã±êÖ¾ÏÔÊ¾ÇëÇóÍ·¶ø²»ÊÇÎÄ¼þµÄÄÚÈÝ£º 

Êä³öÏÔÊ¾ URLÒÑÖØ¶¨Ïò¡£Êä³öµÄµÚÒ»ÐÐÏÔÊ¾Ëü±»ÒÆ¶¯ÁË£¬Î»ÖÃÐÐÏÔÊ¾ÒÆ¶¯µ½ÁËÄÄÀï£º ¿ÉÒÔÊ¹ÓÃ curlÊÖ¶¯·¢³öÁíÒ»¸öÇëÇó£¬Ò²¿ÉÒÔÊ¹ÓÃ --location»ò -L²ÎÊý£¬¸Ã²ÎÊý¸æËß curlÔÚÓöµ½ÖØ¶¨ÏòÊ±½«ÇëÇóÖØ×öµ½ÐÂÎ»ÖÃ£¬ÊÔÊÔ¿´£º 



ÕâÒ»´Î¿ÉÒÔ¿´µ½Êä³öÁË£¬ÒòÎª curl¸úËæÁËÖØ¶¨Ïò¡£Äú¿ÉÒÔ½« -L²ÎÊýÓëÇ°ÃæÌáµ½µÄÒ»Ð©²ÎÊý½áºÏÆðÀ´£¬½«ÎÄ¼þÏÂÔØµ½±¾µØÏµÍ³£º 

½«Êý¾Ý´«ÊäËÙÂÊÏÞÖÆÎª 1kb/s£º 

Í¨¹ý´úÀí·þÎñÆ÷ÏÂÔØ£º 


3.5.4.Ê¹ÓÃ wgetÃüÁîÏÂÔØÍøÒ³ 
wgetÊÇÒ»¸öÃâ·ÑÊµÓÃ³ÌÐò£¬ÓÃÓÚ´Ó WebÒÔ·Ç½»»¥Ê½µÄ·½Ê½ÏÂÔØÎÄ¼þ¡£ËüÖ§³Ö HTTP¡¢ HTTPSºÍ FTPÐ­Òé£¬ÒÔ¼°Í¨¹ý HTTP´úÀí½øÐÐ¼ìË÷¡£
Ä¬ÈÏÇé¿öÏÂ£¬ºÜÈÝÒ×µ÷ÓÃ wget£¬»ù±¾Óï·¨Îª£º 

wgetÏÂÔØÃüÁîÐÐÉÏÖ¸¶¨µÄËùÓÐ URL¡£
¿ÉÒÔÊ¹ÓÃ wgetÃüÁîµÝ¹éµØÏÂÔØ HTTP·þÎñÆ÷Ä³¸öÄ¿Â¼ÏÂµÄËùÓÐÎÄ¼þ£¬ÀýÈç£¬µÝ¹éÏÂÔØËùÓÐÔÚ¡°ddd¡±Ä¿Â¼ÏÂµÄÎÄ¼þ£º 

Ê¹ÓÃµ½µÄÑ¡Ïî½âÊÍÈçÏÂ¡£
£¨1£©recursively (-r)£¬µÝ¹é±éÀú£»

£¨2£©²»µ½ÉÏ¼¶Ä¿Â¼£¬ÀýÈç ccc/¡­ (-np)£»

£¨3£©²»±£´æÎÄ¼þµ½ÓòÃûÎÄ¼þ¼Ð (-nH)£»

£¨4£©³ýÁË ddd£¬ºöÂÔÇ° 3¸öÎÄ¼þ¼Ð aaa¡¢bbb¡¢ccc (¨Ccut-dirs=3)£»

£¨5£©²»°üº¬ index.htmlÎÄ¼þ (-R index.html)¡£


¿ÉÒÔÊ¹ÓÃ wget -iÃüÁîÏÂÔØ¶à¸öÎÄ¼þ¡£Ê×ÏÈ´´½¨Ò»¸öÎÄ±¾ÎÄ¼þ£¬·ÅÈëÐèÒªÏÂÔØµÄ url£¬ÀýÈç download.txt 
http://roll.mil.news.sina.com.cn/col/zgjq/index1.shtml 
http://roll.mil.news.sina.com.cn/col/zgjq/index2.shtml

È»ºó wget -iÃüÁîÏÂÔØÕâÐ©ÍøÒ³£º 
$ wget -i download.txt
¿ÉÒÔÌí¼ÓºÜ¶à urlµ½Õâ¸öÎÄ±¾ÎÄ¼þ£¬Ò²¿ÉÒÔÖ»ÏÂÔØÍøÕ¾ÖÐµÄÍ¼ÏñÎÄ¼þ¡£ 
$ wget -i download.txt -r -P ./ -A jpg,jpeg,gif,png,bmp
¿ÉÒÔÓÃ²ÎÊý tÏÞ¶¨ÖØÊÔ´ÎÊý¡£ 
wget -t 15 -i t_shop_data1.txt -r -P ./ -A jpg,jpeg,gif,png,bmp
²ÎÊý TÉèÖÃ³¬Ê±Ê±¼ä£º 
wget -t 15 -T 5 -i t_shop_data1.txt -r -P ./ -A jpg,jpeg,gif,png,bmp
Ò²¿ÉÒÔÍ¨¹ý wait²ÎÊýÉèÖÃ×ÜµÄµÈ´ýÊ±¼ä£º 
wget -r -p -k -nc -e robots=off --wait 1.0 -A bmp,png,jpg,jpeg,gif -i t_shop_data1.txt 

3.5.5.ÏÂÔØ¾²Ì¬ÍøÒ³
ÅÀ³æ³ÌÐòÏò·þÎñÆ÷ www.example.com·¢³ö GETÇëÇóÇëÇó¸ùÄ¿Â¼ÏÂµÄÍøÒ³£º 
GET / HTTP/1.1
·þÎñÆ÷·µ»ØÏìÓ¦£º 
HTTP/1.1 200 OK 
Accept-Ranges: bytes 

Age: 532288 
Cache-Control: max-age=604800 
Content-Type: text/html; charset=UTF-8 
Date: Thu, 09 Mar 2023 08:16:32 GMT 
Etag: "3147526947" 
Expires: Thu, 16 Mar 2023 08:16:32 GMT 
Last-Modified: Thu, 17 Oct 2019 07:18:26 GMT 
Server: ECS (sab/5798) 

Vary: Accept-Encoding 
X-Cache: HIT 
Content-Length: 1256 

<!doctype html> 
<html> 
<head> 


·þÎñÆ÷·µ»ØµÄÏìÓ¦ÖÐ°üº¬ÁË¸ùÄ¿Â¼ÏÂµÄÍøÒ³ÄÚÈÝ¡£ 
HTTPÐ­ÒéÊ¹ÓÃÁËÃæÏòÁ¬½ÓµÄ TCPÐ­Òé¡£ HTTPÐ­Òé±¾ÉíÊÇÎÞ×´Ì¬µÄ¡£µ±ÇëÇóÒ»¸öÍøÒ³£¬·þÎñÆ÷·µ»ØÒ³ÃæÖ®ºó£¬Õâ¸öÁ¬½Ó¾ÍÃ»ÓÐÁË¡£Èç¹ûÐèÒª¼ÇÂ¼ÓÃ»§µÄµÇÂ¼×´Ì¬£¬¿ÉÒÔÊ¹ÓÃ Cookie¡£ 
SocketÊÇÒ»¸ö¶Ëµ½¶ËµÄÍ¨ÐÅ¹ÜµÀ¡£ IPµØÖ·ºÍ¶Ë¿ÚºÅ×é³ÉÁË SocketµØÖ·¡£ SocketµØÖ·ÓÐÁ½Àà£º¾ÖÓò SocketµØÖ·ºÍÔ¶³Ì SocketµØÖ·¡£Ö»ÓÐ TCPÐ­Òé²ÅÓÐÔ¶³Ì SocketµØÖ·¡£·þÎñÆ÷ÎªÃ¿¸ö¿Í»§¶Ë´´½¨Ò»¸ö Socket£¬ÕâÐ© Socket·ÖÏíÍ¬ÑùµÄ¾ÖÓò SocketµØÖ·¡£ SocketÊ¹ÓÃµÄ´«ÊäÐ­Òé¿ÉÒÔÊÇ TCP»òÕß UDPµÈ¡£
ÏÂÔØÍøÒ³Ê±£¬ÅÀ³æ¿Í»§¶ËºÍ Web·þÎñÆ÷¶Ë½¨Á¢ SocketÁ¬½Ó¡£ Web·þÎñÆ÷Ä¬ÈÏÊ¹ÓÃ 80¶Ë¿Ú¡£ 

ÀûÓÃ requests¿â¿ÉÒÔºÜÇáÒ×µØ¸ù¾Ý¸ø¶¨ URLµØÖ·ÏÂÔØÍøÒ³¡£ 

³ýÁËÍøÒ³Ô´´úÂë£¬»¹¿ÉÒÔ´òÓ¡·µ»ØµÄÍ·ÐÅÏ¢£º 

ËäÈ»´ó²¿·ÖÍøÂç×ÊÔ´Ê¹ÓÃ HTTPÐ­ÒéÏÂÔØ£¬µ«ÊÇÎªÁË¼ÓÃÜÍ¨ÐÅÄÚÈÝ¼°¼ø¶¨ Web·þÎñÆ÷µÄÉí·Ý£¬»¹ÓÐ HTTPSÐ­Òé¡£Èç¹ûÊ¹ÓÃ https://À´·ÃÎÊÄ³¸öÍøÕ¾£¬¾Í±íÊ¾´ËÍøÕ¾²¿ÊðÁË SSLÖ¤Êé¡£
Ê¹ÓÃ requests¿âÊ±£¬²»ÐèÒª¶Ô HTTPSÇëÇó½øÐÐÌØÊâ´¦Àí¡£
ÎªÁË½ÚÔ¼´ø¿í£¬ÓÐµÄÍøÒ³ÊÇÓÃ GZIPÁ÷´«Êä¹ýÀ´µÄ¡£°ÑµÃµ½µÄ GZIPÁ÷ÄÚÈÝ±£´æµ½ÎÄ¼þµÄÊ¾Àý£º 



3.5.6.Ê¹ÓÃ SeleniumÏÂÔØ¶¯Ì¬ÄÚÈÝ
ÒòÎªÍøÒ³ÖÐ¿ÉÄÜ°üÀ¨ JavaScript£¬ËùÒÔ¶ÔÓÚÕâÑùµÄ¶¯Ì¬ÍøÒ³ÐèÒªÌØ±ð´¦Àí£¬ÀýÈçÓÐÐ©ÐÂÎÅÆÀÂÛÊÇ¶¯Ì¬Ò³Ãæ£¬Ò²¾ÍÊÇËµÄÚÈÝÊÇÓÃ JavaScriptÉú³ÉµÄ£¬¶ÔÓÚÕâÑùµÄÄÚÈÝ£¬ÐèÒª JavaScriptäÖÈ¾ÒÔºó²ÅÄÜµÃµ½¡£ 
SeleniumÊÇÒ»¸ö¿ªÔ´µÄÉ¡Ê½ÏîÄ¿£¬°üº¬Ò»ÏµÁÐÖ¼ÔÚÖ§³Öä¯ÀÀÆ÷×Ô¶¯»¯µÄ¹¤¾ßºÍ¿â¡£ËüÖ§³Ö°üÀ¨ PythonÔÚÄÚµÄ¼¸ÖÖÁ÷ÐÐ±à³ÌÓïÑÔµÄ°ó¶¨¡£ 
SeleniumÊ¹ÓÃ WebdriverÐ­ÒéÀ´×Ô¶¯»¯¸÷ÖÖÁ÷ÐÐä¯ÀÀÆ÷£¨Èç Firefox¡¢ChromeºÍ Safari£©ÉÏµÄ½ø³Ì¡£
Ê×ÏÈ°²×° Selenium£º 

ÎªÁËÊ¹ÓÃ Selenium×Ô¶¯»¯²Ù×÷ä¯ÀÀÆ÷£¬ÐèÒªä¯ÀÀÆ÷¶ÔÓ¦µÄÇý¶¯¡£Selenium FirefoxDriver»ò Selenium GeckoDriver¿ÉÒÔ´Ó MozillaµÄ¹Ù·½ GitHub´æ´¢¿âÖÐ£¨ https://github.com/ mozilla/geckodriver/releases£©ÏÂÔØ¡£
Ê¹ÓÃ FireFoxÇý¶¯µÄÊ¾ÀýÈçÏÂ£º 

driver.close()
ÎªÁË¼òµ¥Æð¼û£¬¿ÉÒÔÊ¹ÓÃÃûÎª Webdriver ManagerµÄµÚÈý·½ Python¿âÀ´»ñÈ¡ÕýÈ·µÄÇý¶¯³ÌÐò²¢¶ÔÆä½øÐÐÅäÖÃ¡£°²×° webdriver-manager£º 
pip install webdriver-manager
ÈÃ FirefoxÒÔÎÞÍ··½Ê½ÔËÐÐµÄ´úÂëÈçÏÂ£º 
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service 

from selenium.webdriver.firefox.options import Options 
from webdriver_manager.firefox import GeckoDriverManager 

try:
 s = Service(GeckoDriverManager(cache_valid_range=1).install())
 options = Options()
 options.headless = True

 brower = webdriver.Firefox(service=s, options=options)
 brower.get('https://pythonbasics.org')
 print(brower.page_source) 

finally:
 try:
 brower.close()
 except:
 pass

ÔËÐÐ JavaScript½Å±¾£º 
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service 

from webdriver_manager.firefox import GeckoDriverManager 
s = Service(GeckoDriverManager(cache_valid_range=1).install()) 
driver = webdriver.Firefox(service=s) 
driver.execute_script("alert('running javascript');")
Í¨¹ýÖ´ÐÐ JavaScript½Å±¾À´ÊµÏÖÒ³ÃæÏòÏÂ¹ö¶¯£º 
import time 
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service 


¿ÉÒÔÉèÖÃµÈ´ýÌõ¼þµÈ´ýÐèÒªµÄÊ±¼ä³¤¶È£º 


3.5.7.ÖØÊÔ
ÎªÁËÌá¸ßÅÀ³æµÄÎÈ¶¨ÐÔ£¬ÍùÍùÔÚ·ÅÆúÏÂÔØÖ®Ç°¶à´ÎÖØÊÔ¡£
Ïò HTTP¿Í»§¶ËÌí¼ÓÖØÊÔ²ßÂÔºÜ¼òµ¥¡£ÎÒÃÇ´´½¨Ò»¸ö HTTPAdapter²¢½«ÎÒÃÇµÄ²ßÂÔ´«µÝ¸øÊÊÅäÆ÷¡£ 

from requests.adapters import HTTPAdapter, Retry 
retry_strategy = Retry(
 total=3,
 status_forcelist=[429, 500, 502, 503, 504],
 allowed_methods=["HEAD", "GET", "OPTIONS"] 

) 
adapter = HTTPAdapter(max_retries=retry_strategy) 
http = requests.Session() 

http.mount("https://", adapter) http.mount("http://", adapter) 
response = http.get("https://api.twilio.com/")
Ä¬ÈÏµÄ Retry ÀàÌá¹©ÁËºÏÀíµÄÄ¬ÈÏÖµ£¬¸ß¶È¿ÉÅäÖÃ£¬ÕâÀïÊÇ×î³£¼û²ÎÊýµÄ¼òÒªËµÃ÷¡£ÏÂÃæµÄ²ÎÊý°üÀ¨ requests¿âÊ¹ÓÃµÄÄ¬ÈÏ²ÎÊý¡£ 

ÖØÊÔ³¢ÊÔµÄ×ÜÊý¡£Èç¹ûÊ§°ÜÇëÇó»òÖØ¶¨ÏòµÄÊýÁ¿³¬¹ý´ËÊýÁ¿£¬¿Í»§¶Ë½«Å×³ö urllib3. exceptions.MaxRetryError Òì³£¡£ 

ÒªÖØÊÔµÄ HTTPÏìÓ¦´úÂë¡£Äú¿ÉÄÜÏ£ÍûÖØÊÔ³£¼ûµÄ·þÎñÆ÷´íÎó£¨ 500¡¢502¡¢503¡¢ 504£©£¬ÒòÎª·þÎñÆ÷ºÍ·´Ïò´úÀí²¢²»×ÜÊÇ×ñÊØ HTTP¹æ·¶¡£ 

ÒªÖØÊÔµÄ HTTP·½·¨¡£Ä¬ÈÏÇé¿öÏÂ£¬Õâ°üÀ¨³ý POSTÖ®ÍâµÄËùÓÐ HTTP·½·¨£¬ÒòÎª POST¿ÉÄÜµ¼ÖÂÐÂµÄ²åÈë¡£ 

ËüÔÊÐíÄú¸ü¸Ä½ø³ÌÔÚÊ§°ÜµÄÁ½´ÎÇëÇóÖ®¼äÐÝÃßµÄÊ±¼ä£¬Ëã·¨ÈçÏÂ£º 

ÀýÈç£¬Èç¹ûÍË±ÜÒò×ÓÉèÖÃÎª£º
£¨1£©1 Ãë£¬Ïà¼ÌµÄË¯Ãß½«ÊÇ 0.5, 1, 2, 4, 8, 16, 32, 64, 128, 256

£¨2£©2Ãë£¬Ïà¼ÌµÄË¯ÃßÊ±¼ä½«ÊÇ -1, 2, 4, 8, 16, 32, 64, 128, 256, 512

£¨3£©10Ãë£¬Ïà¼ÌµÄË¯ÃßÊ±¼ä½«ÊÇ -5, 10, 20, 40, 80, 160, 320, 640, 1280, 2560¸ÃÖµ³ÊÖ¸ÊýÔö³¤£¬ÕâÊÇÖØÊÔ²ßÂÔµÄºÏÀíÄ¬ÈÏÊµÏÖ¡£


3.
6.ÏÂÔØÍ¼Æ¬

ÈçÏÂ´úÂë°Ñ URLµØÖ·ÖÐµÄÍ¼Æ¬Ð´µ½ÎÄ¼þÖÐÈ¥¡£ 

3.
7.ÍøÂçÅÀ³æµÄ±éÀúÓëÊµÏÖ



»¥ÁªÍøÖÐÓÐº£Á¿ÍøÒ³ÐÅÏ¢£¬ËüÃÇÊÇÍ¨¹ý³¬¼¶Á´½Ó½øÐÐÏà»¥Ìø×ªµÄ£¬ÕâÐ©³¬¼¶Á´½Ó°ÑÍøÒ³×é³ÉÁËÒ»ÕÅºÜ´óµÄÍø£¬ÈçÍ¼ 3-7ËùÊ¾¡£ÍøÂçÅÀ³æµÄ×¥È¡Ô­Àí¾ÍÊÇ´Ó»¥ÁªÍøÖÐµÄÒ»¸öÍøÒ³¿ªÊ¼£¬¸ù¾ÝÍøÒ³ÖÐµÄ³¬¼¶Á´½ÓÖð¸ö×¥È¡ÍøÒ³ÖÐÁ´½ÓµÄÆäËûÍøÒ³¡£

Í¼ 3-7 »¥ÁªÍøÍøÒ³Á´½ÓÍ¼
ÍøÒ³Í¨¹ý³¬¼¶Á´½ÓÏà»¥Á´½Ó£¬×é³ÉÁËÒ»¸öÅÓ´óµÄÎÞÐÎµÄÍø£¬ÐÅÏ¢Á¿Ê®·ÖÅÓ´ó£¬ÍøÂçÅÀ³æ²»¿ÉÄÜ×¥È¡ËùÓÐµÄÍøÒ³ÐÅÏ¢¡£ËùÒÔ£¬Ê¹ÓÃÍøÂçÅÀ³æ×¥È¡ÍøÒ³Òª×ñÑ­Ò»¶¨µÄÔ­Ôò£¬Ö÷ÒªÓÐ¹ã¶ÈÓÅÏÈÔ­ÔòºÍ×î¼ÑÓÅÏÈÔ­Ôò¡£
¹ã¶ÈÓÅÏÈÊÇÖ¸ÍøÂçÅÀ³æ»áÏÈ×¥È¡ÆðÊ¼ÍøÒ³ÖÐÁ´½ÓµÄËùÓÐÍøÒ³£¬È»ºóÔÙÑ¡ÔñÆäÖÐµÄÒ»¸öÁ´½ÓÍøÒ³£¬¼ÌÐø×¥È¡ÔÚ´ËÍøÒ³ÖÐÁ´½ÓµÄËùÓÐÍøÒ³¡£ÕâÊÇ×î³£ÓÃµÄ·½Ê½£¬Õâ¸ö·½·¨Ò²¿ÉÒÔÈÃÍøÂçÅÀ³æ²¢ÐÐ´¦Àí£¬Ìá¸ßÆä×¥È¡ËÙ¶È¡£ÒÔÍ¼ 3-8ÖÐµÄÍ¼ÎªÀýËµÃ÷¹ã¶È±éÀúµÄ¹ý³Ì¡£
ÀýÈçÔÚÍ¼ 3-8ÖÐ£¬AÎªÖÖ×Ó½Úµã£¬ÔòÊ×ÏÈ±éÀú A£¨µÚÒ»²ã£©£¬½Ó×ÅÊÇ BCDEF£¨µÚ¶þ²ã£©£¬½Ó×Å±éÀú GH£¨µÚÈý²ã£©£¬×îºó±éÀú I£¨µÚËÄ²ã£©¡£
¹ã¶ÈÓÅÏÈ±éÀúÊ¹ÓÃÒ»¸ö¶ÓÁÐÀ´ÊµÏÖ Todo±í£¬ÏÈ·ÃÎÊµÄÍøÒ³ÏÈÀ©Õ¹¡£Õë¶ÔÍ¼ 3-8£¬¹ã¶ÈÓÅÏÈ±éÀúµÄÖ´ÐÐ¹ý³ÌÈç±í 3-3ËùÊ¾¡£

Í¼ 3-8 ÍøÂçÅÀ³æ±éÀúµÄÍ¼
±í 3-3 ¹ã¶ÈÓÅÏÈ±éÀú¹ý³Ì±í 
Todo¶ÓÁÐ  Visited¼¯ºÏ  
a  null  
b c d e f  a  
c d e f  a b  
d e f  a b c  
e f  a b c d  
f h  a b c d e  
h g  a b c d e f  
g i  a b c d e f h  
i  a b c d e f h g  
null  a b c d e f h g i 

×¯×ÓÔøËµ£º¡°ÎáÉúÒ²ÓÐÑÄ£¬¶øÖªÒ²ÎÞÑÄ£¬ÒÔÓÐÑÄËæÎÞÑÄ£¬´ùÒÑ¡±¡£ÔÚÑ§Ï°ºÍ¹¤×÷µÄÊ±ºò£¬ÐèÒª·Ö±æÊÂÇéµÄÇáÖØ»º¼±£¬·ñÔòÒ»Î¶Âù¸É£¬×îÖÕ½á¹ûÖ»ÄÜÊÇ¡°´ùÒÑ¡±¡£¶ÔÓÚºÆå«ÎÞ±ßµÄ»¥ÁªÍø¶øÑÔ£¬ÍøÂçÅÀ³æÉæ¼°Ò³ÃæÈ·ÊµÖ»ÊÇ±ùÉ½Ò»½Ç£¬Òò´Ë£¬ÐèÒªÒÔ×îÐ¡µÄ´ú¼Û£¨Ó²¼þ¡¢´ø¿í£©»ñÈ¡µ½×î´óµÄÀûÒæ£¨ÊýÁ¿×î¶àµÄÖØÒªµÄÍøÒ³£©¡£
ÎªÁËÏÈ×¥È¡ÖØÒªµÄÍøÒ³£¬¿ÉÒÔ²ÉÓÃ×î¼ÑÓÅÏÈ¡£×î¼ÑÓÅÏÈÅÀ³æ²ßÂÔÒ²³ÆÎª¡°Ò³ÃæÑ¡ÔñÎÊÌâ¡±£¨ PageSelection£©£¬Í¨³££¬ÕâÑù±£Ö¤ÔÚÓÐÏÞ´ø¿íÌõ¼þÏÂ£¬¾¡¿ÉÄÜµØÕÕ¹Ëµ½ÖØÒªÐÔ¸ßµÄÍøÒ³¡£
ÈçºÎÊµÏÖ×î¼ÑÓÅÏÈÅÀ³æÄØ£¿×î¼òµ¥µÄ·½Ê½¿ÉÒÔÊ¹ÓÃÓÅÏÈ¼¶¶ÓÁÐ£¨ PriorityQueue£©À´ÊµÏÖ Todo±í£¬ÕâÑù£¬Ã¿´ÎÑ¡³öÀ´À©Õ¹µÄ URL¾ÍÊÇ¾ßÓÐ×î¸ßÖØÒªÐÔµÄÍøÒ³¡£ÔÚ¶ÓÁÐÖÐ£¬ÏÈ½øÈëµÄÔªËØÏÈ³ö£¬µ«ÊÇÔÚÓÅÏÈ¶ÓÁÐÖÐ£¬ÓÅÏÈ¼¶¸ßµÄÔªËØÏÈ³ö¶ÓÁÐ¡£
±ÈÈç£¬¼ÙÉèÉÏÍ¼µÄ½ÚµãÖØÒªÐÔ D>B>C>A>E>F>I>H£¬ÔòÕû¸ö±éÀú¹ý³ÌÈç±í 3-4ËùÊ¾¡£±í 3-4 ×î¼ÑÓÅÏÈ±éÀú¹ý³Ì±í 
TodoÓÅÏÈ¼¶¶Ó  Visited¼¯ºÏ  
A  null  
B,C,D,E,F  A  
B,C,E,F  A,D  
C,E,F  A,B,D  
E,F  A,B,C,D  
F,H  A,B,C,D,E  
H,G  A,B,C,D,E,F  
H  A,B,C,D,E,F,G  
I  A,B,C,D,E,F,H,G  
null  A,B,C,D,E,F,H,I 

Ê¹ÓÃ PythonÖÐµÄÓÅÏÈ¶ÓÁÐ£º 
import queue 
# Initializing a priority queue 
pqueue = queue.PriorityQueue() 
# Using put() function to insert elements 
pqueue.put((4,'China')) pqueue.put((1,'Russia')) pqueue.put((2,'England')) pqueue.put((5,'Nepal')) pqueue.put((3,'Italy')) 
# Get 3 lowest priority countries 
print(pqueue.get()) print(pqueue.get()) print(pqueue.get()) 
# Return total number of elements print(pqueue.qsize()) 
# Use the full() function to check priority queue is full or not. print(pqueue.full()) 
# Use the empty() function to check priority queue is empty or not. 
print(pqueue.empty())

3.8¡¡robotsÐ­Òé
ÍøÂçÅÀ³æÒª×ñÑ­ robotsÐ­Òé£¬Ò²¾ÍÊÇÒª¶ÁÈ¡ robots.txtÎÄ¼þ¡£ 
robots.txtÎÄ¼þ»ù±¾ÉÏÊÇÒ»ÖÖÖ¸¶¨ÅÀ³æ·ÃÎÊ²ßÂÔµÄ·½·¨£¬¿ÉÒÔÍ¨¹ý HTTPÔÚ±¾µØ URL¡°/robots.txt¡±ÉÏ·ÃÎÊ¸ÃÎÄ¼þ¡£Ñ¡ÔñÕâÖÖ·½·¨ÊÇÒòÎªËü¿ÉÒÔºÜÈÝÒ×µØÔÚÈÎºÎÏÖÓÐµÄ WWW·þÎñÆ÷ÉÏÊµÏÖ£¬²¢ÇÒÅÀ³æ¿ÉÒÔÍ¨¹ýµ¥¸öÎÄµµ¼ìË÷ÕÒµ½·ÃÎÊ²ßÂÔ¡£ 
urllib.robotparserÌá¹©ÁË RobotFileParserÀà£¬Ëü»Ø´ðÁËÓÐ¹ØÌØ¶¨ÓÃ»§´úÀíÊÇ·ñ¿ÉÒÔÔÚ·¢²¼ÁË robots.txtÎÄ¼þµÄÍøÕ¾ÉÏ»ñÈ¡ URLµÄÎÊÌâ¡£
Ê¾Àý´úÂëÈçÏÂ£º 

ÎªÁË·½±ãÅÀ³æ±éÀúºÍ¸üÐÂÍøÕ¾ÄÚÈÝ£¬ÍøÕ¾¿ÉÒÔÉèÖÃ Sitemap.xml¡£Sitemap.xmlÒ²¾ÍÊÇÍøÕ¾µØÍ¼£¬²»¹ýÕâ¸öÍøÕ¾µØÍ¼ÊÇÓÃ XMLÐ´µÄ£¬ÀýÈç£º 
https://search.gov/sitemap.xml
ÔÚÆäÖÐÁÐ³öÍøÕ¾ÖÐµÄÍøÖ·ÒÔ¼°¹ØÓÚÃ¿¸öÍøÖ·µÄÆäËûÔªÊý¾Ý£¨ÉÏ´Î¸üÐÂµÄÊ±¼ä¡¢¸ü¸ÄµÄÆµÂÊÒÔ¼°Ïà¶ÔÓÚÍøÕ¾ÉÏÆäËûÍøÖ·µÄÖØÒª³Ì¶ÈµÈ£©£¬ÒÔ±ãËÑË÷ÒýÇæ×¥È¡ÍøÕ¾¡£
ÍêÕû¸ñÊ½ÈçÏÂ£º ÆäÖÐµÄ XML±êÇ©µÄº¬ÒåËµÃ÷ÈçÏÂ¡£


£¨1£©loc£ºÒ³ÃæÓÀ¾ÃÁ´½ÓµØÖ·¡£

£¨2£©lastmod£ºÒ³Ãæ×îºóµÄÐÞ¸ÄÊ±¼ä¡£

£¨3£©changefreq£ºÒ³ÃæÄÚÈÝµÄ¸üÐÂÆµÂÊ¡£

£¨4£©priority£ºÏà¶ÔÓÚÆäËûÒ³ÃæµÄÓÅÏÈÈ¨¡£¶ÔÓÚÓÐÍøÕ¾µØÍ¼µÄÍøÕ¾£¬ÅÀ³æ¿ÉÒÔÀûÓÃÕâ¸öÍøÕ¾µØÍ¼±éÀúÍøÕ¾ºÍÔöÁ¿×¥È¡¡£ÒÔÏÂÊÇÓÐ¹ØÈçºÎ¶ÁÈë XML¸ñÊ½µÄÍøÕ¾µØÍ¼ÎÄ¼þµÄ¿ØÖÆÌ¨Ó¦ÓÃ³ÌÐò¡£ 



3.9¡¡Á¬½Ó³Ø
µ±Ò»¸öÐÂµÄÁ¬½ÓÇëÇó½øÀ´µÄÊ±ºò£¬Á¬½Ó³Ø¹ÜÀíÆ÷¼ì²éÁ¬½Ó³ØÖÐÊÇ·ñ°üº¬ÈÎºÎÃ»ÓÃµÄÁ¬½Ó£¬Èç¹ûÓÐµÄ»°£¬¾Í·µ»ØÒ»¸ö¡£
Èç¹ûÁ¬½Ó³ØÖÐËùÓÐµÄÁ¬½Ó¶¼Ã¦²¢ÇÒ×î´óµÄÁ¬½Ó³ØÊýÁ¿Ã»ÓÐ´ïµ½£¬¾Í´´½¨ÐÂµÄÁ¬½Ó²¢ÇÒÔö¼Óµ½Á¬½Ó³Ø¡£µ±Á¬½Ó³ØÖÐÔÚÓÃµÄÁ¬½Ó´ïµ½×î´óÖµ£¬ËùÓÐµÄÐÂÁ¬½ÓÇëÇó½øÈë¶ÓÁÐ£¬Ö±µ½Ò»¸öÁ¬½Ó¿ÉÓÃ»òÕßÁ¬½ÓÇëÇó³¬Ê±¡£
Á¬½Ó³Ø°üº¬ÈçÏÂ²ÎÊý¡£
£¨1£©Á¬½Ó³¬Ê±£º¿ØÖÆÇëÇóÒ»¸öÐÂÁ¬½ÓµÄµÈ´ýÊ±¼ä£¬Èç¹û³¬Ê±£¬½«»áÅ×³öÒ»¸öÒì³£¡£

£¨2£©×î´óÁ¬½ÓÊý£ºÉùÃ÷Á¬½Ó³ØµÄ×î´óÖµ£¬È±Ê¡ÊÇ 100¡£

£¨3£©×îÐ¡Á¬½ÓÊý£ºÁ¬½Ó³Ø´´½¨Ê±µÄ³õÊ¼Á¬½ÓÊýÁ¿¡£


³ÌÐòÒ»¿ªÊ¼³õÊ¼»¯´´½¨Èô¸ÉÊýÁ¿µÄ³¤Á´½Ó£¬¸øËûÃÇÉèÖÃÒ»¸ö±êÊ¶Î»£¬Õâ¸ö±êÊ¶Î»±íÊ¾¸ÃÁ´½ÓÊÇ·ñ¿ÕÏÐµÄ×´Ì¬¡£µ±ÐèÒª·¢ËÍÊý¾ÝµÄÊ±ºò£¬ÏµÍ³¸øËü·ÖÅäÒ»¸öµ±Ç°¿ÕÏÐµÄÁ´½Ó¡£Í¬Ê±£¬½«µÃµ½µÄÁ´½ÓÉèÖÃÎª¡°Ã¦¡±£¬µ±Êý¾Ý·¢ËÍÍê±Ïºó£¬°ÑÁ´½Ó±êÊ¶Î»ÉèÖÃÎª¡°ÏÐ¡±£¬ÈÃÏµÍ³¿ÉÒÔ·ÖÅä¸øÏÂ¸öÓÃ»§¡£ 
Session¶ÔÏóÔÊÐí¿çÇëÇó±£ÁôÄ³Ð©²ÎÊý£¬Ëü»¹ÔÚ´Ó SessionÊµÀý·¢³öµÄËùÓÐÇëÇóÖÐ±£Áô cookie£¬²¢½«Ê¹ÓÃ urllib3µÄÁ¬½Ó³Ø¡£Òò´Ë£¬Èç¹û¶ÔÍ¬Ò»Ö÷»ú·¢³ö¶à¸öÇëÇó£¬Ôòµ×²ã TCPÁ¬½Ó½«±»ÖØÓÃ£¬Õâ¿ÉÄÜ»áµ¼ÖÂÐÔÄÜÏÔÖøÌá¸ß¡£
ÈÃÎÒÃÇÍ¨¹ý½« cookieÉèÖÃ¸ø URL£¬È»ºóÔÙ´Î·¢³öÇëÇóÒÔ¼ì²é cookieÊÇ·ñÒÑÉèÖÃÀ´ËµÃ÷»á»°¶ÔÏóµÄÊ¹ÓÃ¡£ 

3.10.URLµØÖ·²éÐÂ
ÔÚ¿Æ¼¼ÂÛÎÄ·¢±íÊ±£¬ÎªÁË±ÜÃâÖØ¸´ÑÐ¾¿ºÍ³­Ï®£¬ÐèÒªµ½×¨ÃÅµÄ¿Æ¼¼Çé±¨Ëù×öÂÛÎÄ²éÐÂ¡£ÎªÁË±ÜÃâÖØ¸´×¥È¡£¬ URLµØÖ·Ò²ÐèÒª²éÐÂ¡£ÅÐ¶Ï½âÎö³öµÄ URLÊÇ·ñÒÑ¾­±éÀú¹ý½Ð×÷ URLSeen²âÊÔ¡£ URLSeen²âÊÔ¶ÔÅÀ³æÐÔÄÜÓÐÖØÒªµÄÓ°Ïì¡£±¾½Ú½éÉÜÁ½ÖÖÊµÏÖ¿ìËÙ URLSeen²âÊÔµÄ·½·¨¡£
ÔÚ½éÉÜÅÀ³æ¼Ü¹¹µÄÊ±ºò£¬ÎÒÃÇ½²½âÁË Frontier×é¼þµÄ×÷ÓÃ¡£Ëü×÷ÎªÒ»¸ö»ù´¡µÄ×é¼þ£¬ÎªÅÀ³æÌá¹© URL¡£Òò´Ë£¬ÔÚ FrontierÖÐÓÐÒ»¸öÊý¾Ý½á¹¹À´´æ´¢ URL¡£ÔÚÒ»Ð©Ð¡µÄÅÀ³æ³ÌÐòÖÐ£¬Ê¹ÓÃÄÚ´æ¶ÓÁÐ£¨ List¡¢HashMap»ò Queue£©»òÕßÓÅÏÈ¼¶¶ÓÁÐÀ´´æ´¢ URL£¬µ«ÄÚ´æÊÇÓÐÏÞµÄ¡£Í¨³£ÔÚÉÌÒµÓ¦ÓÃÖÐ£¬ URLµØÖ·Êý¾ÝÁ¿·Ç³£´ó¡£ÔçÆÚµÄÅÀ³æ¾­³£°Ñ URLµØÖ··ÅÔÚÊý¾Ý¿â±íÖÐ£¬µ«Êý¾Ý¿â¶ÔÓÚÕâÖÖ¼òµ¥µÄ½á¹¹»¯´æ´¢À´ËµÐ§ÂÊÌ«µÍ£¬¿ÉÒÔÓÃ B+Ê÷£¨https://github.com/NicolasLM/bplustree£©£¬»¹¿ÉÒÔ¿¼ÂÇÊ¹ÓÃÄÚ´æÊý¾Ý½á¹¹´æ´¢ RedisÀ´´æ´¢¡£

3.10.1.RedisÊý¾Ý¿â 
RedisµÄÇ¿´óÖ®´¦ÔÚÓÚ¶àÖÖÀàÐÍµÄÊý¾Ý½á¹¹µÄ¿ÉÓÃÐÔ¡£Ã¿Ò»¸öÊý¾Ý½á¹¹¶¼Ö§³ÖÒÔÌØ¶¨·½Ê½±íÊ¾Êý¾Ý£¬ÕâÓÐÖúÓÚÌá¸ß·ÃÎÊËÙ¶È¡£RedisµÄÊý¾Ý½á¹¹ÓÐ£º
£¨1£©Strings£»

£¨2£©Hashes£»

£¨3£©Lists£»

£¨4£©Sets£»

£¨5£©Sorted sets£»

£¨6£©Bitmaps£»

£¨7£©Hyperlogs£»

£¨8£©Geo-spatial indexes£»

£¨9£©Streams¡£ 
WindowsÏÂµÄ Redis¿É´Ó https://github.com/zkteco-home/redis-windowsÏÂÔØ¡£
Æô¶¯ Redis·þÎñ£º 




°²×° Redis Python¿Í»§¶Ë£º 

Ê¹ÓÃ Redis Python API¼¯ºÏ²Ù×÷µÄÍêÕûµÄÊ¾Àý´úÂëÈçÏÂ£º 

Ê¹ÓÃ RedisÊµÏÖµÄ URLµØÖ·²éÑ¯·½·¨ÈçÏÂ£º 

class UrlSeenDetector:
    def __init__(self):

 self.redisClient = redis.StrictRedis(host='localhost', port=6379,
 db=0)
 def detect(self, url):
 ret = self.redisClient.sismember("urlSeen", url)

 if ret:
 return ret

 self.redisClient.sadd("urlSeen", url) 

3.10.2.²¼Â¡¹ýÂËÆ÷
ÅÐ¶Ï URLµØÖ·ÊÇ·ñÒÑ¾­×¥È¡¹ý»¹¿ÉÒÔ½èÖúÓÚ²¼Â¡¹ýÂËÆ÷£¨ Bloom Filter£©¡£²¼Â¡¹ýÂËÆ÷µÄÊµÏÖ·½·¨ÊÇ£ºÀûÓÃÄÚ´æÖÐµÄÒ»¸ö³¤¶ÈÊÇ mµÄÎ»Êý×é B£¬¶ÔÆäÖÐËùÓÐÎ»¶¼ÖÃ 0£¬ÈçÍ¼ 3-9ËùÊ¾¡£ 

Í¼ 3-9 Î»Êý×é BµÄ³õÊ¼×´Ì¬
È»ºó¶ÔÃ¿¸ö±éÀú¹ýµÄ URL¸ù¾Ý k¸ö²»Í¬µÄÉ¢ÁÐº¯ÊýÖ´ÐÐÉ¢ÁÐ£¬Ã¿´ÎÉ¢ÁÐµÄ½á¹û¶¼ÊÇ²»´óÓÚ mµÄÒ»¸öÕûÊý a¡£¸ù¾ÝÉ¢ÁÐµÃµ½µÄÊýÔÚÎ»Êý×é B¶ÔÓ¦µÄÎ»ÉÏÖÃ 1£¬Ò²¾ÍÊÇÈÃ B[a]=1¡£Í¼ 3-10ËùÊ¾ÏÔÊ¾ÁË·ÅÈë 3¸ö URLºóÎ»Êý×é BµÄ×´Ì¬£¬ÕâÀï k=3¡£ 
URL1 URL2 URL3

Í¼ 3-10 ·ÅÈëÊý¾ÝºóÎ»Êý×é BµÄ×´Ì¬
Ã¿´Î²åÈëÒ»¸ö URL£¬Ò²Ö´ÐÐ k´ÎÉ¢ÁÐ£¬Ö»ÓÐµ±È«²¿Î»¶¼ÒÑ¾­ÖÃ 1ÁË²ÅÈÏÎªÕâ¸ö URLÒÑ¾­±éÀú¹ý¡£ bloom-.lter£¨https://github.com/remram44/python-bloom-.lter£©ÊµÏÖÁË²¼Â¡¹ýÂËÆ÷¡£ÈçÏÂÊÇÊ¹ÓÃ²¼Â¡¹ýÂËÆ÷µÄÒ»¸öÊ¾Àý£º 


²¼Â¡¹ýÂËÆ÷Èç¹û·µ»Ø²»°üº¬Ä³¸öÏîÄ¿£¬ÄÇ¿Ï¶¨¾ÍÊÇÃ»ÍùÀïÃæÔö¼Ó¹ýÕâ¸öÏîÄ¿£¬Èç¹û·µ»Ø°üº¬Ä³¸öÏîÄ¿£¬µ«ÆäÊµ¿ÉÄÜÃ»ÓÐÔö¼Ó¹ýÕâ¸öÏîÄ¿£¬ËùÒÔÓÐÎóÅÐµÄ¿ÉÄÜ¡£¶ÔÅÀ³æÀ´Ëµ£¬Ê¹ÓÃ²¼Â¡¹ýÂËÆ÷µÄºó¹ûÊÇ¿ÉÄÜµ¼ÖÂÂ©×¥ÍøÒ³¡£Èç¹ûÏëÖªµÀÐèÒªÊ¹ÓÃ¶àÉÙÎ»²ÅÄÜ½µµÍ´íÎó¸ÅÂÊ£¬¿ÉÒÔ´Ó±í 3-5µÄ´æ´¢ÏîÄ¿ºÍÎ»Êý±ÈÂÊ¹À¼Æ²¼Â¡¹ýÂËÆ÷µÄÎóÅÐÂÊ¡£
±í 3-5 ²¼Â¡¹ýÂËÆ÷ÎóÅÐÂÊ±í
±ÈÂÊ£¨items:bits£© ÎóÅÐÂÊ  
1:1  0.63212055882856  
1:2  0.39957640089373  
1:4  0.14689159766038  
1:8  0.02157714146322  
1:16  0.00046557303372  
1:32  0.00000021167340  
1:64  0.00000000000004 

ÎªÃ¿¸ö URL·ÖÅäÁ½¸ö×Ö½Ú¾Í¿ÉÒÔ´ïµ½Ç§·ÖÖ®¼¸µÄ³åÍ»£¬ÀýÈçÒ»¸ö±È½Ï±£ÊØµÄÊµÏÖ£¬ÎªÃ¿¸ö URL·ÖÅäÁË 4¸ö×Ö½Ú£¬ÏîÄ¿ºÍÎ»Êý±ÈÊÇ 1:32£¬ÎóÅÐÂÊÊÇ 0.00000021167340¡£¶ÔÓÚ 5000ÍòÊýÁ¿¼¶µÄ URL£¬²¼Â¡¹ýÂËÆ÷Ö»Õ¼ÓÃÁË 200MµÄ¿Õ¼ä£¬²¢ÇÒÅÅÖØËÙ¶È³¬¿ì£¬Ò»±éÏÂÀ´²»µ½Á½·ÖÖÓ¡£
ÓÃÒ»¸öÀà·â×° BloomFilter¡£ 

 def contain_url(self, url):
 if url in self.bloom:
 return True
 self.bloom.add(url)
 return False 

3.11.×¥È¡ RSS
ÒòÎª XML±È HTML¸ü¹æ·¶£¬ËùÒÔ³öÏÖÁË XML¸ñÊ½·â×°µÄÊý¾ÝÔ´¡£ RSSÊÇ¶ÔÍøÕ¾À¸Ä¿µÄÒ»ÖÖ XML¸ñÊ½µÄ·â×°¡£Ò»Ð©²©¿Í»òÕßÐÂÎÅÍøÕ¾Ìá¹©ÁË RSS£¨Really Simple Syndication£©¸ñÊ½µÄÊä³ö£¬·½±ã³ÌÐò¿ìËÙ·ÃÎÊ¸üÐÂµÄÐÅÏ¢¡£Ã¿Ò»ÌõÐÅÏ¢½Ð×÷ Feed¡£RSS×¥È¡µÄµÚÒ»²½ÊÇ½âÎö RSSÊý¾ÝÔ´£¬ÀýÈç£¬ https://arminreiter.com/feed/¾ÍÊÇÒ»¸ö RSSÊý¾ÝÔ´¡£
ÎªÁË¶ÁÈ¡ RSSÖÖ×Ó£¬Ê×ÏÈ°²×°°ü feedparser£¬È»ºóÊ¹ÓÃ feedparser.parse()·½·¨¶ÁÈë RSSÖÖ×Ó¡£ 

3.12.ÍøÒ³¸üÐÂ
¾­³£ÓÐÈË»áÎÊ£º¡°ÓÐÃ»ÓÐÊ²Ã´ÐÂÏûÏ¢£¿¡±£¬ÕâËµÃ÷ÈËµÄ´óÄÔÊÇÔöÁ¿»ñÈ¡ÐÅÏ¢µÄ£¬¶ÔÅÀ³æÀ´ËµÒ²ÊÇÈç´Ë¡£ÍøÕ¾ÖÐµÄÄÚÈÝ¾­³£»á±ä»¯£¬ÕâÐ©±ä»¯¾­³£ÔÚÍøÕ¾Ê×Ò³»òÕßÄ¿Â¼Ò³ÓÐ·´Ó¦¡£ÎªÁËÌá¸ß²É¼¯Ð§ÂÊ£¬ÍùÍù¿¼ÂÇÔöÁ¿²É¼¯ÍøÒ³£¬¿ÉÒÔ°ÑÕâ¸öÎÊÌâ¿´³ÉÊÇ±»²É¼¯µÄ Web·þÎñÆ÷ºÍ´æ´¢¿âÍ¬²½µÄÎÊÌâ¡£¸üÐÂÍøÒ³ÄÚÈÝµÄ»ù±¾Ô­ÀíÊÇ£ºÏÂÔØÍøÒ³Ê±£¬¼ÇÂ¼ÍøÒ³ÏÂÔØÊ±µÄÊ±¼ä£¬ÔöÁ¿²É¼¯Õâ¸öÍøÒ³Ê±£¬ÅÐ¶Ï URLµØÖ·¶ÔÓ¦µÄÍøÒ³ÊÇ·ñÓÐ¸üÐÂ¡£ 
HTTP 1.1ÉùÃ÷Ö§³ÖÒ»ÖÖÌØÊâÀàÐÍµÄ HTTP Get£¬½Ð×÷ HTTPÌõ¼þ Get¡£Èç¹ûÎÄ¼þÔÚÄ³¸öÌõ¼þÏÂÃ»ÓÐÐÞ¸Ä£¬Ôò HTTPÌõ¼þ Get²»ÏÂÔØÕâ¸öÍøÒ³¡£ÅÐ¶ÏÍøÒ³ÊÇ·ñÐÞ¸ÄµÄ·½·¨°üÀ¨£º If-Modi.ed-Since¡¢If-Unmodi.ed-Since¡¢If-Match¡¢If-None-Match»òÕß If-RangeÍ·ÐÅÏ¢¡£
ÅÀ³æ·¢ËÍÌõ¼þ GETÇëÇó£º 


µ±Ã»ÓÐ¸üÐÂÊ±·þÎñÆ÷µÄÏìÓ¦£º 

Èç¹û·þÎñÆ÷ÍøÒ³ÒÑ¾­¸üÐÂ¾Í»á°Ñ¿Í»§¶ËµÄÇëÇóµ±×÷Ò»¸öÆÕÍ¨µÄ GetÇëÇó·¢ËÍÍøÒ³ÄÚÈÝ£º 

Ìõ¼þÏÂÔØÃüÁî¿ÉÒÔ¸ù¾ÝÊ±¼äÌõ¼þÏÂÔØÍøÒ³¡£ÔÙ´ÎÇëÇóÒÑ¾­×¥È¡¹ýµÄÒ³ÃæÊ±£¬ÅÀ³æÍù Web·þÎñÆ÷·¢ËÍ If-Modi.ed-SinceÇëÇóÍ·£¬ÆäÖÐ°üº¬µÄÊ±¼äÊÇÏÈÇ°·þÎñÆ÷¶Ë·¢¹ýÀ´µÄ Last-Modi.ed×îºóÐÞ¸ÄÊ±¼ä´Á£¬ÕâÑùÈÃ Web·þÎñÆ÷¶Ë½øÐÐÑéÖ¤£¬Í¨¹ýÕâ¸öÊ±¼ä´ÁÅÐ¶ÏÅÀ³æÉÏ´Î×¥¹ýµÄÒ³ÃæÊÇ·ñÓÐÐÞ¸Ä¡£Èç¹ûÓÐÐÞ¸Ä£¬Ôò·µ»Ø HTTP×´Ì¬Âë 200ºÍÐÂµÄÄÚÈÝ£»Èç¹ûÃ»ÓÐ±ä»¯£¬ÔòÖ»·µ»Ø HTTP×´Ì¬Âë 304£¬¸æËßÅÀ³æÒ³ÃæÃ»ÓÐ±ä»¯¡£ÕâÑù¿ÉÒÔ´ó´ó¼õÉÙÔÚÍøÂçÉÏ´«ÊäµÄÊý¾Ý£¬Í¬Ê±Ò²¼õÇáÁË±»×¥È¡µÄ·þÎñÆ÷µÄ¸ºµ£¡£
¿´Ò»ÏÂ HTTPµÄ Get´úÂëÊ¾Àý¡£Response¶ÔÏóÖÐµÄÍ·ÐÅÏ¢·µ»Ø ETagºÍ×îºóÐÞ¸ÄÈÕÆÚ¡£ 

eTag = response.headers.get("ETag") 
print(eTag) 

lastModified = response.headers.get("Last-Modified") 
print(lastModified)
¿´Ò»ÏÂ HTTPÌõ¼þ GetµÄ´úÂëÊ¾Àý£¬ÔÚÈ¡µÃ HTTPÏìÓ¦Ç°£¬ËüÊ¹ÓÃ EtagÈ¥ÉèÖÃ If-None-MatchÍ·ÓòÐÅÏ¢²¢ÇÒÊ¹ÓÃ×îºóÐÞ¸ÄÊ±¼äÈ¥ÉèÖÃ If-Modi.ed-SinceÍ·ÓòÐÅÏ¢¡£Èç¹ûÍøÒ³Ã»ÓÐÐÞ¸Ä£¬×´Ì¬Âë·µ»Ø 304¡£ 

3.13.½ø¶ÈÌõ
ÅÀÈ¡Ê±ÍùÍùÐèÒªÏÔÊ¾×¥È¡½ø¶È¡£Ê¹ÓÃ tqdm¿â£¬ÎÒÃÇ¿ÉÒÔÖÆ×÷¿ØÖÆÌ¨ÐÐ½ø¶ÈÌõºÍ´øÓÐ GUI µÄ½ø¶ÈÌõ¡£Í¨¹ýÀûÓÃÕâÐ©½ø¶ÈÌõ£¬¿ÉÒÔ²é¿´ÎÒÃÇÊÇ·ñ¿¨ÔÚÄ³¸öµØ·½²¢Á¢¼´×ÅÊÖ´¦Àí¡£°²×° tqdm¿â£º 

Í¨¹ý range()º¯ÊýÊ¹ÓÃ tqdm£º 

°Ñ tqdm¼¯³É½øÅÀ³æ£º 


3.14.´¹Ö±ÐÐÒµ×¥È¡
²É¼¯Ò»Ð©ÐÂÎÅ·ÅÈëÍøÕ¾ÄÚÈÝ¹ÜÀíÏµÍ³Êý¾Ý¿â£¬Ê×ÏÈÈ·¶¨Òª²É¼¯µÄÄ¿Â¼Ò³Ê×Ò³£¬È»ºó¿ÉÒÔÍ¨¹ý·­Ò³±éÀúËùÓÐµÄÄ¿Â¼Ò³£¬ÌáÈ¡Ã¿¸öÄ¿Â¼Ò³¶ÔÓ¦µÄÏêÏ¸Ò³Ãæ¡£ÒÔÐÂÀËÐÂÎÅÎªÀý£¬Í¬Ò»¸öÄ¿Â¼ÏÂµÄ URLÊÇ£º 

ËùÓÐµÄÄ¿Â¼Ò³¶¼·ûºÏ 

ÕâÑùµÄ¹æÂÉ¡£ÆäÖÐ XXXÊÇÒ³ÂëºÅ£¬Ò³ÂëºÅ´Ó 1¿ªÊ¼¡£Ê¹ÓÃÑ­»·Éú³É 99¸öÄ¿Â¼Ò³ÍøÖ·¡£ 

Ê¹ÓÃ BeautifulSoup¿âÌáÈ¡Ä¿Â¼Ò³ÖÐµÄÏêÏ¸Ò³ÃæÐÅÏ¢¡£ BeautifulSoup°ÑÍøÒ³×ª»»³ÉÓÉ½Úµã×é³ÉµÄÊ÷¡£HTMLÎÄµµÊÇ bs4.BeautifulSoupÀàÐÍ£¬ÀýÈç°ÑËùÓÐµÄ³¬ÎÄ±¾Á´½Ó´òÓ¡³öÀ´£º 

ÌáÈ¡³öÏêÏ¸Ò³ÃæµÄÁ´½Óºó£¬ÔÙÓÃÀàËÆµÄ·½·¨ÌáÈ¡ÏêÏ¸Ò³ÖÐµÄÐÂÎÅ±êÌâºÍÕýÎÄ£¬²¢·ÅÈëÊý¾Ý¿â¡£ÕâÀïÊ¹ÓÃ pyodbc¿âÓë AccessÊý¾Ý¿â½øÐÐ½»»¥¡£
ÐèÒªÖ¸¶¨Êý¾Ý¿âÇý¶¯³ÌÐòµÄÖµÊÇ {Microsoft Access Driver (*.mdb, *.accdb)}¡£Ö¸¶¨Êý¾ÝÔ´£¨Data Source£©µÄÖµÊÇÒ»¸öÎÄ¼þÃû£¬ÀýÈç test_database.accdb¡£Êý¾Ý¿âÁ¬½Ó²ÎÊýÍ¨¹ýÒ»¸ö
×Ö·û´®Ö¸¶¨£¬Ö¸¶¨µÄ¶à¸öÖµÓÃ·ÖºÅ·Ö¸ô¿ª£¬´úÂëÈçÏÂ£º 

´´½¨±íµÄ SQLÓï¾ä¸ñÊ½ÈçÏÂ£º 

ÀýÈç£¬´´½¨Ò»¸ö article±íÓÃÀ´´æ·ÅÎÄÕÂ£º 

ÓÃ INSERTÓï¾ä°ÑÊý¾Ý·ÅÈëÊý¾Ý¿â£º 

ÔÚ PythonÖÐ£¬¿ÉÒÔÍ¨¹ý Cursor¶ÔÏóÖ´ÐÐ SQLÓï¾ä¡£ 

3.15.×¥È¡ÏÞÖÆµÄÓ¦¶Ô·½·¨
¶ÔÅÀ³æ²»ÓÑºÃµÄÍøÕ¾ÓÐ¸÷ÖÖ¸÷ÑùµÄÏÞÖÆ×¥È¡µÄ·½·¨£¬ËùÒÔÅÀ³æÓ¦¶ÔµÄ·½·¨Ò²²»Í¬¡£´Ó
Ô­ÀíÉÏÀ´Ëµ£¬Ö»Òªä¯ÀÀÆ÷¿ÉÒÔ·ÃÎÊ£¬ÅÀ³æÓ¦¸ÃÒ²¿ÉÒÔ·ÃÎÊ¡£ 

3.15.1.Ä£Äâä¯ÀÀÆ÷·ÃÎÊ
ÓÐÐ©ÍøÕ¾¼ì²éÇëÇóÍ·£¬Ö»Õý³£Ó¦´ðºÍä¯ÀÀÆ÷Ò»ÑùµÄÇëÇóÍ·¡£ÏÈ¼ì²éÏÂä¯ÀÀÆ÷·¢ËÍµÄÇë
ÇóÍ·£¬È»ºóÓÃ³ÌÐòÄ£Äâ·¢ËÍºÍä¯ÀÀÆ÷Ò»ÑùµÄÇëÇóÍ·¡£¿ÉÒÔÔÚ Chromeä¯ÀÀÆ÷ÖÐµÄ¿ª·¢Õß¹¤¾ßÖÐ¿´µ½ Chromeä¯ÀÀÆ÷·¢ËÍµÄÍ·ÐÅÏ¢¡£ÍøÕ¾ÍùÍù¼ì²é User-AgentµÄÖµ£¬¿ÉÒÔ°Ñ User-AgentµÄÖµÉèÖÃÎª£º 

ÍêÕû´úÂëÈçÏÂ£º 


3.15.2.Ê¹ÓÃ´úÀí IP
ÓÐÐ©ÍøÕ¾¶ÔÓÚÍ¬Ò»¸ö IPÔÚÒ»¶ÎÊ±¼äÄÚµÄ·ÃÎÊ´ÎÊýÓÐÏÞÖÆ£¬¿ÉÒÔÊ¹ÓÃ Socket´úÀíÀ´¸ü¸ÄÇëÇóµÄ IP£¬ÕâÊ±¿ÉÒÔÍ¨¹ý´óÁ¿²»Í¬µÄ Socket´úÀíÑ­»··ÃÎÊÍøÕ¾¡£
ÔÚ proxiesÊôÐÔÖÐÖ¸¶¨´úÀí£¬´úÂëÈçÏÂ£º 

ÐèÒªÓÃ»§ÃûºÍÃÜÂëÉí·ÝÑéÖ¤µÄ´úÀíÒÔ²»Í¬µÄ·½Ê½ÅäÖÃ£¬µ«ÊÇ£¬²îÒì²¢Ã»ÓÐÄÇÃ´´ó£¬ËùÐèÒªµÄÖ»ÊÇ¶ÔÉÏÃæµÄÓï·¨½øÐÐµ÷ÕûºÍ¸ü¸Ä£¬ÒÔÊÊÓ¦ÓÃÓÚÉí·ÝÑéÖ¤µÄÓÃ»§ÃûºÍÃÜÂë¡£ÏÂÃæÊÇÏÔÊ¾ÈçºÎÊ¹ÓÃÓÃ»§ÃûºÍÃÜÂëÉí·ÝÑéÖ¤ÅäÖÃ´úÀíµÄ´úÂë¡£ 

r = requests.get('https://url', proxies=proxies)
ÂÖ»»´úÀíµÄ´úÂëÈçÏÂ£º 


3.15.3.×¥È¡ÐèÒªµÇÂ¼µÄÍøÒ³
ÓÐÐ©Ò³Ãæ¿ÉÒÔÖ±½Ó´ò¿ª£¬¶øÓÐÐ©Ò³Ãæ±ØÐëµÇÂ¼Ö®ºó²ÅÄÜ´ò¿ª¡£¶Ôä¯ÀÀÆ÷À´Ëµ£¬ÍøÕ¾»á·¢ËÍ×´Ì¬ÐÅÏ¢¸øä¯ÀÀÆ÷£¬È»ºóä¯ÀÀÆ÷»á·µ»ØÕâ¸ö×´Ì¬ÐÅÏ¢¸øÍøÕ¾£¬Õâ¸ö×´Ì¬ÐÅÏ¢½Ð×÷ Cookie¡£µÇÂ¼ºó×¥È¡ÐÅÏ¢µÄ´úÂëÈçÏÂ£º 


3.16.±£´æÐÅÏ¢
ÐèÒª°Ñ×¥È¡ÏÂÀ´µÄÎÄ±¾´æÈëÊý¾Ý¿â£¬ÓÐÊ±ºòÐèÒª±£´æÍøÒ³Í¼Ïñ£¬ÀýÈç£¬ÍøÒ³Í¼Ïñ¾­¹ý¹«Ö¤ºó£¬ÓÐ¿ÉÄÜ×÷Îª·¨Í¥Ê¹ÓÃµÄÖ¤¾Ý¡£ 

3.16.1.SQLiteÊý¾Ý¿â
¿ÉÒÔ°Ñ½á¹¹»¯Êý¾Ý´æÈë SQLiteÊý¾Ý¿â¡£ SQLiteÊÇÒ»¸öÇ¶ÈëÊ½¹ØÏµÊý¾Ý¿âÒýÇæ£¬ËüÊÇÒ»¸ö¶ÀÁ¢µÄ£¬ÎÞ·þÎñÆ÷£¬ÁãÅäÖÃºÍÊÂÎñÐÔ SQLÊý¾Ý¿âÒýÇæ¡£ SQLiteÊµÏÖÁË SQLµÄ´ó²¿·Ö SQL-92±ê×¼£¬²¢Ã»ÓÐ×¨ÃÅµÄ½ø³Ì¹ÜÀí SQLiteÊý¾Ý¿âÎÄ¼þ¡£SQLiteÒýÇæ²»ÊÇÒ»¸ö¶ÀÁ¢µÄ½ø³Ì£¬Ïà·´£¬ËüÊÇ¾²Ì¬»ò¶¯Ì¬Á´½Óµ½Ó¦ÓÃ³ÌÐò¡£SQLiteÊý¾Ý¿âÊÇÒ»¸öÆÕÍ¨µÄ´ÅÅÌÎÄ¼þ£¬¿ÉÒÔÎ»ÓÚÄ¿Â¼²ã´Î½á¹¹ÖÐµÄÈÎºÎÎ»ÖÃ¡£
¿ÉÒÔÊ¹ÓÃ Dbeaver£¨https://github.com/dbeaver/dbeaver£©¹ÜÀí SQLiteÊý¾Ý¿â¡£
ÔÚ CentOSÏÂ¿ÉÒÔÊ¹ÓÃÈçÏÂÃüÁî°²×° sqlite°ü£º 

SQLite¸½´øÁË sqlite3ÃüÁîÐÐÊµÓÃ³ÌÐò£¬Ëü¿ÉÓÃÓÚ¶ÔÊý¾Ý¿â·¢³ö SQLÃüÁî¡£ÏÖÔÚÎÒÃÇ½«Ê¹ÓÃ sqlite3ÃüÁîÐÐ¹¤¾ßÀ´´´½¨Ò»¸öÐÂÊý¾Ý¿â¡£ 

ÎÒÃÇÎª sqlite3¹¤¾ßÌá¹©ÁËÒ»¸ö²ÎÊý¡£ test.dbÊÇÒ»¸öÊý¾Ý¿âÃû³Æ£¬ËüÊÇÎÒÃÇ´ÅÅÌÉÏµÄµ¥¸öÎÄ¼þ¡£Èç¹ûËü´æÔÚ£¬Ôò´ò¿ª£»Èç¹ûÃ»ÓÐ£¬Ôò´´½¨Ëü¡£ 

.tablesÃüÁîÌá¹© test.dbÊý¾Ý¿âÖÐµÄ±íÃûÁÐ±í¡£ test.dbÊý¾Ý¿âÖÐÄ¿Ç°Ã»ÓÐ±í¡£ .exitÃüÁî
ÖÕÖ¹ sqlite3ÃüÁîÐÐ¹¤¾ßµÄ½»»¥Ê½»á»°¡£ UNIXÃüÁî lsÏÔÊ¾µ±Ç°¹¤×÷Ä¿Â¼µÄÄÚÈÝ£¬ÎÒÃÇ¿ÉÒÔ¿´µ½ test.dbÎÄ¼þ£¬ËùÓÐÊý¾Ý¶¼½«´æ´¢ÔÚ´Ëµ¥¸öÎÄ¼þÖÐ¡£ 
SQLite3¿ÉÒÔÊ¹ÓÃ sqlite3Ä£¿éÓë Python¼¯³É¡£ÈçÏÂ´úÂë´´½¨Ò»¸öÊý¾Ý¿â±í²¢ÓÃÊý¾ÝÌî³äËü¡£ 


3.16.2.MySQLÊý¾Ý¿â 
MySQLÊÇÒ»¸ö»ùÓÚ·þÎñÆ÷µÄÊý¾Ý¿â¹ÜÀíÏµÍ³¡£Ò»Ì¨·þÎñÆ÷¿ÉÄÜ°üº¬¶à¸öÊý¾Ý¿â¡£ CREATE TABLE Óï¾äÓÃÓÚÔÚ MySQLÊý¾Ý¿âÖÐ´´½¨±í¡£ÔÚÕâÀï£¬ÄúÐèÒªÖ¸¶¨±íµÄÃû³ÆºÍÃ¿ÁÐµÄ¶¨Òå£¨Ãû³ÆºÍÊý¾ÝÀàÐÍ£©¡£ÒÔÏÂÊÇÔÚ MySQLÖÐ´´½¨±íµÄÓï·¨£º 

ÃûÎª execute()µÄ·½·¨£¨ÔÚÓÎ±ê¶ÔÏóÉÏµ÷ÓÃ£©½ÓÊÜÁ½¸ö±äÁ¿£º
£¨1£©Ò»¸ö×Ö·û´®Öµ£¬±íÊ¾ÒªÖ´ÐÐµÄ²éÑ¯¡£

£¨2£©¿ÉÑ¡µÄ args²ÎÊý£¬¿ÉÒÔÊÇÔª×é¡¢ÁÐ±í»ò×Öµä£¬±íÊ¾²éÑ¯µÄ²ÎÊý£¨Õ¼Î»·ûµÄÖµ£©¡£Ëü·µ»ØÒ»¸öÕûÊýÖµ£¬±íÊ¾²éÑ¯Ó°ÏìµÄÐÐÊý¡£ÏÂÃæµÄÊ¾ÀýÔÚÊý¾Ý¿â MySQLÖÐ´´½¨Ò»¸öÃûÎª newsµÄ±í²¢²åÈëÊý¾Ý¡£ 




3.16.3.MongoDBÊý¾Ý¿â
Ê×ÏÈ½éÉÜÔÚ LinuxÏÂ°²×° MongoDB£¬°²×°·þÎñÆ÷¶Ë£¬È»ºó½éÉÜÍ¨¹ý MongoDBÇý¶¯³ÌÐòºÍ MongoDB´ò½»µÀ¡£
Ê×ÏÈÏÂÔØ MongoDB£º 

½âÑ¹Ëõ£º 

ÔÚÊ×´ÎÆô¶¯ MongoDBÖ®Ç°£¬ÐèÒª´´½¨ mongod½ø³ÌÐ´ÈëÊý¾ÝµÄÄ¿Â¼¡£Ä¬ÈÏÇé¿öÏÂ£¬ mongod»á½«Êý¾ÝÐ´Èë /data/dbÄ¿Â¼¡£Ê¹ÓÃÒÔÏÂÃüÁî´´½¨¸ÃÄ¿Â¼£º 

ÔËÐÐ¿ÉÖ´ÐÐÎÄ¼þ mongod£º 

Í£Ö¹ÔËÐÐ£º 

´´½¨·þÎñ£º 

Êä³öÈçÏÂ£º 

Ä¬ÈÏÂ·¾¶ÔÚ /data/db£º 

ÔÚÅäÖÃÎÄ¼þ mongod.confÖÐ¶¨Òå°ó¶¨µÄ IPµØÖ·£¬ÈÃ mongodÄÜ¹»½ÓÊÕÍâ²¿Á¬½Ó£º 

Ê¹ÓÃÅäÖÃÎÄ¼þ£º 

¿ÉÒÔÍ¨¹ýÃüÁî mongoimport°ÑÊý¾Ýµ¼Èëµ½ localÊý¾Ý¿â£º 

Ò²¿ÉÒÔÓÃ mongoexport°ÑÊý¾Ýµ¼³ö¡£Ê×ÏÈ²é¿´°ïÖúÐÅÏ¢£º 

µ¼³öÊý¾Ý£ºMongoDBÇý¶¯³ÌÐòÔÊÐíÓÃ»§Ê¹ÓÃ²»Í¬µÄ±à³ÌÓïÑÔ´¦Àí MongoDB¡£PyMongoÊÇÓÃÓÚ Python Ó¦ÓÃ³ÌÐòµÄ¹Ù·½ MongoDBÇý¶¯³ÌÐò¡£ÈçÏÂÃüÁî°²×°Çý¶¯³ÌÐò£º 


ÒªÁ¬½Óµ½Êý¾Ý¿â£¬ÎÒÃÇÊ¹ÓÃ MongoClientÀàÀ´·ÃÎÊ mongodbÊµÀý£¬²¢Í¨¹ýËüÑ¡ÔñÎÒÃÇÏëÒªÊ¹ÓÃµÄÊý¾Ý¿â¡£Õâ¸öÀàµÄÎÞ²ÎÊý¹¹Ôìº¯ÊýÁ¬½Óµ½¶Ë¿Ú 27017ÉÏµÄÊ¾Àý£º 

»òÕß½ÓÊÜÒ»¸öÁ¬½Ó×Ö·û´®£º 

²åÈëÒ»ÌõÊý¾Ý£º 

cursor = mycollection.find() 
for record in cursor:
 print(record) 

client.close()
ÅÀ³æ×¥½øÀ´µÄÊý¾Ý½«»á»ýÑ¹µÃÔ½À´Ô½¶à£¬¿ÉÒÔÇå¿Õ MongoDBÖÐ nÌìÖ®Ç°µÄÊý¾Ý£¬ÎªÁËÃâÈ¥×Ô¼ºÐ´¸ö½Å±¾È¥Çå³ýÕâÐ©Âé·³µÄÊý¾Ý£¬¿ÉÒÔÊ¹ÓÃ ttlindexÀ´ÈÃÕâÐ©Êý¾Ý±£´æ nÌì£¬Ò²¾ÍÊÇ nÌìÖ®ºó×Ô¶¯É¾³ý¡£ 
TTL£¨Time To Live£©Ë÷ÒýÊÇÌØ¶¨µÄµ¥×Ö¶ÎË÷Òý£¬ MongoDB¿ÉÒÔÔÚÌØ¶¨Ê±¼ä»òÌØ¶¨Ê±¼ä¶Îºó×Ô¶¯´Ó¼¯ºÏÖÐÉ¾³ýÎÄµµ¡£Êý¾Ýµ½ÆÚ¶ÔÓÚÄ³Ð©ÀàÐÍµÄÐÅÏ¢£¨Èç»úÆ÷Éú³ÉµÄÊÂ¼þÊý¾Ý£¬ÈÕÖ¾ºÍ»á»°ÐÅÏ¢£©ºÜÓÐÓÃ£¬ÒòÎªÕâÑùµÄÐÅÏ¢Ö»ÐèÒªÔÚÊý¾Ý¿âÖÐ³ÖÐøÓÐÏÞµÄÊ±¼ä¡£
Òª´´½¨ TTLË÷Òý£¬¿ÉÒÔÔÚÆäÖµÎªÈÕÆÚ»ò°üº¬ÈÕÆÚÖµµÄÊý×éµÄ×Ö¶ÎÉÏÊ¹ÓÃ db.collection. createIndex()·½·¨£¬ÔÙ¼ÓÉÏ expireAfterSecondsÑ¡Ïî£¬ÀýÈç£¬ÒªÔÚ eventlog¼¯ºÏµÄ lastModi.edDate×Ö¶ÎÉÏ´´½¨ TTLË÷Òý£¬¿ÉÒÔÔÚ mongo shellÖÐÊ¹ÓÃÒÔÏÂ²Ù×÷£º 


3.16.4.´æÈë ElasticsearchËÑË÷ÒýÇæ
¿ÉÒÔÍ¨¹ý¿Í»§¶ËºÍ Elasticsearch ËÑË÷ÒýÇæµÄ·þÎñÆ÷¶Ë´ò½»µÀ¡£ elasticsearch-py(https:// github.com/elastic/elasticsearch-py)ÊÇ ElasticsearchµÄ¹Ù·½µ×²ã Python¿Í»§¶Ë¡£ÓÃ pip°²×° elasticsearchÄ£¿é£º 

Ë÷ÒýºÍ²éÑ¯µÄÊ¾Àý£º 


3.17.±¾ÕÂÐ¡½á 
Selenium×î³õÓÃÓÚ WebÓ¦ÓÃ³ÌÐòµÄ×Ô¶¯»¯²âÊÔ¡£±¾ÕÂ½éÉÜÁËÊ¹ÓÃ Selenium×¥È¡¶¯Ì¬ÍøÒ³£¬ÖØµãÊìÏ¤ÁË×¥È¡ÍøÒ³µÄ·½·¨¼°Í¨¹ýÌá¸ß URLµÄÅÐÖØËÙ¶ÈÀ´Ìá¸ß×¥È¡Ð§ÂÊ¡£



µÚ 4ÕÂ.´Ó»¥ÁªÍøÌáÈ¡ÐÅÏ¢
ÎÄµµÓÃÍøÂçÅÀ³æ×¥ÏÂÀ´»òÕßÊÕ¼¯¹ýÀ´ÒÔºó£¬ÐèÒª×ª»»³ÉÎÄ×Ö´®²ÅÄÜË÷ÒýÈë¿â¡£´Ó HTMLÌáÈ¡ÓÐÐ§µÄÎÄ±¾£¬¾­³£Åöµ½Á½ÖÖÀàÐÍµÄÎÊÌâ£ºÒ»ÖÖÊÇÕë¶ÔÌØ¶¨µÄÍøÒ³ÌØÕ÷ÌáÈ¡½á¹¹»¯ÐÅÏ¢£¬»¹ÓÐÒ»ÖÖ¾ÍÊÇÍ¨ÓÃµÄÍøÒ³È¥Ôë¡£ÎªÁË½â¾ö½á¹¹»¯ÐÅÏ¢ÌáÈ¡µÄÎÊÌâ£¬±¾½Ú½éÉÜÈçºÎÊ¹ÓÃ¿ªÔ´ÏîÄ¿½âÎöÍøÒ³£¬ÒÔ¼°ÈçºÎ°ÑÍøÒ³½âÎö³É DOMÊ÷£¬Í¬Ê±½áºÏ¾ßÌåµÄÀý×Ó½éÉÜ´Ó WebÍøÒ³ÌáÈ¡ÎÄ±¾µÄ»ù±¾¹ý³Ì¡£ 
4.1.Ê¶±ðÍøÒ³µÄ±àÂë
ÔÚÊµÏÖ´Ó WebÍøÒ³ÌáÈ¡ÎÄ±¾Ö®Ç°£¬Ê×ÏÈÒªÊ¶±ðÍøÒ³µÄ±àÂë£¬ÓÐÊ±ºò»¹ÐèÒª½øÒ»²½Ê¶±ðÍøÒ³ËùÊ¹ÓÃµÄÓïÑÔ£¬ÒòÎªÍ¬Ò»ÖÖ±àÂë¿ÉÄÜ¶ÔÓ¦¶àÖÖÓïÑÔ£¬ÀýÈç UTF-8±àÂë¿ÉÄÜ¶ÔÓ¦Ó¢ÎÄ»òÖÐÎÄµÈÈÎºÎÓïÑÔ¡£
Ê¶±ð±àÂëµÄÈý¸öÀ´Ô´£º Web·þÎñÆ÷·µ»ØµÄÍ·ÐÅÏ¢£»ÍøÒ³µÄ Meta±êÇ©£»·µ»ØÁ÷µÄ¶þ½øÖÆ¸ñÊ½¡£ 
Web·þÎñÆ÷·µ»ØÏìÓ¦µÄÍ·ÐÅÏ¢ÖÐ¿ÉÄÜ°üÀ¨ÁË±àÂëËµÃ÷£¬ÀýÈç£º 

ÍøÒ³µÄ Meta±êÇ©£¬ÀýÈç£º 

4.1.1.¶þ½øÖÆÁ÷µÄ±àÂë
ÃæÇ°µÄÒ»¶ÎÎÄ×Ö£¬ÍùÍù²»ÓÃËµÃ÷¾ÍÄÜ¹À¼Æ³öÊÇÓÃÊ²Ã´ÎÄ×ÖÐ´µÄ¡£³öÏÖÔÚ²»Í¬ÓïÑÔÖÐµÄ×Ö·ûÓÐÖØµþ£¬ÀýÈç£¬¿ÉÄÜ»áÓÐ³öÏÖÔÚÖÐÎÄÎÄµµÖÐµÄÓ¢ÎÄµ¥´Ê£¬ËùÒÔÒªÓÃÍ³¼ÆµÄ·½·¨²Â²â¶þ½øÖÆÁ÷µÄ±àÂë¡£
ÍøÒ³±Èµ¥´¿µÄÎÄ±¾Òª¸´ÔÓ¡£ÍøÒ³ÎÄ±¾ÖÐÓÐ¿ÉÄÜ°üº¬ºÍ±àÂëÎÞ¹ØµÄ¡¢¶îÍâµÄÔëÉùÊý¾Ý£¬±ÈÈç HTMLµÄ±ê¼Ç¡¢¿Õ¸ñºÍÆäËûµÄ¸ñÊ½ /¿ØÖÆ×Ö·û¡£ 
chardet£¨https://github.com/chardet/chardet£©¸ù¾ÝÃ¿ÖÖÓïÑÔÖÐµÄ×î³£¼ûµÄ×Ö·ûÀ´¹À¼Æ¶þ½øÖÆÁ÷ÊÇÄÄÖÖ±àÂë¡£chardet¿ÉÒÔ¼ì²âµÄ×Ö·û±àÂëÓÐ£ºÖÐÎÄ¡¢ÈÕÎÄ¡¢º«ÎÄ¡¢Î÷Àï¶ûÎÄ£¨Cyrillic£©¡¢Ï£À°ÎÄ¡¢Ï£²®À´ÎÄ¡£
Ê¹ÓÃ chardetÊ¶±ð¶þ½øÖÆ±àÂëµÄ´úÂëÈçÏÂ£º 

½èÖú chardetÊ¶±ðÍøÒ³±àÂëµÄ´úÂëÈçÏÂ£º 

response.apparent_encoding¾ÍÊÇÊ¹ÓÃÁË chardetÄ£¿é´ÓÍøÒ³µÄÄÚÈÝÖÐÅÐ¶ÏÍøÒ³±àÂë¡£ 

4.1.2.Ê¶±ð±àÂëµÄÕûÌåÁ÷³Ì
Ê¶±ð±àÂëµÄÕûÌåÁ÷³ÌÈçÏÂ£º
£¨1£©´Ó Web·þÎñÆ÷·µ»ØµÄ content type Í·ÐÅÏ¢ÖÐÌáÈ¡±àÂë£¬Èç¹ûÊÇ GB2312ÀàÐÍµÄ±àÂëÒªµ±³É GBK´¦Àí¡£

£¨2£©´ÓÍøÒ³µÄ Meta±êÇ©ÖÐÊ¶±ð×Ö·û±àÂë£¬Èç¹ûºÍ content typeÖÐµÄ±àÂë²»Ò»ÖÂ£¬ÒÔ MetaÖÐÉùÃ÷µÄ±àÂëÎª×¼¡£

£¨3£©Èç¹ûÈÔÈ»ÎÞ·¨È·¶¨ÍøÒ³ËùÊ¹ÓÃµÄ×Ö·û¼¯£¬ÐèÒª´Ó·µ»ØÁ÷µÄ¶þ½øÖÆ¸ñÊ½ÅÐ¶Ï¡£

£¨4£©È·¶¨ÍøÒ³ËùÊ¹ÓÃµÄÓïÑÔ£¬ÍùÍù²ÉÓÃÍ³¼ÆµÄ·½·¨À´¹À¼ÆÍøÒ³µÄÓïÑÔ¡£ Requests¿âµÄ utils.pyÀïµÄ get_encodings_from_content()º¯ÊýÒÑ¾­ÊµÏÖÁË´ÓÍøÒ³Ô´´úÂë




ÖÐ»ñÈ¡ Meta±êÇ©ÖÐµÄ×Ö·û¼¯¡£ 

ÍêÕûµÄÊ¶±ðÍøÒ³±àÂëµÄ´úÂëÈçÏÂ£º 

4.2.ÕýÔò±í´ïÊ½
¿ÉÒÔÓÃÕýÔò±í´ïÊ½ÌáÈ¡×Ö·û´®ÖÐµÄ EmailµØÖ·¡£¿ÉÒÔÔÚÍøÕ¾ http://regexpal.com/ÔÚÏß²âÊÔÕýÔò±í´ïÊ½£¬ÊäÈëÕýÔò±í´ïÊ½ºÍÒªÆ¥ÅäµÄÎÄ±¾£¬·µ»ØÆ¥Åä³öÀ´µÄÎ»ÖÃ¡£¿ÉÒÔÓÃÕýÔò±í´ïÊ½ÑéÖ¤Ä³¸ö×Ö·û´®ÊÇ·ñ·ûºÏÖ¸¶¨µÄÄ£Ê½£¬»òÕßËµ£¬ÊÇ·ñ¿ÉÒÔ½ÓÊÕÒ»¸ö×Ö·û´®£¬ÀýÈçÆ¥Åäµç»°ºÅÂë£º 

¿ÉÒÔÓÃ \d{3}´úÌæ \d\d\d£¬±íÊ¾Êý×ÖÖØ¸´Æ¥ÅäÈý´Î£¬\d{8}±íÊ¾Êý×ÖÖØ¸´Æ¥Åä°Ë´Î¡£ 

¼ì²é EmailµÄ¸ñÊ½µÄÓï¾ä£º 


ÌáÈ¡ÍøÒ³ÖÐµÄÓÊ¼þµØÖ·£º 

ÌáÈ¡µç»°ºÅÂë£º 

4.3.½á¹¹»¯ÐÅÏ¢µÄÌáÈ¡
±¾½Ú½éÉÜ´ÓÎÄ±¾ÖÐÌáÈ¡½á¹¹»¯ÐÅÏ¢¡£½éÉÜ PythonÖÐµÄ XML½Ó¿Ú£¬È»ºó½éÉÜÄÜ¹»ÓÃ XML½Ó¿Ú´ÓÍøÒ³ÌáÈ¡ÐÅÏ¢µÄÏîÄ¿ lxml¡£ 

4.3.1.½âÎö JSON 
JSON£¨JavaScript Object Notation£©ÊÇÒ»ÖÖÇáÁ¿¼¶µÄÊý¾Ý½»»»¸ñÊ½¡£ JSONÄ£¿éÊÇÒ»
¸ö PythonµÄ JSON¿ò¼Ü¡£ json.loads()·½·¨¿ÉÓÃÓÚ½âÎöÓÐÐ§µÄ JSON×Ö·û´®²¢½«Æä×ª»»Îª Python×Öµä£¬ËüÖ÷ÒªÓÃÓÚ½«ÓÉ JSONÊý¾Ý×é³ÉµÄÔ­Éú×Ö·û´®¡¢×Ö½Ú»ò×Ö½ÚÊý×é·´ÐòÁÐ»¯Îª Python×Öµä£¬Ê¾Àý´úÂëÈçÏÂ£º 


4.3.2.½âÎö XML
¿ÉÒÔÊ¹ÓÃ BeautifulSoup½âÎö XMLÎÄµµ£¬ÀýÈç£¬»ñÈ¡ÍøÕ¾ https://www.runoob.com/try/ xml/books.xmlÖÐ lang="en"µÄ title½ÚµãÖÐµÄÎÄ×ÖºÍ price½ÚµãÖÐµÄÎÄ×Ö¡£
¸ÃÍøÕ¾µÄ XMLÎÄµµÈçÏÂ£º 


ÊµÏÖ½âÎöµÄÔ´´úÂëÈçÏÂ£º 


4.3.3.XML½Ó¿Ú
Ò»¸ö XMLÎÄµµ¿ÉÒÔ¿´³ÉÓÉ½áµã¹¹³ÉµÄÊ÷£¬¼ÙÉèÓÐÈçÏÂµÄ XMLÎÄ¼þ¡£ 

 <FirstName>James</FirstName> <LastName>White</LastName> </Name> </Names>
ÉÏÃæµÄ XMLÎÄµµ¿ÉÒÔ±íÊ¾³ÉÈçÍ¼ 4-1ËùÊ¾µÄ DOMÊ÷£º 

Í¼ 4-1 DOMÊ÷
ÒªÕÒµ½Ò»¸ö XMLÎÄ¼þÖÐµÄ½Úµã£¬¿ÉÒÔÊ¹ÓÃ XPath±í´ïÊ½¡£Ê¹ÓÃ XPath±í´ïÊ½ / Names/Name¿ÉÒÔµÃµ½ËùÓÐ <Name>½Úµã¡£µÚÒ»¸öÐ±¸Ü±íÊ¾¸Ã <Names>½Úµã±ØÐëÊÇÒ»¸ö¸ù½Úµã¡£xpath()·½·¨·µ»Ø½ÚµãÁÐ±í£¬Õâ¸öÁÐ±í°üº¬Ò»Ð© <Name>½Úµã¡£ 
lxmlÊÇÒ»¸öÓÃ Python ±àÐ´µÄ¿â£¬¿ÉÒÔ¿ìËÙÁé»îµØ´¦Àí XML²¢Ö§³Ö XPath¡£
ÎªÁË½«Æä°²×°ÔÚ PythonÖÐ£¬Ö»ÐèÔÚ¿ØÖÆÌ¨ÖÐÊ¹ÓÃÒÔÏÂÃüÁî¡£ 


µ¼Èë lxml.etree µÄ³£ÓÃ·½·¨ÈçÏÂ£º 

ÌáÈ¡ <Name>½ÚµãµÄ´úÂëÈçÏÂ£º 



4.3.4.lxml´¦ÀíÍøÒ³ 
HTML±¾ÉíÆäÊµÖ»ÊÇÒ»¸ö HTML±ê¼ÇµÄ×Ö·û´®¶øÒÑ£¬Òò´ËÒ»°ãËµµ½Òª½âÎö HTML£¬µÚÒ»¸ö»áÏëµ½µÄ´ó¸Å¾ÍÊÇ×Ö·û´®²éÕÒ£¬×Ô¼ºÕë¶Ô HTMLµÄ½á¹¹Ð´Ò»¸öÄ£Ê½£¬È»ºóÓÃ str. .nd()·½·¨À´ÕÒ£¬ÀýÈçÒªÕÒÒ»¸ö td±êÇ©£º 

²»¹ý´«Í³µÄ×Ö·û´®²éÕÒÐ§ÂÊÌ«²î£¬Ò²Ã»ÓÐÒ»¸ö¹æÔòÐÔ£¬Òò¶ø·¢Õ¹³öÁËÕýÔò±í´ïÊ½¼¼Êõ£¬ÀýÈçÏÂÁÐÕâÑùµÄÓï·¨£º 

µ«ÕýÔò±í´ïÊ½µÄ¿É¶ÁÐÔ²»ºÃ¡£ÓÉÓÚ HTML±ê¼ÇµÄÇ¶Ì×ÌØÐÔ£¬¿ÉÒÔ²ÉÓÃ XPathµ¼º½ HTMLÎÄ¼þµÄÄÚ²¿½á¹¹¡£Ê¹ÓÃ lxml.html.fromstring()·½·¨¼ÓÔØÍøÒ³¡£ 

lxml°ÑÍøÒ³×ª»»³ÉÓÉ½Úµã×é³ÉµÄÊ÷¡£HTMLÎÄµµÊÇ lxml.html.HtmlElementÀàÐÍ¡£ 

4.3.5.Ê¹ÓÃ XPathÌáÈ¡ÐÅÏ¢ 
lxml¿ÉÒÔ°Ñ HTMLÎÄµµ×ª»»³É etreeÊ÷¡£XPath Ê¹ÓÃÂ·¾¶±í´ïÊ½À´Ñ¡È¡ etreeÖÐµÄ½Úµã»òÕß½Úµã¼¯¡£DOMÊ÷¿ÉÒÔÓÃ XPathÀ´µ¼º½¡£
Èç¹ûÂ·¾¶ÒÔµ¥Ð±Ïß /¿ªÊ¼£¬ÄÇÃ´¸ÃÂ·¾¶¾Í±íÊ¾µ½Ò»¸öÔªËØµÄ¾ø¶ÔÂ·¾¶¡£ÀýÈç£¬¿ÉÒÔ°ÑÕýÎÄµÄÄÚÈÝ½ÚµãÓÃ XPath±íÊ¾³öÀ´£º 
/HTML[1]/BODY[1]/DIV[1]/TABLE[1]/TBODY[1]/TR[1]/TD[1]/TABLE[1]/TBODY[1]/ TR[1]/TD[1]
µ«ÊÇÕâÖÖ XPathµÄ¾ø¶ÔÂ·¾¶µÄ±íÊ¾·½Ê½µ± etreeÊ÷µÄ½ÚµãÓÐÉ¾³ý»òÐÞ¸Äºó¾ÍÊ§Ð§ÁË¡£»¹¿ÉÒÔÓÃ XPathÖÐµÄÏà¶ÔÂ·¾¶À´Ñ¡Ôñ½Úµã£¬ÀýÈçÑ¡ÔñÍøÒ³ÖÐËùÓÐÁ´½ÓµÄ XPathÊÇ¡°//a¡±£¬Ñ¡ÔñÒ»¸ö±êÌâ DIV¿ÉÄÜÊÇ¡° //div[@class='title']¡±¡£Èç¹ûÂ·¾¶ÒÔË«Ð±Ïß // ¿ªÍ·£¬Ôò±íÊ¾Ïà¶ÔÂ·¾¶£¬Ñ¡ÔñÎÄµµÖÐËùÓÐÂú×ãË«Ð±Ïß //Ö®ºó¹æÔòµÄÔªËØ£¬ÀýÈçÒªÌáÈ¡¶¹°êµçÓ°µÄ¡°Ò»ÖÜ¿Ú±®°ñ¡±£º 


4.3.6.ÔÚ Chromeä¯ÀÀÆ÷ÖÐ²éÕÒ Selenium WebDriverµÄ XPath
ÔÚ Chromeä¯ÀÀÆ÷ÖÐÎÒÃÇÓÐÁ½¸öÓÃÓÚ²é¿´ÍøÒ³ÖÐÔªËØµÄ XPathµÄÑ¡Ïî£¬ÒªÃ´ÓÒ¼üµ¥»÷ÍøÒ³²¢µ¥»÷¼ì²éÑ¡Ïî£¬ÒªÃ´°´ F12¼ü£¬Ö®ºó£¬½«ÄÜ¹»¿´µ½ÈÎºÎ WebÔªËØµÄÏêÏ¸ÐÅÏ¢¡£
ÈÃÎÒÃÇÊ×ÏÈ´ò¿ª°Ù¶ÈÊ×Ò³£¬È»ºóÊ¹ÓÃ¼ì²é·½Ê½£¬ÓÒ¼üµ¥»÷ÊäÈë¿ò£¬È»ºóÄú¿ÉÒÔÔÚÓÒ±ßÃæ°å¿´µ½ÔªËØºÍ²»Í¬µÄÑ¡ÏîÀ´²é¿´ XPath¡£
°´¡°Ctrl+F¡±¼ü£¬½«ÔÚµ×²¿´ò¿ªÁíÒ»¸öÐ¡Ìõ£¬ÔÚÕâÀï¿ÉÒÔ°´×Ö·û´®¡¢Ñ¡ÔñÆ÷»ò XPath²éÕÒÔªËØ¡£±àÐ´ XPath¡°//input[@id="kw"]¡±¡£
¸ù¾Ý XPath²éÕÒÔªËØµÄ Python´úÂëÈçÏÂ£º


4.3.7.CSSÑ¡ÔñÆ÷ 
lxmlÌá¹©ÁË CSSÑ¡ÔñÆ÷À´²éÑ¯ÍøÒ³ÔªËØ£¬Ê¹ÓÃ CSSÑ¡ÔñÆ÷µÄÊ¾Àý´úÂëÈçÏÂ£º 

²ãµþÑ¡ÔñÆ÷Ä¿Ç°µÄÊµÏÖÊÇ´ÓÓÒÖÁ×ó½âÎöµÄ£¬Õâ¶ÔÓÚÉ¨ÃèÉÙÁ¿ÎÞ¹æÂÉÔªËØÓÐÀû¡£µ«ÊÂÊµÉÏÒ»°ãÔÚÊ¹ÓÃÖÐ£¬¶¼ÊÇÈ«ÎÄµµËÑË÷£¬Õâ¸öÊ±ºò´Ó×óÖÁÓÒ¾ÍÓÐºÜ´óµÄÐÔÄÜÓÅÊÆ£¬ÓÈÆäÊÇ²ãµþ¶à´Î£¬»òÕß×ó²àÑ¡ÔñÌõ¼þ¿Á¿ÌµÄ²ãµþÑ¡ÔñÆ÷¡£ 

4.3.8.Ê¹ÓÃ Parsel 
ParselÊÇÒ»¸öÊ¹ÓÃ XPathºÍ CSSÑ¡ÔñÆ÷´Ó HTMLºÍ XMLÖÐÌáÈ¡Êý¾ÝµÄ¿â¡£
Ê×ÏÈ°²×° Parsel¿â£º 


ÎªÁËÊ¹ÓÃ Parsel¿â£¬Ê×ÏÈÎªÒª·ÖÎöµÄ HTML»ò XMLÎÄ±¾´´½¨ Selector¶ÔÏó£º 

È»ºóÊ¹ÓÃ CSS»ò XPath±í´ïÊ½Ñ¡ÔñÔªËØ£º 

²¢´ÓÕâÐ©ÔªËØÖÐÌáÈ¡Êý¾Ý£º 

×¥È¡ https://quotes.toscrape.com/²¢Êä³ö±êÌâµÄ´úÂëÈçÏÂ¡£ 

Parsel¿â°üÀ¨ÃûÎª get()ºÍ getall()µÄº¯Êý£¬ÓÃÓÚÏÔÊ¾ title±êÇ©µÄÄÚÈÝ£¬ÀýÈçÅÀÈ¡µ±µ±ÍøµÄÊý¾Ý£¬ËÑË÷ Python¹Ø¼ü×ÖµÄµÚÒ»Ò³µÄËùÓÐÊé¼®ÐÅÏ¢£º 



4.3.9.ÌáÈ¡ÎÄ±¾
ÔÚÍøÒ³ÖÐ²»ÄÜÊ¹ÓÃÐ¡ÓÚºÅ <ºÍ´óÓÚºÅ >£¬ÕâÊÇÒòÎªä¯ÀÀÆ÷»áÎóÈÏÎªËüÃÇÊÇ±êÇ©¡£Ð¡ÓÚºÅºÍ´óÓÚºÅÊÇ±£Áô×Ö·û¡£Èç¹ûÏ£ÍûÕýÈ·µØÏÔÊ¾±£Áô×Ö·û£¬±ØÐëÓÃ×Ö·ûÊµÌå£¨ Character Entities£©×ªÒå¡£
×Ö·ûÊµÌåÓÃ &¿ªÊ¼£¬ÒÔ ;½áÊø¡£¿ÉÒÔÓÃÃû×Ö±íÊ¾Ò»¸ö×Ö·ûÊµÌå£¬ÀýÈç£¬Ð¡ÓÚºÅ½Ð×÷ lt£¬ÔÚÍøÒ³ÖÐÏÔÊ¾Ð¡ÓÚºÅ£¬¿ÉÒÔÕâÑùÐ´£º&lt;¡£
Ò²¿ÉÒÔÓÃ±àºÅ±íÊ¾Ò»¸ö×Ö·ûÊµÌå¡£Ð¡ÓÚºÅµÄ±àºÅÊÇ 60£¬ËùÒÔÒ²¿ÉÒÔÓÃ &#60;ÏÔÊ¾Ð¡ÓÚºÅ¡£
±íÊ¾Ò»¸ö×Ö·ûÊµÌåµÄ¸ñÊ½ÊÇ£º 

»òÕß 

html¿â°üº¬µÄº¯Êý html.unescape()»á°ÑÍøÒ³ÖÐµÄ×Ö·ûÊµÌåÌæ»»³ÉÔ­À´µÄ×Ö·û£¬ÀýÈç£º 


4.3.10.ÍøÒ³ÕýÎÄÌáÈ¡
ÍøÒ³ÓÐÄ¿Â¼µ¼º½Ê½Ò³Ãæ£¨ List Page£©ºÍÏêÏ¸Ò³Ãæ£¨ Detail Page£©µÈ¡£ÏêÏ¸Ò³ÃæÐèÒª³éÈ¡µÄÕýÎÄÐÅÏ¢°üÀ¨±êÌâºÍÄÚÈÝµÈ¡£
ÏêÏ¸Ò³ÃæµÄÌØÕ÷ÓÐ£º
£¨1£©ÎÄ×Ö½Ï¶à£¬¶øÇÒÕâÐ©ÎÄ×ÖÒ»°ã²»ÔÚ³¬¼¶Á´½ÓÉÏ¡£

£¨2£©Ò»°ã¶¼ÓÐÃ÷ÏÔµÄÎÄ±¾¶ÎÂä£¬ÏàÓ¦µÄ±êµã·ûºÅÒ²½Ï¶à¡£


£¨3£©URL½Ï³¤¡£ÔÚÒ»°ãµÄ WebÍøÕ¾Á´½Óµ¼º½Ê÷ÉÏ£¬Ö÷ÌâÐÍÍøÒ³Ö÷Òª·Ö²¼ÓÚµ×²ã£¬¶àÎªÒ¶½Úµã¡£¶ÔÓÚÍ¬Ò»ÍøÕ¾¶øÑÔ£¬Ö÷ÌâÐÍÍøÒ³µÄ URLÏà¶Ô½Ï³¤¡£ URLÌåÏÖÁËÍøÕ¾ÄÚÈÝ¹ÜÀíµÄ²ã´Î£¬¶ÔÓÚ´óÐÍÍøÕ¾¶øÑÔ£¬URLÍùÍù·Ç³£ÓÐ¹æÂÉ¡£
£¨4£©Á´½Ó½ÏÉÙ¡£Ö÷ÌâÐÍÍøÒ³µÄÖ÷ÌåÔÚÓÚ¡°ÎÄ×Ö¡±£¬Ïà¶ÔÓÚµ¼º½ÐÍÍøÒ³£¬ÆäÁ´½ÓÊý½ÏÉÙ¡£ÏêÏ¸Ò³ÃæÖÐÍøÒ³ÔëÒôµÄÌØÕ÷£º

£¨1£©¶àÒÔÁ´½ÓµÄÐÎÊ½³öÏÖ£¬Á´½Óµ½±ðµÄÏà¹ØÒ³Ãæ¡£

£¨2£©ÓÐºÜ¶àÃªÎÄ±¾£¬µ«±êµã·ûºÅ½ÏÉÙ£¬ÃªÎÄ±¾ÍùÍùÊÇ¶ÔÆäËûÁ´½ÓÒ³ÃæµÄËµÃ÷¡£

£¨3£©ÓÐÐí¶à³£¼ûµÄÔëÒôÎÄ±¾£¬Èç°æÈ¨ÉùÃ÷µÈ£¬ÔÚÊÓ¾õÉÏ£¬¶à³öÏÖÓÚÍøÒ³µÄ±ßÔµ¡£ Goose3¿â£¨https://github.com/goose3/goose3£©ÊÇ PythonÊµÏÖµÄ WebÒ³ÃæÄÚÈÝÌáÈ¡¹¤


¾ß¿â¡£ Goose½«³¢ÊÔÌáÈ¡ÒÔÏÂÐÅÏ¢£º
£¨1£©Ò»ÆªÎÄÕÂµÄÖ÷ÒªÄÚÈÝ£»

£¨2£©ÎÄÕÂµÄÖ÷ÒªÍ¼Æ¬£»

£¨3£©ÎÄÕÂÖÐÇ¶ÈëµÄÈÎºÎ YouTube/VimeoµçÓ°£»

£¨4£©ÔªÃèÊö£»

£¨5£©Ôª±êÇ©¡£
ÌáÈ¡µÄ´úÂëÈçÏÂ£º 




ÓÐÁ½ÖÖ·½·¨¿ÉÒÔ½«ÅäÖÃ´«µÝ¸ø Goose¡£µÚÒ»¸ö·½·¨ÊÇÏò Goose´«µÝÒ»¸ö Con.guration()¶ÔÏó£»µÚ¶þ¸ö·½·¨ÊÇ´«µÝÒ»¸öÅäÖÃ×Öµä¡£
ÀýÈç£¬Èç¹ûÏë¸ü¸Ä GooseÊ¹ÓÃµÄ userAgent£¬Ö»ÐèÍ¨¹ýÈçÏÂ´úÂëÅäÖÃ£º 

GooseÏÖÔÚ¿ÉÒÔÓë lxml html ½âÎöÆ÷»ò lxml soup½âÎöÆ÷Ò»ÆðÊ¹ÓÃ£¬Ä¬ÈÏÇé¿öÏÂÊ¹ÓÃ html ½âÎöÆ÷¡£Èç¹ûÏëÊ¹ÓÃ soup½âÎöÆ÷£¬ÇëÔÚÅäÖÃ dictÖÐ´«µÝËü£º 

4.4.´ÓÎÄ¼þÌáÈ¡ÐÅÏ¢ 
textract¿â£¨https://github.com/deanmalmgren/textract£©Ìá¹©ÁËÓÃÓÚ´ÓÈÎºÎÀàÐÍµÄÎÄ¼þÖÐÌáÈ¡ÄÚÈÝµÄµ¥Ò»½Ó¿Ú¡£
°²×° textract°ü£º 

ÊµÏÖÄÚÈÝÌáÈ¡µÄ Python´úÂëÈçÏÂ£º 

»¹¿ÉÒÔ½«¹Ø¼ü×Ö²ÎÊý´«µÝ¸ø textract.process()º¯Êý£¬ÀýÈç£¬Ê¹ÓÃÌØ¶¨·½·¨½âÎö PDF£¬ÈçÏÂËùÊ¾£º 

»òÖ¸¶¨ÌØ¶¨µÄÊä³ö±àÂë£º 

µ±ÎÄ¼þÃûÃ»ÓÐÀ©Õ¹ÃûÊ±£¬¿ÉÒÔ½«ÎÄ¼þµÄÀ©Õ¹ÃûÖ¸¶¨Îª textract.process µÄ²ÎÊý£¬ÈçÏÂËùÊ¾£º 

4.5.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁËÊ¹ÓÃ chardet¿âÊ¶±ðÍøÒ³±àÂë£¬chardetµÄËã·¨À´Ô´ÓÚ UniversalCharDet¡£Í¬Ê±½éÉÜÁËÊ¹ÓÃÕýÔò±í´ïÊ½ºÍÍøÒ³½âÎöÆ÷´ÓÍøÒ³Ô´´úÂëÌáÈ¡ÐÅÏ¢¡£¿ÉÒÔÊ¹ÓÃ textract´ÓÎÄµµÌáÈ¡ÐÅÏ¢¡£Èç¹ûÒª×¨ÃÅÌáÈ¡ PDFÎÄ¼þ£¬»¹¿ÉÒÔÊ¹ÓÃ pypdf¿â¡£



µÚ 5ÕÂ.Ê¹ÓÃ Scrapy¿ª·¢ÅÀ³æ

±¾ÕÂ½éÉÜÊ¹ÓÃ Scrapy¿ò¼Ü¿ª·¢ÅÀ³æ¡£×îºó½éÉÜ¿ª·¢ ScrapyµÄ Twisted¿ò¼Ü¡£ 
5.1.Ò»¸öÊ¾ÀýÅÀ³æµÄÑÝÁ·
ÎªÁËÕ¹Ê¾ Scrapy´øÀ´ÁËÊ²Ã´£¬ÎÒÃÇ½«Òýµ¼ÄúÍ¨¹ýÒ»¸ö ScrapyÅÀ³æµÄÊ¾ÀýÊ¹ÓÃ×î¼òµ¥µÄ·½Ê½ÔËÐÐÅÀ³æ¡£
ÕâÊÇÒ»¸öÅÀ³æµÄ´úÂë£¬Ëü´ÓÍøÕ¾ https://quotes.toscrape.comÉÏ×¥È¡ÖøÃûµÄÃûÑÔ£º 

½«Ëü·ÅÔÚÒ»¸öÎÄ±¾ÎÄ¼þÖÐ£¬½«ÆäÃüÃûÎª quotes_spider.py²¢Ê¹ÓÃ runspiderÃüÁîÔËÐÐÅÀ³æ£º 

Íê³Éºó£¬½«ÔÚ quote.jl ÎÄ¼þÖÐ»ñµÃ JSON Lines ¸ñÊ½µÄÃûÑÔÁÐ±í£¬ÆäÖÐ°üº¬ÎÄ±¾ºÍ×÷Õß£¬ÈçÏÂËùÊ¾£º

µ±ÔËÐÐÃüÁî scrapy runspider quotes_spider.pyÊ±£¬ScrapyÔÚ quotes_spider.pyÖÐ²éÕÒ Spider¶¨Òå²¢Í¨¹ýÆäÅÀ³æÒýÇæÔËÐÐËü¡£
ÅÀÍøÊ×ÏÈÏò start_urls ÊôÐÔÖÐ¶¨ÒåµÄ URL·¢³öÇëÇó£¨ÔÚÕâÖÖÇé¿öÏÂ£¬Ö»ÓÐÓÄÄ¬Àà±ðÖÐµÄÃûÑÔ URL£©²¢µ÷ÓÃÄ¬ÈÏ»Øµ÷·½·¨ parse()£¬½«ÏìÓ¦¶ÔÏó×÷Îª²ÎÊý´«µÝ¡£ÔÚ½âÎö»Øµ÷ÖÐ£¬Ê¹ÓÃ CSSÑ¡ÔñÆ÷Ñ­»·ÃûÑÔÔªËØ£¬Éú³ÉÒ»¸ö´øÓÐÌáÈ¡µÄÃûÑÔÎÄ±¾ºÍ×÷ÕßµÄ Python×Öµä£¬Ñ°ÕÒµ½ÏÂÒ»Ò³µÄÁ´½Ó£¬²¢Ê¹ÓÃÓë»Øµ÷ÏàÍ¬µÄ½âÎö·½·¨°²ÅÅÁíÒ»¸öÇëÇó¡£
ÔÚÕâÀï£¬Äã»á×¢Òâµ½ ScrapyµÄÖ÷ÒªÓÅµãÖ®Ò»£ºÇëÇóÊÇÒì²½µ÷¶ÈºÍ´¦ÀíµÄ¡£ÕâÒâÎ¶×Å Scrapy²»ÐèÒªµÈ´ýÇëÇóÍê³ÉºÍ´¦Àí£¬Ëü¿ÉÒÔÍ¬Ê±·¢ËÍÁíÒ»¸öÇëÇó»ò×öÆäËûÊÂÇé£¬ÕâÒ²ÒâÎ¶×Å¼´Ê¹Ä³Ð©ÇëÇóÊ§°Ü»òÔÚ´¦ÀíËüÊ±·¢Éú´íÎó£¬ÆäËûÇëÇóÒ²¿ÉÒÔ¼ÌÐø½øÐÐ¡£
ËäÈ»ÕâÊ¹ÄúÄÜ¹»½øÐÐ·Ç³£¿ìËÙµÄÅÀÈ¡£¨ÒÔÈÝ´í·½Ê½Í¬Ê±·¢ËÍ¶à¸ö²¢·¢ÇëÇó£©£¬µ« Scrapy »¹¿ÉÒÔÍ¨¹ýÒ»Ð©ÉèÖÃÈÃÄú¿ØÖÆÅÀÈ¡µÄÀñÃ²¡£Äã¿ÉÒÔÖ´ÐÐÒÔÏÂ²Ù×÷£º±ÈÈçÔÚÃ¿¸öÇëÇóÖ®¼äÉèÖÃÏÂÔØÑÓ³Ù£¬ÏÞÖÆÃ¿¸öÓò»òÃ¿¸ö IPµÄ²¢·¢ÇëÇóÊýÁ¿£¬ÉõÖÁÊ¹ÓÃ×Ô¶¯ÏÞÖÆÀ©Õ¹À´³¢ÊÔ×Ô¶¯¼ÆËãÕâÐ©ÇëÇó¡£ 
5.2.Scrapy PlaywrightÖ¸ÄÏ£ºäÖÈ¾ºÍ×¥È¡¶¯Ì¬ JSÍøÕ¾ 
Playwright.jsÓÉÎ¢ÈíÓÚ 2020Äê·¢²¼£¬ÓÉÓÚÆä¿çä¯ÀÀÆ÷Ö§³Ö£¨¿ÉÒÔÇý¶¯ Chromium¡¢ WebKitºÍ Firefoxä¯ÀÀÆ÷£¬¶ø PuppeterÖ»ÄÜÇý¶¯ Chromium£©ÒÔ¼°Ïà¶Ô Puppeter¸üºÃµÄ¿ª·¢ÈËÔ±ÌåÑé¸Ä½ø£¬ËüÕýÑ¸ËÙ³ÉÎªä¯ÀÀÆ÷×Ô¶¯»¯ºÍÍøÂç×¥È¡×îÊÜ»¶Ó­µÄÎÞÍ·ä¯ÀÀÆ÷¿â¡£Òò´Ë£¬ºÜ¸ßÐË¿´µ½Ðí¶à ScrapyµÄºËÐÄÎ¬»¤ÈËÔ±Îª Scrapy¿ª·¢ÁËÒ»¸ö Playwright¼¯³É£º scrapy-playwright(https://github.com/scrapy-plugins/scrapy-playwright)¡£ 
Scrapy PlaywrightÊÇÄú¿ÉÒÔÓë ScrapyÒ»ÆðÊ¹ÓÃµÄ×î¼ÑÎÞÍ·ä¯ÀÀÆ÷Ñ¡ÏîÖ®Ò»¡£
Èç¹ûÄãÏë¸úËæÒ»¸öÒÑ¾­ÉèÖÃºÃ²¢×¼±¸¾ÍÐ÷µÄÏîÄ¿£¬Äã¿ÉÒÔ¿ËÂ¡ÎÒÃÇ×¨ÃÅÓÃÓÚ±¾½ÚµÄ ScrapyÏîÄ¿¡£
Ò»µ©´Ó GitHub´æ´¢¿â£¨ https://github.com/python-scrapy-playbook/quotes-js-project£©ÏÂÔØÁË´úÂë£¬ÄúÖ»Ðè¸´ÖÆ /Õ³ÌùÔÚÏÂÃæÊ¹ÓÃµÄ´úÂëÆ¬¶Î£¬¾Í¿ÉÒÔ¿´µ½´úÂëÔÚ¼ÆËã»úÉÏÕý³£¹¤×÷¡£
ÔÚ ScrapyÏîÄ¿ÖÐ°²×° scrapy-playwrightÊÇ·Ç³£¼òµ¥µÄ¡£
Ê×ÏÈ£¬ÐèÒª°²×° scrapy-playwright±¾Éí£º 

È»ºó£¬Èç¹û»¹Ã»ÓÐ°²×° Playwright±¾Éí£¬ÔòÐèÒªÔÚÃüÁîÐÐÖÐÊ¹ÓÃÒÔÏÂÃüÁî½øÐÐ°²×°£º 

½ÓÏÂÀ´£¬ÐèÒª¸üÐÂ ScrapyÏîÄ¿ÉèÖÃ£¬ÒÔ¼¤»îÏîÄ¿ÖÐµÄ scrapy-playwright£º 

ScrapyPlaywrightDownloadHandlerÀà¼Ì³Ð×Ô ScrapyµÄÄ¬ÈÏ http/https´¦Àí³ÌÐò¡£Òò´Ë£¬
³ý·ÇÔÚ ScrapyÇëÇóÖÐÃ÷È·¼¤»î Scrapy£¬·ñÔòÕâÐ©ÇëÇó½«ÓÉ³£¹æµÄ ScrapyÏÂÔØ´¦Àí³ÌÐò´¦Àí¡£ÏÖÔÚ£¬½« scrapy-playwright¼¯³Éµ½ ScrapyÅÀ³æÖÐ£¬ÕâÑùËùÓÐµÄÇëÇó¶¼½«±» JSäÖÈ¾¡£ÒªÍ¨¹ý scrapy-playwrightÂ·ÓÉÇëÇó£¬Ö»ÐèÒªÔÚÇëÇóÔª×ÖµäÖÐÍ¨¹ýÉèÖÃ meta= 
{'playwright': True}À´ÆôÓÃËü¡£ 

responseÏÖÔÚ½«°üº¬ä¯ÀÀÆ÷¿´µ½µÄäÖÈ¾Ò³Ãæ¡£È»¶ø£¬ÓÐÊ± Playwright»áÔÚäÖÈ¾Õû¸öÒ³
ÃæÖ®Ç°½áÊøäÖÈ¾£¬¿ÉÒÔÊ¹ÓÃ Playwright PageMethodsÀ´½â¾öÕâ¸öÎÊÌâ¡£
ÒªÊ¹ÓÃ scrapy-playwrightÓëÒ³Ãæ½»»¥£¬ÎÒÃÇÐèÒªÊ¹ÓÃ PageMethodÀà¡£PageMethodÔÊÐíÎÒÃÇÔÚÒ³ÃæÉÏ×öºÜ¶à²»Í¬µÄÊÂÇé£¬°üÀ¨£º
£¨1£©µÈ´ýÔªËØ¼ÓÔØºóÔÙ·µ»ØÏìÓ¦£»

£¨2£©¹ö¶¯Ò³Ãæ£»

£¨3£©µ¥»÷Ò³ÃæÔªËØ£»

£¨4£©¶ÔÒ³Ãæ½øÐÐÆÁÄ»½ØÍ¼£»

£¨5£©´´½¨Ò³ÃæµÄ PDF¡£


Ê×ÏÈ£¬ÒªÔÚÅÀ³æÖÐÊ¹ÓÃ PageMethod¹¦ÄÜ£¬ÐèÒª½« playwright_include_pageÉèÖÃÎª True£¬ÕâÑù¾Í¿ÉÒÔ·ÃÎÊ Playwright Page¶ÔÏó£¬»¹¿ÉÒÔ½«ÈÎºÎ»Øµ÷¶¨ÒåÎªÐ­³Ìº¯Êý£¬ÒÔµÈ´ýÌá¹©µÄ Page¶ÔÏó¡£ 

×¢Òâ£ºµ±ÉèÖÃ 'playwright_include_page': TrueÊ±£¬»¹½¨ÒéÄúÉèÖÃÒ»¸öÇëÇó errback£¬ÒÔÈ·±£¼´Ê¹ÇëÇóÊ§°Ü£¬Ò³ÃæÒ²»á¹Ø±Õ£¨Èç¹û playwright_include_page=False»ò unset£¬ÔòÒ³ÃæÔÚÓöµ½Òì³£Ê±»á×Ô¶¯¹Ø±Õ£©¡£ 

class QuotesSpider(scrapy.Spider):
 name = 'quotes'
 def start_requests(self):
 url = 'https://quotes.toscrape.com/js/'

 yield scrapy.Request(url, meta=dict(
 playwright = True,
 playwright_include_page = True, 
errback=self.errback,

 ))
 async def parse(self, response):
 page = response.meta["playwright_page"]

 await page.close()
 for quote in response.css('div.quote'):
 quote_item = QuoteItem()
 quote_item['text'] = quote.css('span.text::text').get()
 quote_item['author'] = quote.css('small.author::text').get()
 quote_item['tags'] = quote.css('div.tags a.tag::text').getall()

 yield quote_item
 async def errback(self, failure):
 page = failure.request.meta["playwright_page"]

 await page.close()
ÒªÔÚÍ£Ö¹ javascriptäÖÈ¾²¢ÏòÅÀ³æ·µ»ØÏìÓ¦Ö®Ç°µÈ´ýÌØ¶¨µÄÒ³ÃæÔªËØ£¬ÎÒÃÇÖ»ÐèÒªÔÚ PlaywrightÉèÖÃÖÐµÄ playwright_page_methods¼üÖÐÌí¼ÓÒ»¸ö PageMethod£¬²¢¶¨ÒåÒ»¸ö wait_for_selector¡£
ÏÖÔÚ£¬µ±ÔËÐÐÅÀ³æÊ±£¬ scrapy-playwright½«äÖÈ¾Ò³Ãæ£¬Ö±µ½Ò³ÃæÉÏ³öÏÖÒ»¸ö´øÓÐÀà quoteµÄ div¡£ Í¨³£ÐèÒªÔÚ javascriptäÖÈ¾µÄÍøÕ¾ÉÏ×¥È¡¶à¸öÒ³Ãæ£¬¿ÉÒÔÍ¨¹ý¼ì²éÒ³ÃæÉÏÊÇ·ñ´æÔÚÏÂÒ»¸öÒ³ÃæÁ´½ÓÀ´ÊµÏÖÕâÒ»µã£¬È»ºóÊ¹ÓÃ´ÓÒ³ÃæÖÐ×¥È¡µÄ URLÇëÇó¸ÃÒ³Ãæ¡£ 



 async def parse(self, response):
 page = response.meta["playwright_page"]

 await page.close()
 for quote in response.css('div.quote'):
 quote_item = QuoteItem()
 quote_item['text'] = quote.css('span.text::text').get()
 quote_item['author'] = quote.css('small.author::text').get()
 quote_item['tags'] = quote.css('div.tags a.tag::text').getall()

 yield quote_item
 next_page = response.css('.next>a ::attr(href)').get()
 if next_page is not None: next_page_url = 'http://quotes.toscrape.com' + next_page
 yield scrapy.Request(next_page_url, meta=dict( playwright = True, playwright_include_page = True, playwright_page_methods =[
 PageMethod('wait_for_selector', 'div.quote'), ], errback=self.errback,
 ))
 async def errback(self, failure):
 page = failure.request.meta["playwright_page"]

 await page.close()
µ±Ò»¸öÍøÕ¾Ê¹ÓÃÎÞÏÞ¹ö¶¯¼ÓÔØÊý¾ÝÊ±£¬Ò²¿ÉÒÔÅäÖÃ scrapy-playwrightÏòÏÂ¹ö¶¯Ò³Ãæ¡£ÔÚ±¾ÀýÖÐ£¬ÔÚÏòÏÂ¹ö¶¯Ò³Ãæ£¬Ö±µ½µ½´ïµÚ 10¸öÃûÑÔÖ®Ç°£¬ Playwright½«µÈ´ý div.quote³öÏÖ¡£ 

 playwright_include_page = True, 
playwright_page_methods =[ PageMethod("wait_for_selector", "div.quote"), PageMethod("evaluate", "window.scrollBy(0, document.body.scrollHeight)"), PageMethod("wait_for_selector", "div.quote:nth-child(11)"), # 10 per page ],
 errback=self.errback,
 ))
 async def parse(self, response):
 page = response.meta["playwright_page"]

 await page.close()
 for quote in response.css('div.quote'):
 quote_item = QuoteItem()
 quote_item['text'] = quote.css('span.text::text').get()
 quote_item['author'] = quote.css('small.author::text').get()
 quote_item['tags'] = quote.css('div.tags a.tag::text').getall()

 yield quote_item
 async def errback(self, failure):
 page = failure.request.meta["playwright_page"]

 await page.close()
Ò³Ãæ½ØÍ¼Ò²ºÜ¼òµ¥¡£ÔÚÕâÀï£¬µ± Playwright¿´µ½Ñ¡ÔñÆ÷ div.quote£¬È»ºóËü»á½ØÈ¡Ò³ÃæµÄÆÁÄ»½ØÍ¼¡£ 
# spiders/quotes.py 
import scrapy 
from quotes_js_scraper.items import QuoteItem 
from scrapy_playwright.page import PageMethod 

class QuotesSpider(scrapy.Spider):
 name = 'quotes'
 def start_requests(self):
 url = "https://quotes.toscrape.com/js/"

 yield scrapy.Request(url, meta=dict(
 playwright = True,
 playwright_include_page = True, 
playwright_page_methods =[

 PageMethod("wait_for_selector", "div.quote"), ]
 )) 
 async def parse(self, response):
 page = response.meta["playwright_page"]
 screenshot = await page.screenshot(path="example.png", full_page=True)
 # screenshot contains the image's bytes
 await page.close()

ÔÚ Scrapy PlaywrightÖÐ£¬¿ÉÒÔÔÚ PLAYWRIGHT_LAUNCH_OPTIONSÉèÖÃÖÐÖ¸¶¨ proxy¼ü¡£ÔÚä¯ÀÀÆ÷¼¶±ðÅäÖÃ´úÀíÈçÏÂ£º 

5.3.½«×¥È¡µÄÊý¾Ý±£´æµ½ SQLiteÊý¾Ý¿â
Ã¿¸öÅÀ³æÏîÄ¿ÐèÒª×öµÄ×î³£¼ûµÄÈÎÎñÖ®Ò»¾ÍÊÇ±£´æÎÒÃÇ×¥È¡µÄÊý¾Ý¡£ÔÚ±£´æÊý¾ÝÊ±£¬
ÎÒÃÇ¿ÉÒÔÑ¡ÔñÐí¶àÑ¡Ïî£¬µ«ÊÇ£¬µ±ÄúÓÐÒ»¸öÐ¡ÏîÄ¿Ê±£¬Ê¹ÓÃ SQLiteÊÇ×îºÃµÄÑ¡ÔñÖ®Ò»¡£ÔÚ±¾½ÚÖÐ£¬ÎÒÃÇ½«½éÉÜÈçºÎÊ¹ÓÃ Scrapy¹ÜµÀ½«Êý¾Ý±£´æµ½ SQLiteÊý¾Ý¿â¡£ÏîÄ¿¹ÜµÀÊÇ Scrapy´¦ÀíÅÀ³æ×¥È¡µÄÊý¾ÝµÄ·½Ê½¡£ÔÚÅÀ³æ×¥È¡Ò»¸öÏîÄ¿ºó£¬Ëü±»·¢ËÍµ½ÏîÄ¿¹ÜµÀ£¬¸Ã¹ÜµÀÍ¨¹ýÒ»ÏµÁÐ²½Öè¶ÔÆä½øÐÐ´¦Àí£¬
ÕâÐ©²½Öè¿ÉÒÔÅäÖÃÎªÇåÀíºÍ´¦Àí×¥È¡µÄÊý¾Ý£¬È»ºó×îÖÕ½«Æä±£´æÔÚÄ³¸öµØ·½¡£¿ÉÒÔÊ¹ÓÃÏîÄ¿¹ÜµÀ½øÐÐÈçÏÂ²Ù×÷£º
£¨1£©ÇåÀí HTMLÊý¾Ý£»

£¨2£©ÑéÖ¤×¥È¡µÄÊý¾Ý£»

£¨3£©¼ì²éºÍÉ¾³ýÖØ¸´Êý¾Ý£»

£¨4£©½«Êý¾Ý´æ´¢ÔÚÊý¾Ý¿âÖÐ¡£ÕâÀï½«ÖØµã½éÉÜÊ¹ÓÃ Item PipelinesÔÚ SQLiteÊý¾Ý¿âÖÐ´æ´¢Êý¾Ý¡£´´½¨Ò»¸öÃûÎª sqlite_demoµÄ ScrapyÏîÄ¿£º 


scrapy startproject sqlite_demo
´ò¿ª pipelines.pyÎÄ¼þ²¢ÉèÖÃ¹ÜµÀ¡£´ò¿ª pipelines.pyÎÄ¼þÊ±£¬Ä¬ÈÏÎÄ¼þÓ¦ÈçÏÂËùÊ¾£º 
# pipelines.py 
from itemadapter import ItemAdapter 
class SqliteDemoPipeline:
 def process_item(self, item, spider):
 return item
Éú³ÉÅÀ³æ£º 
scrapy genspider quotes toscrape.com
ÐÞ¸Ä items.pyÄÚÈÝÈçÏÂ£º 
from scrapy.item import Item, Field 
class QuoteItem(Item):
 text = Field()
 tags = Field()
 author = Field()

ÐÞ¸Ä quotes.pyÄÚÈÝÈçÏÂ£º 
import scrapy 
from sqlite_demo.items import QuoteItem 
class QuotesSpider(scrapy.Spider):
 name = 'quotes'
 def start_requests(self):
 url = 'https://quotes.toscrape.com/'

 yield scrapy.Request(url, callback=self.parse)
 def parse(self, response):  quote_item = QuoteItem()
 for quote in response.css('div.quote'):
 quote_item['text'] = quote.css('span.text::text').get() quote_item['author'] = quote.css('small.author::text').get() quote_item['tags'] = quote.css('div.tags a.tag::text').getall()
 yield quote_item 
Python¸½´ø SQLite£¬Òò´ËÎÞÐë°²×°ÈÎºÎ¶«Î÷¼´¿ÉÔÚ ScrapyÏîÄ¿ÖÐÊ¹ÓÃËü¡£Ê×ÏÈ£¬ÎÒÃÇ½« sqlite3Ä£¿éµ¼Èëµ½ pipelines.pyÎÄ¼þÖÐ£¬²¢´´½¨Ò»¸ö __init__·½·¨£¬ÎÒ
ÃÇ½«Ê¹ÓÃËüÀ´´´½¨Êý¾Ý¿âºÍ±í¡£ 

ÔÚ __init__·½·¨ÖÐ£¬ÎÒÃÇ½«ÅäÖÃ¹ÜµÀÒÔÔÚÃ¿´Î¹ÜµÀ±»ÅÀ³æ¼¤»îÊ±Ö´ÐÐÒÔÏÂ²Ù×÷£º
£¨1£©³¢ÊÔÁ¬½Óµ½Êý¾Ý¿â demo.db£¬µ«Èç¹ûËü²»´æÔÚ£¬Ôò´´½¨Êý¾Ý¿â¡£

£¨2£©´´½¨Ò»¸öÓÎ±ê£¬ÎÒÃÇ½«Ê¹ÓÃËüÔÚÊý¾Ý¿âÖÐÖ´ÐÐ SQLÃüÁî¡£

£¨3£©Èç¹ûÊý¾Ý¿âÖÐ²»´æÔÚÃûÑÔ±í£¬Ôò´´½¨Ò»¸ö°üÀ¨ÎÄ±¾¡¢±êÇ©ºÍ×÷ÕßÁÐµÄÐÂ±í¡£ 




½ÓÏÂÀ´£¬ÎÒÃÇ½«Ê¹ÓÃ Scrapy¹ÜµÀÖÐµÄ process_itemÊÂ¼þ½«ÎÒÃÇ×¥È¡µÄÊý¾Ý´æ´¢µ½ SQLiteÊý¾Ý¿âÖÐ¡£ process_item()½«ÔÚÎÒÃÇµÄÅÀ³æÃ¿´Î×¥È¡ÏîÄ¿Ê±¼¤»î£¬Òò´ËÎÒÃÇÐèÒªÅäÖÃ process_ item()·½·¨ÒÔ½«ÏîÄ¿Êý¾Ý²åÈëµ½Êý¾Ý¿âÖÐ¡£ 

 """,
 (
 item['text'],
 str(item['tags']),
 item['author']

 ))
 # Execute insert of data into database
 self.con.commit()
 return item

ÔÚÕâÀï£¬ÎÒÃÇÊ×ÏÈ¶¨ÒåÁË SQL²åÈëÓï¾ä²¢ÎªÆäÌá¹©ÁËÊý¾Ý£¨×¢Òâ£¬ÕâÀï¶Ô±êÇ©Öµ½øÐÐÁË×Ö·û´®»¯£¬ÒòÎªËüÊÇÒ»¸öÊý×é£©£¬È»ºóÎÒÃÇÊ¹ÓÃÁË self.con.commit() ÃüÁî²åÈëÊý¾Ý¡£×îºó£¬Òª¼¤»îÏîÄ¿¹ÜµÀ£¬ÐèÒª½«Ëü°üº¬ÔÚ settings.pyÎÄ¼þÖÐ£º 

ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÎÒÃÇµÄÃûÑÔÅÀ³æÊ±£¬ SqliteDemoPipeline»á½«ËùÓÐ×¥È¡µÄÏîÄ¿´æ´¢ÔÚÊý¾Ý¿âÖÐ¡£
ºÃµÄ£¬ÏÖÔÚÎÒÃÇÓÐÁËÒ»¸öÏîÄ¿¹ÜµÀ£¬¿ÉÒÔ½«ËùÓÐ×¥È¡µÄÏîÄ¿±£´æµ½ÎÒÃÇµÄ SQLiteÊý¾Ý¿âÖÐ¡£µ«ÊÇ£¬Èç¹ûÎÒÃÇÖ»Ïë±£´æÒÔÇ°Ã»ÓÐ×¥¹ýµÄÐÂÊý¾ÝÔõÃ´°ì¡£
ÎÒÃÇ¿ÉÒÔÇáËÉµØÖØÐÂÅäÖÃÎÒÃÇµÄ¹ÜµÀÀ´Ö´ÐÐ´Ë²Ù×÷£¬·½·¨ÊÇÈÃËüÔÚÔÙ´Î²åÈëÖ®Ç°¼ì²éÊý¾ÝÊÇ·ñÒÑ¾­ÔÚÊý¾Ý¿âÖÐ¡£
Îª´Ë£¬½«ÔÚ pipelines.pyÎÄ¼þÖÐ´´½¨Ò»¸öÃûÎª SqliteNoDuplicatesPipelineµÄÐÂ¹ÜµÀ£¬²¢¸ü¸Ä process_item()·½·¨£¬Ê¹Æä½ö½«ÐÂÊý¾Ý²åÈëµ½Êý¾Ý¿âÖÐ¡£
Ëü½«Ê×ÏÈÔÚÊý¾Ý¿âÖÐ²éÕÒ item['text']£¬²¢ÇÒÖ»ÓÐÔÚËü²»´æÔÚÊ±²Å»á²åÈëµ½ÐÂÏîÄ¿ÖÐ¡£ 


Òª¼¤»î´Ë¹ÜµÀ£¬ÎÒÃÇ»¹ÐèÒª¸üÐÂ settings.pyÒÔÊ¹ÓÃ SqliteNoDuplicatesPipeline¶ø²»ÊÇÖ®Ç°µÄ SqliteDemoPipeline¹ÜµÀ£º 

ITEM_PIPELINES = {
 # 'sqlite_demo.pipelines.SqliteDemoPipeline': 300,
 'sqlite_demo.pipelines.SqliteNoDuplicatesPipeline': 300, 

}
ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÎÒÃÇµÄÃûÑÔÅÀ³æÊ±£¬¹ÜµÀ½«Ö»´æ´¢ÉÐÎ´ÔÚÊý¾Ý¿âÖÐµÄÐÂÊý¾Ý¡£ 
5.4.½«×¥È¡µÄÊý¾Ý±£´æµ½ MySQLÊý¾Ý¿â
Èç¹ûÄú×¥È¡ÍøÕ¾£¬ÔòÐèÒª½«¸ÃÊý¾Ý±£´æÔÚÄ³´¦¡£ MySQLÊÇÒ»¸ö²»´íµÄÑ¡Ôñ£¬ËüÊÇÄ¿
Ç°×îÁ÷ÐÐÇÒÒ×ÓÚÊ¹ÓÃµÄ SQLÊý¾Ý¿âÖ®Ò»¡£ÔÚ±¾½ÚÖÐ£¬ÎÒÃÇ½«½éÉÜÈçºÎÊ¹ÓÃ Scrapy¹ÜµÀ½«Êý¾Ý±£´æµ½ MySQLÊý¾Ý¿â¡£ÎªÁËÓëÊý¾Ý¿â½»»¥£¬ÐèÒªÒ»¸ö¿âÀ´´¦Àí½»»¥¡£Îª´Ë½«°²×° mysqlºÍ mysql-connector-
python¿â¡£ 

ÎÒÃÇ½«Ê¹ÓÃ mysql¿âÓë MySQLÊý¾Ý¿â½øÐÐ½»»¥¡£
´´½¨Ò»¸öÃûÎª mysql_demoµÄ ScrapyÏîÄ¿£º 


Éú³ÉÅÀ³æ£º 

ÐÞ¸Ä items.pyÄÚÈÝÈçÏÂ£º 

ÐÞ¸Ä quotes.pyÄÚÈÝÈçÏÂ£º 


ÏÂÒ»²½ÊÇÐèÒª´ò¿ª pipelines.pyÎÄ¼þ²¢ÉèÖÃ¹ÜµÀ¡£ 

Ê×ÏÈ£¬ÎÒÃÇ½« mysqlÄ£¿éµ¼Èëµ½ÎÒÃÇµÄ pipelines.pyÎÄ¼þÖÐ£¬²¢´´½¨Ò»¸ö __init__·½·¨£¬ÎÒÃÇ½«Ê¹ÓÃËüÀ´´´½¨Êý¾Ý¿âºÍ±í¡£ 

ÔÚ __init__·½·¨ÖÐ£¬ÎÒÃÇ½«ÅäÖÃ¹ÜµÀÒÔÔÚÃ¿´Î¹ÜµÀ±»ÅÀ³æ¼¤»îÊ±Ö´ÐÐÒÔÏÂ²Ù×÷£º
£¨1£©³¢ÊÔÁ¬½Óµ½Êý¾Ý¿â quotes£¬Èç¹ûËü²»´æÔÚ£¬Ôò´´½¨Êý¾Ý¿â¡£

£¨2£©´´½¨Ò»¸öÓÎ±ê£¬½«Ê¹ÓÃËüÔÚÊý¾Ý¿âÖÐÖ´ÐÐ SQLÃüÁî¡£

£¨3£©Èç¹ûÊý¾Ý¿âÖÐÉÐ²»´æÔÚ quotes±í£¬Ôò´´½¨Ò»¸ö°üº¬ÁÐÄÚÈÝ¡¢±êÇ©ºÍ×÷ÕßµÄÐÂ±í¡£ 



import mysql.connector 
class MysqlDemoPipeline:
    def __init__(self):
 self.conn = mysql.connector.connect(

 host = 'localhost',
 user = 'root',
 password = '******',

 database = 'quotes'
 )

 # Create cursor, used to execute commands
 self.cur = self.conn.cursor()
 # Create quotes table if none exists
 self.cur.execute("""
 CREATE TABLE IF NOT EXISTS quotes(

 id int NOT NULL auto_increment, 
content text,
 tags text,
 author VARCHAR(255),
 PRIMARY KEY (id)

 )
 """)

 def process_item(self, item, spider):
 return item
½ÓÏÂÀ´£¬ÎÒÃÇ½«Ê¹ÓÃ Scrapy¹ÜµÀÖÐµÄ process_itemÊÂ¼þ½«×¥È¡µÄÊý¾Ý´æ´¢µ½ MySQLÊý¾Ý¿âÖÐ¡£ process_item½«ÔÚÅÀ³æÃ¿´Î×¥È¡ÏîÄ¿Ê±¼¤»î£¬Òò´ËÎÒÃÇÐèÒªÅäÖÃ process_item()·½·¨ÒÔ½«ÏîÄ¿Êý¾Ý²åÈëÊý¾Ý¿âÖÐ¡£ÎÒÃÇ½«ÔÚÅÀ³æ¹Ø±ÕÊ±µ÷ÓÃ close_spider()·½·¨À´¹Ø±ÕÓÎ±êºÍÊý¾Ý¿âµÄÁ¬½Ó£¬ÒÔ±ÜÃâ±£³ÖÁ¬½Ó´ò¿ª¡£ 


ITEM_PIPELINES = {
 'mysql_demo.pipelines.MysqlDemoPipeline': 300, 

}
ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÃûÑÔÅÀ³æÊ±£¬ MysqlDemoPipeline »á½«ËùÓÐ×¥È¡µÄÏîÄ¿´æ´¢ÔÚÊý¾Ý¿âÖÐ¡£
ÏÖÔÚÎÒÃÇÓÐÒ»¸öÏîÄ¿¹ÜµÀ£¬¿ÉÒÔ½«ËùÓÐ×¥È¡µÄÏîÄ¿±£´æµ½ MySQLÊý¾Ý¿âÖÐ¡£µ«ÊÇ£¬Èç¹ûÎÒÃÇÖ»Ïë±£´æÒÔÇ°Ã»ÓÐ×¥È¡¹ýµÄÐÂÊý¾ÝÔõÃ´°ìÄØ£¿
ÎÒÃÇ¿ÉÒÔÍ¨¹ý¼ì²éÏîÄ¿ÊÇ·ñÒÑ¾­ÔÚÊý¾Ý¿âÖÐ£¬È»ºóÔÙ²åÈëÊý¾Ý¿âÀ´ÖØÐÂÅäÖÃ¹ÜµÀÖ´ÐÐ´Ë²Ù×÷¡£
Îª´Ë£¬½«ÔÚ pipelines.pyÎÄ¼þÖÐ´´½¨Ò»¸öÃûÎª MySQLNoDuplicatesPipelineµÄÐÂ¹ÜµÀ£¬²¢¸ü¸Ä process_item()·½·¨£¬Ê¹Æä½ö½«ÐÂÊý¾Ý²åÈëÊý¾Ý¿âÖÐ¡£
Ê×ÏÈ½«ÔÚÊý¾Ý¿âÖÐ²éÕÒ item['text']£¬²¢ÇÒÖ»ÓÐÔÚËü²»´æÔÚÊ±²Å»á²åÈëÐÂÏîÄ¿¡£ 


Òª¼¤»îÕâ¸ö¹ÜµÀ£¬»¹ÐèÒª¸üÐÂ settings.pyÒÔÊ¹ÓÃ MySQLNoDuplicatesPipeline¶ø²»ÊÇÖ®Ç°µÄ MysqlDemoPipeline¹ÜµÀ£º 

}
ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÃûÑÔÅÀ³æÊ±£¬¹ÜµÀ½«Ö»´æ´¢ÉÐÎ´ÔÚÊý¾Ý¿âÖÐµÄÐÂÊý¾Ý¡£ 
5.5.½«×¥È¡µÄÊý¾Ý±£´æµ½ PostgresÊý¾Ý¿â
ÔÚ±¾½ÚÖÐ£¬½«½éÉÜÈçºÎÊ¹ÓÃ Scrapy¹ÜµÀ½«Êý¾Ý±£´æµ½ PostgresÊý¾Ý¿â¡£ÎªÁË¿ªÊ¼£¬Ê×ÏÈÐèÒªÉèÖÃÒ»¸ö PostgresÊý¾Ý¿â¡£¿ÉÒÔÊ¹ÓÃÒÔÏÂÏÂÔØ£¨ https://www. postgresql.org/download/£©Ö®Ò»ÔÚ±¾µØ¼ÆËã»úÉÏÉèÖÃÒ»¸öÊý¾Ý¿â¡£ÉèÖÃºó£¬¿ÉÒÔ·ÃÎÊÊý¾Ý¿âµÄÊý¾Ý¿âÁ¬½ÓµÄÏêÏ¸ÐÅÏ¢£º 

ÏÖÔÚ¼¯³É±£´æÊý¾Ýµ½ PostgresÊý¾Ý¿âÖÐ¡£ÎªÁËÓëÊý¾Ý¿â½øÐÐ½»»¥£¬ÐèÒªÒ»¸ö¿âÀ´´¦Àí½»»¥£¬Îª´Ë£¬½«°²×° psycopg2¡£ 

½«Ê¹ÓÃ psycopg2Óë PostgresÊý¾Ý¿â½øÐÐ½»»¥¡£ÏÂÒ»²½ÊÇ´ò¿ª pipelines.pyÎÄ¼þ²¢ÉèÖÃ¹ÜµÀ¡£´ò¿ª pipelines.pyÎÄ¼þÊ±£¬Ä¬ÈÏÎÄ¼þÓ¦ÈçÏÂËùÊ¾£º 

ÏÖÔÚ½«ÅäÖÃÕâ¸ö¿Õ¹ÜµÀÀ´´æ´¢Êý¾Ý¡£
ÔÚ±¾½ÚÖÐ£¬´´½¨ÁËÒ»¸öÃûÎª postgres_demoµÄ ScrapyÏîÄ¿£¨Òò´ËÄ¬ÈÏ¹ÜµÀÊÇ PostgresDemoPipeline£©£¬²¢Ê¹ÓÃÁËÕâ¸öÅÀ³æ£º 


ÒÔ¼°ÏîÄ¿£º 

Ê×ÏÈ£¬½«°Ñ psycopg2µ¼Èë pipelines.pyÎÄ¼þ£¬²¢´´½¨Ò»¸öÓÃÓÚ´´½¨Êý¾Ý¿âºÍ±íµÄ __ init__·½·¨¡£ 

ÔÚ __init__·½·¨ÖÐ£¬Ã¿µ±¹ÜµÀ±»ÅÀ³æ¼¤»îÊ±£¬½«ÅäÖÃ¹ÜµÀÖ´ÐÐÒÔÏÂ²Ù×÷¡£
£¨1£©³¢ÊÔÁ¬½Óµ½Êý¾Ý¿â quotes£¬µ«Èç¹ûËü²»´æÔÚ£¬Ôò´´½¨Êý¾Ý¿â¡£

£¨2£©´´½¨Ò»¸ö¹â±ê£¬ÓÃÓÚÔÚÊý¾Ý¿âÖÐÖ´ÐÐ SQLÃüÁî¡£


£¨3£©Èç¹ûÊý¾Ý¿âÖÐ»¹²»´æÔÚ±í quotes£¬Ôò´´½¨Ò»¸ö°üº¬ÁÐ content¡¢tagsºÍ authorµÄÐÂ±í¡£ 

½ÓÏÂÀ´£¬ÎÒÃÇ½«Ê¹ÓÃ Scrapy¹ÜµÀÖÐµÄ process_itemÊÂ¼þÀ´½«ÎÒÃÇ×¥È¡µÄÊý¾Ý´æ´¢µ½ PostgresÊý¾Ý¿âÖÐ¡£
ÅÀ³æÃ¿´Î×¥È¡Ò»¸öÏîÄ¿£¬ process_item¶¼»á±»¼¤»î£¬ËùÒÔÐèÒªÅäÖÃ process_item·½·¨À´½«ÏîÄ¿Êý¾Ý²åÈëµ½Êý¾Ý¿âÖÐ¡£
½«ÔÚÅÀ³æ¹Ø±ÕÊ±µ÷ÓÃ close_spider()·½·¨À´¹Ø±ÕÓëÓÎ±êºÍÊý¾Ý¿âµÄÁ¬½Ó£¬ÒÔ±ÜÃâ±£³ÖÁ¬½Ó´ò¿ª¡£ 


 self.cur.close()
 self.connection.close()

×îºó£¬Òª¼¤»îÏîÄ¿¹ÜµÀ£¬ÐèÒª½«Æä°üº¬ÔÚ settings.pyÎÄ¼þÖÐ£º 

ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÃûÑÔÅÀ³æÊ±£¬ PostgresDemoPipeline½«°ÑËùÓÐ×¥À´µÄÏî´æ´¢ÔÚÊý¾Ý¿âÖÐ¡£
Èç¹ûÃ»ÓÐ SQLÊý¾Ý¿â²é¿´Æ÷£¬Ôò¿ÉÒÔÊ¹ÓÃ DBeaver£¨https://dbeaver.io/£©¡£
ºÃµÄ£¬ÏÖÔÚÓÐÁËÒ»¸öÏîÄ¿¹ÜµÀ£¬¿ÉÒÔ½«ËùÓÐ×¥À´µÄÏîÄ¿±£´æµ½ PostgresÊý¾Ý¿âÖÐ¡£È»¶ø£¬Èç¹ûÖ»Ïë±£´æÒÔÇ°Ã»ÓÐ×¥µ½µÄÐÂÊý¾ÝÄØ£¿
¿ÉÒÔºÜÈÝÒ×µØÖØÐÂÅäÖÃ¹ÜµÀ£¬ÈÃËüÔÚÔÙ´Î²åÈëÖ®Ç°¼ì²éÊý¾Ý¿âÖÐµÄÏîÊÇ·ñÒÑ¾­ÔÚÊý¾Ý¿âÖÐ¡£Îª´Ë£¬½«ÔÚ pipelines.pyÎÄ¼þÖÐ´´½¨Ò»¸öÃûÎª PostgresNoDuplicatesPipelineµÄÐÂ¹ÜµÀ£¬²¢¸ü¸Ä process_item·½·¨£¬Ê¹ÆäÖ»ÏòÊý¾Ý¿âÖÐ²åÈëÐÂÊý¾Ý¡£Ëü½«Ê×ÏÈÔÚÊý¾Ý¿âÖÐ²éÕÒ item['text']£¬Ö»ÓÐµ±Ëü²»ÔÚÊ±²Å»á²åÈëÐÂÏî¡£ 


Òª¼¤»î´Ë¹ÜµÀ£¬»¹ÐèÒª¸üÐÂ settings.pyÒÔÊ¹ÓÃ PostgresNoDuplicatesPipeline£¬¶ø²»ÊÇÒÔÇ°µÄ PostgresDemoPipeline¹ÜµÀ£º
# settings.py 
ITEM_PIPELINES = {
 #'postgres_demo.pipelines.PostgresDemoPipeline': 300,
 'postgres_demo.pipelines.PostgresNoDuplicatesPipeline': 300, 

}
ÏÖÔÚ£¬µ±ÎÒÃÇÔËÐÐÃûÑÔÅÀ³æÊ±£¬¹ÜµÀ½«Ö»´æ´¢Êý¾Ý¿âÖÐÉÐÎ´´æÔÚµÄÐÂÊý¾Ý¡£ 
5.6.Scrapyd£º²¿Êð¡¢µ÷¶ÈºÍÔËÐÐ ScrapyÅÀ³æ 
ScrapydÔÊÐíÎÒÃÇÔÚ·þÎñÆ÷ÉÏ²¿Êð ScrapyÅÀ³æ²¢Ê¹ÓÃ JSON APIÔ¶³ÌÔËÐÐËüÃÇµÄÓ¦ÓÃ³ÌÐò¡£Scrapyd ÔÊÐíÄú£º
£¨1£©ÔËÐÐ Scrapy×÷Òµ¡£

£¨2£©ÔÝÍ£ºÍÈ¡Ïû Scrapy×÷Òµ¡£

£¨3£©¹ÜÀí ScrapyÏîÄ¿ /ÅÀ³æ°æ±¾¡£

£¨4£©Ô¶³Ì·ÃÎÊ ScrapyÈÕÖ¾¡£Ê¹ÓÃ Scrapyd£¬Äú¿ÉÒÔÊ¹ÓÃÏÖ³ÉµÄ Scrapyd¹ÜÀí¹¤¾ß´ÓÒ»¸öÖÐÐÄµã¹ÜÀí¶àÌ¨·þÎñÆ÷¡£ÉèÖÃ Scrapyd¼È¿ìËÙÓÖ¼òµ¥£¬¿ÉÒÔÔÚ±¾µØ»ò·þÎñÆ÷ÉÏÔËÐÐËü¡£µÚÒ»²½ÊÇ°²×° Scrapyd£º 



È»ºóÊ¹ÓÃÒÔÏÂÃüÁîÆô¶¯·þÎñÆ÷£º 

Õâ½«Æô¶¯ Scrapyd¡£¿ÉÒÔÔÚä¯ÀÀÆ÷ÖÐ´ò¿ªÍøÖ· http://localhost:6800/£¬ÏÔÊ¾ Scrapyd¹ÜÀí½çÃæ¡£
ÒªÊ¹ÓÃ ScrapydÔËÐÐ×÷Òµ£¬Ê×ÏÈÐèÒª°Ñ ScrapyÏîÄ¿²¿Êðµ½ Scrapyd·þÎñÆ÷¡£Îª´Ë£¬ÓÐÒ»¸öÃûÎª scrapyd-clientµÄÒ×ÓÚÊ¹ÓÃµÄ¿â£¬ËüÊ¹´Ë¹ý³Ì·Ç³£¼òµ¥¡£
Ê×ÏÈ°²×° scrapyd-client£º 

°²×°ºó£¬µ¼º½µ½Òª²¿ÊðµÄ ScrapyÏîÄ¿²¢´ò¿ª scrapyd.cfg ÎÄ¼þ£¬¸ÃÎÄ¼þÓ¦Î»ÓÚÏîÄ¿µÄ¸ùÄ¿Â¼ÖÐ¡£È»ºóÓ¦¸Ã»á¿´µ½ÀàËÆÕâÑùµÄÄÚÈÝ£¬ÆäÖÐµÄ¡° demo¡±ÎÄ±¾ÓÃ ScrapyÏîÄ¿Ãû³ÆÌæ»»£º ÔÚÕâÀï£¬scrapyd.cfgÅäÖÃÎÄ¼þ¶¨ÒåÁË ScrapyÏîÄ¿Ó¦¸Ã²¿Êðµ½µÄ¶Ëµã¡£Èç¹ûÎÒÃÇÏë½«Æä²¿Êðµ½±¾µØÔËÐÐµÄ Scrapyd·þÎñÆ÷£¬Ö»ÐèÈ¡Ïû×¢ÊÍ urlÖµ¡£ 



È»ºóÔÚ ScrapyÏîÄ¿µÄ¸ùÄ¿Â¼ÖÐÔËÐÐÒÔÏÂÃüÁî£º 

Õâ½«Ê¹ ScrapyÏîÄ¿²¿Êðµ½±¾µØÔËÐÐµÄ Scrapyd·þÎñÆ÷¡£ÉÏÃæµÄÊ¾ÀýÊÇ×î¼òµ¥µÄÊµÏÖ£¬²¢¼ÙÉèÄúÖ»ÊÇ½« ScrapyÏîÄ¿²¿Êðµ½±¾µØ Scrapyd·þÎñÆ÷¡£µ«ÊÇ£¬Ò²¿ÉÒÔ×Ô¶¨Òå»òÌí¼Ó¶à¸ö²¿Êð¶Ëµãµ½ scrapyd.cfgÎÄ¼þ¡£ÀýÈç£¬¿ÉÒÔ¶¨Òå±¾µØºÍÉú²ú¶Ëµã£º 

²¢Ê¹ÓÃÒÔÏÂÃüÁîÔÚ±¾µØ»òÉú²ú»·¾³ÖÐ²¿Êð ScrapyÏîÄ¿£º 

# Deploy to production 
scrapyd-deploy production 

Scrapyd ´øÓÐÒ»¸ö×îÐ¡µÄ Web½çÃæ£¬¿ÉÒÔÍ¨¹ý http://localhost:6800/·ÃÎÊ¡£µ«ÊÇ£¬Õâ¸ö½çÃæÖ»ÊÇ¶Ô Scrapyd·þÎñÆ÷ÉÏÔËÐÐµÄÄÚÈÝµÄ»ù±¾¸ÅÊö£¬²¢ÇÒ²»ÔÊÐíÄú¿ØÖÆ²¿Êðµ½ Scrapyd ·þÎñÆ÷µÄÅÀ³æ¡£
ÒªÔÚÄúµÄ Scrapyd·þÎñÆ÷ÉÏ°²ÅÅ¡¢ÔËÐÐ¡¢È¡Ïû×÷Òµ£¬ÐèÒªÊ¹ÓÃËüÌá¹©µÄ JSON API¡£¸ù¾Ý¶Ëµã£¬API Ö§³Ö GET»ò POST HTTPÇëÇó£¬ÀýÈç£º 
>curl http://localhost:6800/daemonstatus.json 
{ "status": "ok", "running": "0", "pending": "0", "finished": "0", "node_name": 

"DESKTOP-67BR2" } 
API¾ßÓÐ±í 5-1ËùÊ¾¶Ëµã¡£
±í 5-1 ¶Ëµã±í
¶Ëµã ÃèÊö  
daemonstatus.json ¼ì²é Scrapyd·þÎñÆ÷µÄ×´Ì¬  
addversion.json ÏòÏîÄ¿Ìí¼Ó°æ±¾£¬Èç¹ûÏîÄ¿²»´æÔÚÔò´´½¨ÏîÄ¿  
schedule.json °²ÅÅÒªÔËÐÐµÄ×÷Òµ  
cancel.json È¡Ïû×÷Òµ¡£Èç¹û×÷Òµ´¦ÓÚ´ý´¦Àí×´Ì¬£¬Ëü½«±»É¾³ý£»Èç¹û×÷ÒµÕýÔÚÔËÐÐ£¬Ôò×÷Òµ½«±»¹Ø±Õ  
listprojects.json ·µ»ØÉÏ´«µ½ Scrapyd·þÎñÆ÷µÄÏîÄ¿ÁÐ±í  
listversions.json ·µ»Ø¿ÉÓÃÓÚÇëÇóÏîÄ¿µÄ°æ±¾ÁÐ±í  
listspiders.json ·µ»Ø¿ÉÓÃÓÚÇëÇóÏîÄ¿µÄÅÀ³æÁÐ±í  
listjobs.json ·µ»ØËùÇëÇóÏîÄ¿µÄ´ý´¦Àí¡¢ÔËÐÐºÍÒÑÍê³ÉµÄ×÷ÒµµÄÁÐ±í  
delversion.json É¾³ýÏîÄ¿°æ±¾¡£Èç¹ûÏîÄ¿Ö»ÓÐÒ»¸ö°æ±¾£¬ÔòÒ²É¾³ý¸ÃÏîÄ¿  
delproject.json É¾³ýÏîÄ¿ºÍËùÓÐ¹ØÁªµÄ°æ±¾ 

ÎÒÃÇ¿ÉÒÔÊ¹ÓÃ Python Requests»òÈÎºÎÆäËû HTTPÇëÇó¿âÓëÕâÐ©¶Ëµã½øÐÐ½»»¥£¬»òÕß¿ÉÒÔÊ¹ÓÃ python-scrapyd-api£¬Ò»¸öÓÃÓÚ Scrapyd APIµÄ Python°ü×°Æ÷¡£ 
python-scrapyd-apiÎ§ÈÆ Scrapyd JSON APIÌá¹©ÁËÒ»¸ö¸É¾»ÇÒÒ×ÓÚÊ¹ÓÃµÄ Python°ü×°Æ÷£¬Ëü¿ÉÒÔ¼ò»¯´úÂë¡£
Ê×ÏÈ£¬ÐèÒª°²×°Ëü£º 
pip install python-scrapyd-api
È»ºóÔÚ´úÂëÖÐ£¬ÎÒÃÇÐèÒªµ¼Èë¿â²¢½«ÆäÅäÖÃÎª¿ÉÒÔÓëÎÒÃÇµÄ Scrapyd·þÎñÆ÷½»»¥£¬·½
·¨ÊÇÏòÆä´«µÝ Scrapyd IPµØÖ·¡£ 

´ÓÕâÀï£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃÄÚÖÃ·½·¨Óë Scrapyd·þÎñÆ÷½»»¥¡£·µ»ØÉÏ´«µ½ Scrapyd ·þÎñÆ÷µÄÏîÄ¿ÁÐ±í¡£ 

ÊäÈëÏîÄ¿Ãû³Æ£¬Ëü½«·µ»Ø¿ÉÓÃÓÚËùÇëÇóÏîÄ¿µÄÅÀ³æÁÐ±í¡£ 

Í¨¹ýÖ¸¶¨ÏîÄ¿ºÍÅÀ³æÃû³ÆÀ´ÔËÐÐ ScrapyÅÀ³æ¡£ 

Í¨¹ý·¢ËÍÏîÄ¿Ãû³ÆºÍ job_idÈ¡ÏûÕýÔÚÔËÐÐµÄ×÷Òµ¡£ 

·¢ËÍºó£¬Ëü½«·µ»Ø×÷Òµ±»È¡ÏûÖ®Ç°µÄ×´Ì¬¡£¿ÉÒÔÍ¨¹ý¼ì²é×÷Òµ×´Ì¬À´ÑéÖ¤×÷ÒµÊÇ·ñÊµ¼Ê±»È¡Ïû¡£ 

5.7.Scrapy CloudÍÐ¹ÜÅÀ³æ 
Scrapy CloudÊÇÒ»¸ö¿ÉÀ©Õ¹µÄÔÆÍÐ¹Ü½â¾ö·½°¸£¬ÓÃÓÚÔËÐÐºÍµ÷¶È ScrapyÅÀ³æ£¬ÓÉ Zyte´´½¨¡£
ÔÚ±¾½ÚÖÐ£¬½«²¿Êð ScrapyÅÀ³æ booksbot£¨https://github.com/scrapy/booksbot£©¡£ÒªÊ¹ÓÃËü£¬Ö»Ðè½«Æä¿ËÂ¡µ½ÄúµÄ»úÆ÷ÉÏ¼´¿É¡£ 

¿ªÊ¼Ê¹ÓÃ Scrapy Cloud·Ç³£¼òµ¥¡£
Ê×ÏÈÔÚÕâÀï´´½¨Ò»¸öÃâ·ÑÕË»§ Scrapy Cloud£¬È»ºóµÇÂ¼ºóµ¥»÷¡°Æô¶¯Ò»¸öÐÂÏîÄ¿¡±£¬¸øÏîÄ¿Æð¸öÃû×Ö¡£
Ò»µ©ÏîÄ¿´´½¨Íê³É£¬ÓÐÁ½ÖÖ·½·¨¿ÉÒÔ½« ScrapyÅÀ³æ²¿Êðµ½ Scrapy Cloud£º
£¨1£©Í¨¹ýÃüÁîÐÐ£»

£¨2£©Í¨¹ý GitHub¼¯³É¡£
Ê¹ÓÃ shubÃüÁîÐÐ¹¤¾ß£¬¿ÉÒÔ´ÓÃüÁîÐÐ½«ÅÀ³æÖ±½Ó²¿Êðµ½ Scrapy Cloud¡£
Ê×ÏÈÔÚÏµÍ³ÉÏ°²×° shub£º 




È»ºó£¬Í¨¹ýÔÚÃüÁîÐÐÖÐÔËÐÐ shubµÇÂ¼£¬½« shub¿Í»§¶ËÁ¬½Óµ½ Scrapy CloudÏîÄ¿£¬²¢ÔÚÌáÊ¾Ê±ÊäÈë Scrapy Cloud API¼ü¡£ 

¿ÉÒÔÔÚ¡°´úÂëºÍ²¿Êð¡±Ò³ÃæÉÏÕÒµ½ APIÃÜÔ¿£¬È»ºó£¬Òª½« ScrapyÏîÄ¿²¿Êðµ½ Scrapy Cloud£¬ÇëÔËÐÐ shub-deployÃüÁî£¬ºó¸úÏîÄ¿ ID£º 

¿ÉÒÔÔÚ¡°´úÂëºÍ²¿Êð¡±Ò³Ãæ»òÏîÄ¿ URLÖÐÕÒµ½ÏîÄ¿µÄ ID¡£ 

Èç¹û³É¹¦£¬½«ÔÚÅÀ³æÑ¡Ïî¿¨ÖÐ¿´µ½¿ÉÓÃµÄÅÀ³æ¡£
È»ºó£¬¾Í¿ÉÒÔÖ±½Ó´ÓÃüÁîÐÐÔÚ Scrapy CloudÉÏÔËÐÐ×¥È¡×÷Òµ£º 


ÁíÒ»ÖÖÑ¡ÔñÊÇ½« Scrapy CloudÖ±½ÓÁ¬½Óµ½ GitHubÕË»§£¬²¢Ö±½Ó´Ó GitHub²¿ÊðÅÀ³æ¡£
ÔÚ¡°´úÂëºÍ²¿Êð¡±Ò³ÃæÉÏ£¬Ñ¡Ôñ¡°Á¬½Óµ½ GitHub¡±Ñ¡Ïî£¬È»ºó°´ÕÕËµÃ÷½øÐÐ²Ù×÷¡£Èç¹ûÒÔÇ°Ã»ÓÐ½« ZyteÁ¬½Óµ½ GitHubÕË»§£¬ÄÇÃ´¿ÉÄÜ»á±»ÒªÇóÊÚÈ¨ Zyte·ÃÎÊ´æ´¢¿â¡£½ÓÏÂÀ´£¬ÏµÍ³½«ÌáÊ¾Ñ¡ÔñÏ£Íû Scrapy CloudÁ¬½Óµ½ÄÄ¸ö´æ´¢¿â¡£
Ä¬ÈÏÇé¿öÏÂ£¬µ±½« Scrapy CloudÁ¬½Óµ½ GitHub´æ´¢¿âÊ±£¬Ëü±»ÅäÖÃÎª×Ô¶¯²¿ÊðÍÆËÍµ½ GitHub´æ´¢¿âµÄÈÎºÎ¸ü¸Ä¡£µ«ÊÇ£¬Èç¹ûÄãÔ¸Òâ£¬¿ÉÒÔ½«ÆäÇÐ»»µ½ÊÖ¶¯²¿ÊðÄ£Ê½£¬²¢ÊÖ¶¯²¿Êð¶ÔÅÀ³æµÄ¸ü¸Ä¡£Èç¹û½«Æä±£ÁôÔÚ¡°×Ô¶¯²¿Êð¡±Ä£Ê½£¬ÔòÒª¿ªÊ¼µÚÒ»´Î²¿ÊðÊ±£¬Çëµ¥»÷¡°²¿Êð·ÖÖ§¡±°´Å¥¡£
Èç¹û³É¹¦£¬Äú½«ÔÚÅÀ³æÑ¡Ïî¿¨ÖÐ¿´µ½¿ÉÓÃµÄÅÀ³æ¡£
Ò»µ©²¿ÊðÁËÅÀ³æ£¬¾Í¿ÉÒÔÔÚ Scrapy CloudÉÏÔËÐÐ×¥È¡×÷Òµ£¬Õâ·Ç³£¼òµ¥¡£Ö»Ðè×ªµ½ÅÀ³æ¿ØÖÆÃæ°å£¬Ñ¡ÔñÒªÔËÐÐµÄÅÀ³æ£¬È»ºóµ¥»÷ÔËÐÐ¡£¿ÉÒÔÑ¡ÔñÔÚ×÷ÒµÔËÐÐÖ®Ç°Ïò×÷ÒµÌí¼ÓÈÎºÎ²ÎÊý¡¢±ê¼Ç»ò¶îÍâµÄ Scrapyµ¥Ôª¡£
Ò»µ©ÂúÒâÁË£¬È»ºóµ¥»÷ÔËÐÐ£¬Scrapy Cloud¾Í»á½«ÒªÔËÐÐµÄ×÷ÒµÅÅ¶Ó¡£
ÏÖÔÚ£¬µ±×ªµ½×÷ÒµÃæ°åÊ±£¬½«¿´µ½×÷ÒµÊÇ·ñÒÑÅÅ¶Ó¡¢ÕýÔÚÔËÐÐ»òÒÑÍê³É¡£ÒÔ¼°Ò»Ð©¸ÅÊöÍ³¼ÆÐÅÏ¢£¬ÈçÔËÐÐÊ±¡¢×¥È¡µÄÏîÄ¿¡¢´íÎóµÈ¡£ 
Scrapy Cloud×îÓÐÓÃµÄ¹¦ÄÜÊÇ¶¨Ê±ÈÎÎñ¹¦ÄÜ£¬ËüÔÊÐíÄú°²ÅÅÅÀ³æÔÚÎ´À´¶¨ÆÚÔËÐÐ¡£ Scrapy CloudÊ¹ÓÃÀàËÆÓÚ crontabµÄµ÷¶ÈÆ÷£¬Òò´Ë¿ÉÒÔ½«ÅÀ³æ°²ÅÅÎªÃ¿·ÖÖÓ¡¢Ã¿Ð¡Ê±¡¢Ã¿Ìì¡¢Ã¿ÖÜ»òÃ¿ÔÂÔËÐÐÒ»´Î¡£
ÒªÊ¹ÓÃ¼Æ»®¹¦ÄÜ£¬Çë×ªµ½¡°¶¨Ê±ÈÎÎñ¡±Ãæ°å£¬È»ºóµ¥»÷¡°Ìí¼Ó¶¨Ê±ÈÎÎñ¡±¡£ÔÚÕâÀï£¬ÏµÍ³»áÌáÊ¾Ñ¡ÔñÒª°²ÅÅµÄÅÀ³æ£¬ËüÓ¦¸ÃºÎÊ±ÔËÐÐ£¬ÒÔ¼°ÈÎºÎ¶îÍâµÄÉèÖÃ£¬ÈçÓÅÏÈ¼¶¡¢±ê¼ÇºÍ²ÎÊý¡£±£´æºó£¬´ËÅÀ³æ½«×Ô¶¯°´Ñ¡ÔñµÄÊ±¼ä¼ä¸ôÔËÐÐ¡£ 
5.8.Twisted¿ò¼Ü 
ScrapyÊÇÓÃ Twisted±àÐ´µÄ£¬ÕâÊÇÒ»¸öÁ÷ÐÐµÄ PythonÊÂ¼þÇý¶¯ÍøÂç¿ò¼Ü£¬Òò´Ë£¬ ScrapyÊÇÊ¹ÓÃ·Ç×èÈû£¨Ò²³ÆÎªÒì²½£©´úÂëÀ´ÊµÏÖ²¢·¢µÄ¡£
Ê×ÏÈ£¬ÊìÏ¤ Twisted±³ºóµÄ¼ÆËãÄ£ÐÍ£¨Òì²½±à³Ì£©ºÜÖØÒª¡£ÈÃÎÒÃÇ´Ó»Ø¹ËÆäËûÁ½ÖÖ´«Í³µÄ¼ÆËãÄ£ÐÍ¿ªÊ¼£¬ÒÔ±ãÓëËüÃÇ½øÐÐ±È½Ï£ºµ¥Ïß³ÌÄ£ÐÍºÍ¶àÏß³ÌÄ£ÐÍ¡£
´«Í³µÄµ¥Ïß³Ì£¨Í¬²½£©Ä£ÐÍ·Ç³£¼òµ¥£ºÒ»´ÎÖ»Ö´ÐÐÒ»¸öÈÎÎñ£¬Ö±µ½Ç°Ò»¸öÈÎÎñÍê³Éºó²ÅÄÜ¿ªÊ¼ÐÂÈÎÎñ¡£
ÔÚ¶àÏß³ÌÄ£ÐÍÖÐ£¬Ã¿¸öÈÎÎñ¶¼ÓÉÒ»¸öµ¥¶ÀµÄ²Ù×÷ÏµÍ³Ïß³ÌÖ´ÐÐ£¬²Ù×÷ÏµÍ³¿ÉÒÔËæÊ±ÓÃÁíÒ»¸öÏß³ÌÌæ»»ÕýÔÚÔËÐÐµÄÈÎÎñ¡£ÔÚ¾ßÓÐ¶à¸öÄÚºËµÄÏµÍ³ÉÏ£¬²»Í¬µÄÏß³Ì¿ÉÒÔÕæÕý²¢·¢ÔËÐÐ£¬Ò²¿ÉÒÔÔÚµ¥¸öÄÚºËÉÏ½»´íÔËÐÐ¡£µ«ÐèÒª×¢ÒâµÄÊÇ£¬ÔÚ PythonÖÐ£¬ÓÉÓÚÈ«¾Ö½âÊÍÆ÷Ëø£¨GIL£©£¬¶àÏß³ÌÓ¦ÓÃ³ÌÐòÓÀÔ¶²»»áÕæÕý²¢·¢ÔËÐÐ¡£
ÔÚÒì²½Ä£ÐÍÖÐ£¬ÈÎÎñÔÚµ¥¸öÏß³ÌÖÐÏà»¥½»´í¡£×ñÑ­´ËÄ£ÐÍµÄÓ¦ÓÃ³ÌÐòµÄÖ÷ÒªÌØµãÊÇ£¬µ±ÕýÔÚÔËÐÐµÄÈÎÎñ½«±»×èÈûÊ±£¬Ó¦ÓÃ³ÌÐò½«¼ÌÐøÖ´ÐÐÁíÒ»¸öÈÎÎñ£¬´Ó¶ø×î´óÏÞ¶ÈµØ¼õÉÙÕû¸öÓ¦ÓÃ³ÌÐò±»×èÈûµÄÊ±¼ä¡£ÔÚÕâ¸öÄ£ÐÍÖÐ£¬ÔËÐÐÖÐµÄÈÎÎñÔÚÍê³É»ò½«±»×èÈûÊ±±»ÁíÒ»¸öÈÎÎñÌæ»»¡£
Èç¹ûÒ»¸öÓ¦ÓÃ³ÌÐòÓÉÒ»×é¶ÀÁ¢µÄÈÎÎñ×é³É£¬²¢ÇÒÓÐÏàµ±¶àµÄ×èÈû£¬ÄÇÃ´Ê¹ÓÃ¸ÃÄ£ÐÍ»áÊ¹Ó¦ÓÃ³ÌÐòÊÜÒæ¡£ÈÎÎñ×èÈûµÄ×î³£¼ûÔ­ÒòÊÇµÈ´ý I/OÍê³É£¬ÀýÈç´ÓÍøÂç»òÎÄ¼þÏµÍ³ÖÐ¶ÁÈ¡»òÐ´Èë¡£ 
TwistedÓÐÁ½¸öÖ÷Òª×é¼þ£ºReactorºÍ Deferred¡£ 
Reactor¶ÔÊÂ¼þ×ö³ö·´Ó¦²¢°²ÅÅÈÎÎñ£¬Õâ¾ÍÊÇÎªÊ²Ã´Ëü±»³ÆÎª·´Ó¦Æ÷»òÊÂ¼þÑ­»·¡£ ReactorµÄ¹¤×÷ÊÇ¹ÜÀíµÈ´ýÖ´ÐÐµÄÈÎÎñ³Ø¡£µ±ÕýÔÚÔËÐÐµÄÈÎÎñÍ¨¹ýÆô¶¯Òì²½²Ù×÷½«¿ØÖÆÈ¨½»¸ø ReactorÊ±£¬Reactor¸ºÔð½«ÈÎÎñÖÃÓÚµÈ´ý×´Ì¬£¬ÉèÖÃÒ»ÖÖ»úÖÆ£¬ÔÚ½á¹û¿ÉÓÃÊ±µ÷ÓÃÓëÈÎÎñ¹ØÁªµÄ½á¹û´¦Àí³ÌÐò£¬²¢¼ÌÐøÖ´ÐÐÁíÒ»¸öÈÎÎñ¡£ 
TwistedµÄÁíÒ»¸öÖØÒª×é³É²¿·ÖÊÇ Deferred¡£Deferred·â×°Òì²½ÈÎÎñ£¬ÀàËÆÓÚÆäËû¿ò¼ÜÖÐµÄ Promise»ò Future¡£TwistedÖÐµÄÒì²½º¯Êý·µ»ØÒ»¸ö Deferred£¬DeferredÓÃÓÚ¿ØÖÆÈÎÎñµÄÖ´ÐÐ£¬²¢ÔÚ½á¹û¿ÉÓÃÊ±·ÃÎÊ¸Ã½á¹û¡£
ÎªÁËÓë Deferred½»»¥£¬µ±Òì²½ÈÎÎñµÄ½á¹û¿ÉÓÃÊ±£¬ÎÒÃÇ¿ÉÒÔ¸½¼ÓÒ»ÏµÁÐÒªµ÷ÓÃµÄº¯Êý¡£ÕâÒ»ÏµÁÐº¯Êý³ÆÎª»Øµ÷»ò»Øµ÷Á´¡£Èç¹ûÒì²½ÈÎÎñÖÐ´æÔÚ´íÎó£¬ÎÒÃÇÒ²¿ÉÒÔ¸½¼ÓÒ»¸öÒªµ÷ÓÃµÄº¯ÊýÁÐ±í£¬³ÆÎª errbackÁ´¡£µ±½á¹û¿ÉÓÃÊ±µ÷ÓÃµÚÒ»¸ö»Øµ÷£¬Èç¹û³öÏÖ´íÎó£¬Ôòµ÷ÓÃµÚÒ»¸ö errback¡£
ÈÃÎÒÃÇ´ÓÒ»¸ö¼òµ¥µÄÊ¾Àý¿ªÊ¼£¬»ñÈ¡ URLÖÐµÄÄÚÈÝ²¢´òÓ¡·µ»ØµÄ HTTP´úÂë¡£Îª´Ë£¬ÎÒÃÇ½«Ê¹ÓÃ Treq£¬ÕâÊÇÒ»¸ö»ùÓÚ TwistedÖ®ÉÏ±àÐ´µÄ¿â¡£ ÈÃÎÒÃÇ°´²¿·Ö·ÖÎö´Ë´úÂë£º

£¨1£©reactÊÇ TwistedÌá¹©µÄÒ»¸öÊµÓÃº¯Êý£¬ËüÆô¶¯ reactor£¬Ö´ÐÐÌá¹©µÄº¯Êý£¨ÔÚ±¾ÀýÖÐÎª main£©£¬²¢ÔÚËùÓÐÈÎÎñÍê³ÉºóÍ£Ö¹ reactor¡£

£¨2£©mainº¯Êý¸ºÔðÊ¹ÓÃÌØ¶¨µÄ urlµ÷ÓÃ get_url¡£

£¨3£©get_urlµ÷ÓÃ treq.get£¬»ñÈ¡ÇëÇóµÄ URLÉÏµÄÄÚÈÝ£¬ÒòÎªËüÊÇÒ»¸öÒì²½º¯Êý£¬ treq. get·µ»ØÒ»¸ö Deferred¡£

£¨4£©ÎÒÃÇÔÚ·µ»ØµÄ DeferredÖÐÌí¼ÓÁËÒ»¸ö»Øµ÷º¯Êý£¬ÓÃÓÚ´òÓ¡ÏìÓ¦´úÂë£¬²¢ÔÚ³öÏÖ´íÎóÊ±Ìí¼ÓÒ»¸ö errbackº¯Êý£¬ÓÃÓÚ´òÓ¡´íÎó¡£


µÚÒ»¸öÊ¾ÀýÓëÆÕÍ¨µÄµ¥Ïß³Ì³ÌÐò·Ç³£ÏàËÆ£¬ÈÃÎÒÃÇÉÔÎ¢ÐÞ¸ÄµÚÒ»¸öÊ¾ÀýÒÔÍ¬Ê±»ñµÃ¶à¸ö URL£¬´Ó¶øÁË½â¸ü¶àµÄ Twisted¡£ÎÒÃÇÖ»ÐèÒªÎª´ËÐÞ¸ÄÖ÷º¯Êý£º 

ÕâÀïÎÒÃÇÎª¶à¸ö urlµ÷ÓÃ get_url()º¯Êý£¬Ã¿´Îµ÷ÓÃ¶¼»áµÃµ½Ò»¸ö Deferred¡£È»ºó£¬ÎÒÃÇÊ¹ÓÃ Twistedº¯Êý gatherResults()À´´´½¨Ò»¸öÐÂµÄ Deferred£¬µ±ËùÓÐÌá¹©µÄ Deferreds¶¼±»¼¤·¢Ê±£¬Ëü¾Í»á±»¼¤·¢¡£ 
5.9.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁË Scrapy×¥È¡¾²Ì¬ÍøÕ¾ºÍ¶¯Ì¬ÍøÕ¾£¬ÒÔ¼°½«×¥È¡µÄÊý¾Ý±£´æµ½Êý¾Ý¿â¡£ 
ScrapyÊÇÒ»¸öÓÃ Python±àÐ´µÄÃâ·Ñ¿ªÔ´ÍøÂçÅÀ³æ¿ò¼Ü¡£×î³õÉè¼ÆÓÃÓÚÍøÂç×¥È¡£¬ËüÒ²¿ÉÓÃÓÚÊ¹ÓÃ APIÌáÈ¡Êý¾Ý»òÓÃ×÷Í¨ÓÃÍøÂçÅÀ³æ¡£ËüÄ¿Ç°ÓÉ Zyte¹«Ë¾Î¬»¤£¬Ç°ÉíÎª Scrapinghub¹«Ë¾£¬ÕâÊÇÒ»¼ÒÍøÂç×¥È¡¿ª·¢ºÍ·þÎñ¹«Ë¾¡£


µÚ 6ÕÂ.·Ö²¼Ê½ÅÀ³æ¿ª·¢
±¾ÕÂ½éÉÜÈçºÎÊµÏÖ·Ö²¼Ê½ÅÀ³æ£¬°üÀ¨ Web×¥È¡¡¢ÌáÈ¡ÄÚÈÝ£¬ÒÔ¼°ÓÃÈÝ´í·½Ê½ÒÔ¿ÉÉìËõÐÔ´æ´¢ÄÚÈÝ¡£ 
CeleryÊÇ»ùÓÚ·Ö²¼Ê½ÏûÏ¢´«µÝµÄÒì²½ÈÎÎñ¶ÓÁÐ /×÷Òµ¶ÓÁÐ¡£ÎÒÃÇ½«Ê¹ÓÃËüÊµÏÖ·Ö²¼Ê½ÅÀ³æ¡£ 
6.1.¼òµ¥µÄ CeleryÈÎÎñ 
CeleryµÄ RedisÖ§³ÖÐèÒªÆäËûÒÀÀµÏî¡£Ê¹ÓÃ Celery [redis]À¦°ó°üÒ»´ÎÐÔ°²×° CeleryºÍÒÀÀµÏîµÄ²½ÖèÈçÏÂ¡£ÅäÖÃ RedisÊý¾Ý¿âµÄÎ»ÖÃ£º 

URLµÄ¸ñÊ½Ó¦Îª£º 

´´½¨ÎÄ¼þ tasks.py£º 

CeleryµÄµÚÒ»¸ö²ÎÊýÊÇµ±Ç°Ä£¿éµÄÃû³Æ£¬ÕâÑù¿ÉÒÔ×Ô¶¯Éú³ÉÃû³Æ¡£µÚ¶þ¸ö²ÎÊýÊÇ broker¹Ø¼ü×Ö£¬ËüÖ¸¶¨ÏûÏ¢´úÀíµÄ URL¡£
Æô¶¯ Redis·þÎñÆ÷ºó£¬ÔËÐÐ Celery¹¤×÷Õß£º Òªµ÷ÓÃÈÎÎñ£¬¿ÉÊ¹ÓÃ delay()·½·¨£º 


µ÷ÓÃÈÎÎñ»á·µ»ØÒ»¸ö AsyncResultÊµÀý£¬¸ÃÊµÀý¿ÉÒÔ¼ì²éÈÎÎñµÄ×´Ì¬¡¢µÈ´ýÈÎÎñÍê³É»ò»ñÈ¡Æä·µ»ØÖµ£¨Èç¹ûÈÎÎñÊ§°Ü£¬Ëü½«»ñÈ¡Òì³£ºÍ»ØËÝ£©¡£
ÎªÁË¸ú×ÙÈÎÎñµÄ×´Ì¬£¬ CeleryÐèÒª½«×´Ì¬´æ´¢»ò·¢ËÍµ½Ä³´¦¡£Ê¹ÓÃ Redis×÷Îª½á¹ûºó¶ËµÄ´úÂëÈçÏÂ£º 

ÏÖÔÚÅäÖÃºÃ½á¹ûºó¶Ëºó£¬ÔÙ´Îµ÷ÓÃ¸ÃÈÎÎñ¡£ÕâÒ»´Î±£Áô´ÓÈÎÎñ·µ»ØµÄ AsyncResultÊµÀý£º 

ready()·½·¨·µ»ØÈÎÎñÊÇ·ñÒÑÍê³É´¦Àí£º 

¿ÉÒÔµÈ´ý½á¹ûÍê³É£¬µ«ºÜÉÙÊ¹ÓÃ£¬ÒòÎªËü»á½«Òì²½µ÷ÓÃ×ª»»ÎªÍ¬²½µ÷ÓÃ£º 

6.2.´ÓÈÎÎñ½øÐÐ·Ö²¼Ê½×¥È¡
ÏÂÒ»²½ÊÇ½« CeleryÈÎÎñÓëÅÀ³æ½ø³ÌÁ¬½ÓÆðÀ´¡£ 

@app.task 
def crawl(url): 
html = get_html(url) 

soup = BeautifulSoup(html, 'html.parser') 
links = extract_links(url, soup) 

print(links) 
def get_html(url): 
try: 
response = requests.get(url) 
return response.content 

except Exception as e: 
print(e) 

return '' 
def extract_links(url, soup): 
return list({ 
urljoin(url, a.get('href')) 
for a in soup.find_all('a') 

if a.get('href') and not(a.get('rel') and 'nofollow' in a.get('rel')) }) 
starting_url = 'https://scrapeme.live/shop/page/1/' 
crawl.delay(starting_url)

ÎÒÃÇÐèÒª±£´æËùÓÐÕâÐ©Êý¾Ý£º·ÃÎÊ¹ýµÄÒ³Ãæ¡¢µ±Ç°ÕýÔÚÅÀÈ¡µÄÒ³Ãæ¡¢±£Áô¡°´ý·ÃÎÊ¡±
ËùÁÐ±íÒÔ¼°ÉÔºó´æ´¢µÄÒ»Ð©ÄÚÈÝ¡£ÕâÀï½«Ê¹ÓÃ RedisÀ´±ÜÃâÖØÐÂÅÀÈ¡£¬¶ø²»ÊÇÖ±½ÓÅÅ¶Óµ½ Celery£¬²¢ÇÒÖ»½« URLÅÅ¶ÓÒ»´Î¡£ÕâÀï²»»áÉîÈëÌÖÂÛ RedisµÄ¸ü¶àÏ¸½Ú£¬µ«»áÊ¹ÓÃÁÐ±í¡¢¼¯ºÏºÍÉ¢ÁÐ¡£ÏÈ´´½¨Ò»¸öÃûÎª crawling:to_visitµÄÁÐ±í£¬²¢ÍÆËÍÆðÊ¼ URL¡£È»ºó£¬ÎÒÃÇ½«½øÈëÒ»¸ö
Ñ­»·£¬¸ÃÑ­»·½«²éÑ¯¸ÃÁÐ±íÖÐµÄÏîÄ¿²¢×èÈûÆäÒ»·ÖÖÓ£¬Ö±µ½ÏîÄ¿¾ÍÐ÷¡£µ±¼ìË÷µ½ÏîÄ¿Ê±£¬ÎÒÃÇµ÷ÓÃÅÀÈ¡º¯Êý£¬½«ÆäÖ´ÐÐÅÅ¶Ó¡£ ÎÒÃÇ½«Ê¹ÓÃ¼¯ºÏ¸ú×ÙËùÓÐÅÅ¶ÓºÍ·ÃÎÊµÄ¼¯ºÏ£¬²¢ÔÚËüÃÇµÄ×ÜºÍ³¬¹ýÔÊÐíµÄ×î´óÖµÊ±ÍË³ö¡£ 



Ö´ÐÐºó£¬ËùÓÐÄÚÈÝ¶¼½«ÔÚ RedisÖÐ£¬Òò´ËÔÙ´ÎÔËÐÐ½«ÎÞ·¨°´Ô¤ÆÚ¹¤×÷£¬ÎÒÃÇÐèÒªÊÖ¶¯
ÇåÀíÅÀ³æ¶ÓÁÐ£¬ÎÒÃÇ¿ÉÒÔÍ¨¹ýÊ¹ÓÃ redis-cli»òÀàËÆÓÚ GUIµÄ redisÃüÁîÀ´ÊµÏÖ¡£ÓÐÒ»Ð©ÃüÁîÓÃÓÚÉ¾³ý¼ü£¨¼´ DEL crawling:to_visit£©»òË¢ÐÂÊý¾Ý¿â¡£
ÔÚÏîÄ¿·¢Õ¹Ö®Ç°£¬ÎÒÃÇ½«¿ªÊ¼·ÖÀë¸ÅÄî¡£ÎÒÃÇÒÑ¾­ÓÐÁËÁ½¸öÎÄ¼þ£º tasks.pyºÍ main. py¡£ÎÒÃÇ½«´´½¨ÁíÍâÁ½¸öÎÄ¼þÀ´ÍÐ¹ÜÅÀ³æÏà¹Øº¯Êý£¨ crawler.py£©ºÍÊý¾Ý¿â·ÃÎÊ£¨ repo. py£©¡£repo.pyµÄ²¿·Ö´úÂëÈçÏÂ¡£ 

crawlerÎÄ¼þ¾ßÓÐ×¥È¡¡¢ÌáÈ¡Á´½ÓµÈ¹¦ÄÜ¡£ÎÒÃÇÐèÒªÒ»Ð©·½·¨À´ÌáÈ¡ºÍ´æ´¢ÄÚÈÝ£¬²¢Ö»Ïò¶ÓÁÐÌí¼ÓÌØ¶¨µÄÁ´½Ó×Ó¼¯¡£ÎÒÃÇÐèÒªÒ»¸öÐÂµÄ¸ÅÄî£ºÄ¬ÈÏ½âÎöÆ÷£¨parsers/defaults.py£©¡£ 

ÔÚ repo.pyÎÄ¼þÖÐ£º

½âÎöÆ÷ÔÊÐíÎÒÃÇ³éÏóÁ´½ÓºÍÄÚÈÝÌáÈ¡£¬ËüÊÇÒ»×é×÷Îª²ÎÊý´«µÝµÄº¯Êý£¬¶ø²»ÊÇÔÚÅÀ³æÖÐÓ²±àÂë¡£ÏÖÔÚÎÒÃÇ¿ÉÒÔÓÃ importÌæ»»¶ÔÕâÐ©º¯ÊýµÄµ÷ÓÃ¡£
ÎªÁËÍêÈ«³éÏó£¬ÎÒÃÇÐèÒªÒ»¸öÉú³ÉÆ÷»ò¹¤³§¡£ÎÒÃÇ½«´´½¨Ò»¸öÐÂÎÄ¼þÀ´³ÐÔØËü¡ª¡ª parserlist.py¡£ÎªÁË¼ò»¯Ò»µã£¬ÎÒÃÇÔÊÐíÃ¿¸öÓòÓÐÒ»¸ö×Ô¶¨Òå½âÎöÆ÷¡£¸ÃÑÝÊ¾°üÀ¨Á½¸ö²âÊÔÓò£ºscrapeme.liveºÍ quotes.tocrap.com¡£
Ä¿Ç°»¹Ã»ÓÐ¶ÔÃ¿¸öÓò½øÐÐÈÎºÎ²Ù×÷£¬Òò´ËÎÒÃÇ½«Ê¹ÓÃÄ¬ÈÏµÄ½âÎöÆ÷¡£ 

ÏÖÔÚ£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃÐÂµÄ½âÎöÆ÷ÐÞ¸ÄÈÎÎñ¡£ 

×Ô¶¨Òå½âÎöÆ÷½«Ê×ÏÈÊ¹ÓÃ scrapme×÷ÎªÊ¾Àý¡£
±¾²¿·ÖÒªÇóÁË½âÒ³Ãæ¼°Æä HTML¡£×ÜÖ®£¬ÎÒÃÇ½«»ñµÃ²úÆ·ÁÐ±íÖÐÃ¿¸öÏîÄ¿µÄ²úÆ· id¡¢Ãû³ÆºÍ¼Û¸ñ£¬È»ºóÊ¹ÓÃ id×÷Îª¼ü½«Æä´æ´¢ÔÚÒ»¸ö¼¯ºÏÖÐ¡£ÖÁÓÚÔÊÐíµÄÁ´½Ó£¬Ö»ÓÐÓÃÓÚ·ÖÒ³µÄÁ´½Ó½«Í¨¹ý¹ýÂË¡£ 

import defaults 
import repo 

def extract_content(url, soup): 
return [{ 
'id': product.find('a', 

attrs={'data-product_id': True})['data-product_id'], 'name': product.find('h2').text, 'price': product.find(class_='amount').text 
} for product in soup.select('.product')] 
def store_content(url, content): 
for item in content: 
if item['id']: repo.set_content(item['id'], json.dumps(item)) 
def allow_url_filter(url): 
return '/shop/page/' in url and '#' not in url 
def get_html(url): 
return defaults.get_html(url)

ÔÚÃûÑÔÍøÕ¾ÖÐ£¬ÎÒÃÇÐèÒªÒÔ²»Í¬µÄ·½Ê½´¦ÀíËü£¬ÒòÎªÃ¿¸öÃûÑÔÃ»ÓÐ id¡£ÎÒÃÇ½«ÎªÁÐ±íÖÐµÄÃ¿¸öÌõÄ¿ÌáÈ¡×÷ÕßºÍÃûÑÔ£¬È»ºó£¬ÔÚ store_contentº¯ÊýÖÐ£¬ÎÒÃÇ½«ÎªÃ¿¸ö×÷Õß´´½¨Ò»¸öÁÐ±í²¢Ìí¼Ó¸ÃÃûÑÔ¡£RedisÔÚ±ØÒªÊ±´¦ÀíÁÐ±íµÄ´´½¨¡£ 

Í¨¹ý×îºó¼¸´Î¸ü¸Ä£¬ÎÒÃÇÒýÈëÁËÒ×ÓÚÀ©Õ¹µÄ×Ô¶¨Òå½âÎöÆ÷¡£Ìí¼ÓÐÂÕ¾µãÊ±£¬ÎÒÃÇ±ØÐëÎªÃ¿¸öÐÂÓòÃû´´½¨Ò»¸öÎÄ¼þ£¬²¢ÔÚ parserlist.pyÖÐÔö¼ÓÒ»ÐÐÒýÓÃ¸ÃÎÄ¼þ¡£¶ÔÓÚ±¾µØ²âÊÔ£¬ÎÒÃÇ¿ÉÒÔÆô¶¯Á½¸ö²»Í¬µÄ¹¤×÷Õß celery -A tasks worker --concurrency=20 -n worker1ºÍ ... -n worker2£¬µ«Õâ²»ÊÇÒ»¸öÊµ¼ÊµÄ·Ö²¼Ê½ÍøÂçÅÀ³æÉè¼Æ¡£ÖØÒªµÄÊÇÒª×¢Òâ£¬¹¤×÷ÕßµÄÃû×ÖºÜÖØÒª£¬ÌØ±ðÊÇÔÚÍ¬Ò»Ì¨»úÆ÷ÉÏÆô¶¯¶à¸ö¹¤×÷ÕßÊ±¡£
Èç¹ûÔÚ²»¸ü¸Ä¹¤×÷ÕßÃû×ÖµÄÇé¿öÏÂÖ´ÐÐÉÏÊöÃüÁîÁ½´Î£¬ Celery½«ÎÞ·¨ÕýÈ·µØÊ¶±ðËûÃÇ£¬Òò´Ë£¬½«µÚ¶þ¸ö×÷Îª -n worker2Æô¶¯¡£
Èç¹ûÏîÄ¿Ôö³¤£¬Î¨Ò»µÄ½Úµã½«ÊÇÆ¿¾±¡£ÒªÕýÈ·ÖÆ×÷·Ö²¼Ê½ÅÀ³æ£¬ÎÒÃÇÐèÒª¶à¸ö½Úµã£¬ËüÃÇÖÐµÄÃ¿Ò»¸ö¶¼»áÔËÐÐÏàÍ¬µÄ´úÂë£¬²¢ÇÒ¿ÉÒÔ·ÃÎÊ´úÀí¡ª¡ªÔÚÎÒÃÇµÄÀý×ÓÖÐ£¬¾ÍÊÇ Redis¡£Celery´¦Àí¹¤×÷Õß²¢·ÖÅä¸ºÔØ¡£ 
6.3.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁËÊ¹ÓÃÒì²½ÈÎÎñ¶ÓÁÐÏµÍ³ CeleryÊµÏÖ·Ö²¼Ê½ÅÀ³æµÄ·½·¨¡£


µÚ 7ÕÂ.¿ª·¢ÍøÂçÅÀ³æÓÃ»§½çÃæ
±¾ÕÂÊ×ÏÈ½éÉÜ¿ª·¢ÍøÂçÅÀ³æÍ¼ÐÎÓÃ»§½çÃæËùÊ¹ÓÃµÄ TkinterÄ£¿é£¬È»ºó½éÉÜÓ¦ÓÃ TkinterÊµÏÖÍøÂçÅÀ³æ GUI¡£ 
7.1.Tkinter¼ò½é 
TkinterÊÇÓÃÓÚ´´½¨ GUIÓ¦ÓÃ³ÌÐòµÄÄÚÖÃ PythonÄ£¿é£¬ËüÊÇÔÚ PythonÖÐ´´½¨ GUIÓ¦ÓÃ³ÌÐò×î³£ÓÃµÄÄ£¿éÖ®Ò»£¬ÒòÎªËü¼òµ¥Ò×ÓÃ¡£ÎÒÃÇ²»±Øµ£ÐÄ TkinterÄ£¿éµÄµ¥¶À°²×°£¬ÒòÎªËüÒÑ¾­Ëæ PythonÒ»ÆðÌá¹©ÁË¡£ËüÎª Tk GUI¹¤¾ß°üÌá¹©ÁËÒ»¸öÃæÏò¶ÔÏóµÄ½çÃæ¡£ 
TkinterÊÇ´´½¨¸÷ÖÖÍ¼ÐÎÓÃ»§½çÃæµÄÓÐÓÃ¹¤¾ß£¬°üÀ¨´°¿Ú¡¢¶Ô»°¿òºÍ×Ô¶¨ÒåÐ¡²¿¼þ£¬ËüÌØ±ðÊÊºÏÓÚ¹¹½¨×ÀÃæÓ¦ÓÃ³ÌÐòºÍÏòÃüÁîÐÐ³ÌÐòÌí¼Ó GUI¡£»ù±¾ TkinterÐ¡²¿¼þÈç±í 7-1ËùÊ¾¡£
±í 7-1 »ù±¾ TkinterÐ¡²¿¼þ
Ð¡²¿¼þ ÃèÊö  
Label ÓÃÓÚÔÚÆÁÄ»ÉÏÏÔÊ¾ÎÄ±¾»òÍ¼Ïñ  
Button ÓÃÓÚÏòÓ¦ÓÃ³ÌÐòÌí¼Ó°´Å¥  
Canvas ÓÃÓÚ»æÖÆÍ¼Æ¬ºÍÆäËû²¼¾Ö£¬ÈçÎÄ±¾¡¢Í¼ÐÎµÈ  
ComboBox °üº¬´Ó¿ÉÓÃÑ¡ÏîÁÐ±íÖÐÑ¡ÔñµÄÏòÏÂ¼ýÍ·  
CheckButton ÏòÓÃ»§ÏÔÊ¾Ðí¶àÑ¡Ïî×÷ÎªÇÐ»»°´Å¥£¬ÓÃ»§¿ÉÒÔ´ÓÖÐÑ¡ÔñÈÎÒâÊýÁ¿µÄÑ¡Ïî  
RadioButton ÓÃÓÚÊµÏÖ¶àÖÖÑ¡ÔñÖÐµÄÒ»ÖÖ£¬ÒòÎªËüÖ»ÔÊÐíÑ¡ÔñÒ»¸öÑ¡Ïî  
Entry ÓÃÓÚÊäÈëÓÃ»§µÄµ¥ÐÐÎÄ±¾ÊäÈë  
Frame ÓÃ×÷ÈÝÆ÷À´±£´æºÍ×éÖ¯Ð¡²¿¼þ  
Message ¹¤×÷Ô­ÀíÓë±êÇ©ÏàÍ¬£¬²¢Éæ¼°¶àÐÐºÍ²»¿É±à¼­µÄÎÄ±¾  
Scale ÓÃÓÚÌá¹©Ò»¸öÍ¼ÐÎ»¬¿é£¬ÔÊÐí´Ó¸Ã±ÈÀýÖÐÑ¡ÔñÈÎºÎÖµ  
Scrollbar ÓÃÓÚÏòÏÂ¹ö¶¯µÄÄÚÈÝ£¬ËüÌá¹©ÁËÒ»¸ö»¬¶¯¿ØÖÆÆ÷ 

Ðø±í
Ð¡²¿ ¼þ Ãè Êö  
SpinBox ÔÊÐíÓÃ»§´Ó¸ø¶¨µÄÒ»×éÖµÖÐ½øÐÐÑ¡Ôñ  
Text ÔÊÐíÓÃ»§±à¼­¶àÐÐÎÄ±¾²¢ÉèÖÃÆäÏÔÊ¾·½Ê½  
Menu ÓÃÓÚ´´½¨Ó¦ÓÃ³ÌÐòÊ¹ÓÃµÄ¸÷ÖÖ²Ëµ¥ 

Ê¹ÓÃ TkinterµÄÊ¾ÀýÈçÏÂ£º 
from tkinter import * from tkinter.ttk import * 
# writing code needs to # create the main window of # the application creating # main window object named root root = Tk() 
# giving title to the main window root.title("First_Program") 
# Label is what output will be # show on the window 
label = Label(root, text="Hello World !").pack() 
# calling mainloop method which is used # when your application is ready to run # and it tells the code to keep displaying root.mainloop()
Ê¹ÓÃ Tkinter´´½¨°´Å¥£º 
# import everything from tkinter module from tkinter import * 
# create a tkinter window root = Tk() 
# Open window having dimension 100x100 root.geometry('100x100') 
# Create a Button 
btn = Button(root, text = 'Click me !', bd = '5',
 command = root.destroy)
# Set the position of button on the top of window. btn.pack(side = 'top') 
root.mainloop()
Ê¹ÓÃ tkÖ÷Ìâ¿Ø¼þ£¨tkinter.ttk£©´´½¨°´Å¥£¬Õâ½«ÎªÄúÌá¹©ÏÖ´úÍ¼ÐÎµÄÐ§¹û¡£ 

×¢Òâ£ºÇë²ÎÔÄÁ½¸ö´úÂëµÄÊä³ö£¬ÒòÎª tkinter.ttk²»Ö§³Ö±ß½ç£¬ËùÒÔ tkinter.ttk´úÂëÊä³öÖÐ²»´æÔÚ BORDER¡£´ËÍâ£¬µ±Äú½«Êó±êÐüÍ£ÔÚÁ½¸ö°´Å¥ÉÏÊ±£¬ttk.Button½«¸Ä±äÆäÑÕÉ«²¢±äÎªÇ³À¶É« (Ð§¹û¿ÉÄÜ»áÒò²Ù×÷ÏµÍ³¶øÒì )£¬ÒòÎªËüÖ§³ÖÏÖ´úÍ¼ÐÎ£¬¶ø¶ÔÓÚ¼òµ¥µÄ°´Å¥£¬Ëü²»»á¸Ä±äÑÕÉ«£¬ÒòÎªËü²»Ö§³ÖÏÖ´úÍ¼ÐÎ¡£ 
ButtonÐ¡²¿¼þÊÇ Tkinter¿âÖÐ×î»ù±¾µÄÐ¡²¿¼þÖ®Ò»£¬ÕâÊÇÓÃ»§Óë Tkinter´°¿Ú½»»¥µÄÒ»ÖÖ·½Ê½¡£µ¥»÷°´Å¥ºó£¬³ÌÐò½«´¥·¢Ò»¸ö²Ù×÷¡£ 
TkinterÔÊÐíÊ¹ÓÃ¸÷ÖÖ²»Í¬µÄº¯ÊýºÍ²ÎÊý×Ô¶¨ÒåÕâÐ©°´Å¥¡£´ËÀà×Ô¶¨ÒåµÄÀý×Ó°üÀ¨ÑÕÉ«¡¢×ÖÌåÀàÐÍ¡¢×ÖÌå´óÐ¡¡¢Í¼±êºÍÍ¼Ïñ¡£ 
ButtonÐ¡²¿¼þÓï·¨£º 

°´Å¥Ñ¡ÏîÈçÏÂ¡£ 
. activebackground£º¹â±êÎ»ÓÚ°´Å¥ÉÏ·½Ê±µÄ±³¾°ÑÕÉ«¡£

. 	activefrontground£º¹â±êÎ»ÓÚ°´Å¥ÉÏ·½Ê±µÄÇ°¾°ÑÕÉ«¡£ 

. 	bg£º°´Å¥µÄ±³¾°É«¡£ 

. 	bd£ºÒÔÏñËØÎªµ¥Î»µÄ±ß¿ò´óÐ¡¡£Ä¬ÈÏÖµÎª 2¡£ 

. 	command£ºµ¥»÷°´Å¥Ê±ÒªÖ´ÐÐµÄÃüÁî¡£Í¨³£ÉèÖÃÎªº¯Êýµ÷ÓÃ¡£ 

. 	fg£ºÇ°¾°ÑÕÉ«¡£ 

. 	font£º°´Å¥µÄÎÄ±¾×ÖÌå¡£ 

. 	height£º°´Å¥µÄ¸ß¶È¡£ 

. 	highlightcolor£ºÐ¡²¿¼þ¾Û½¹Ê±µÄÎÄ±¾ÑÕÉ«¡£ 

. 	image£º°´Å¥ÉÏÏÔÊ¾µÄÍ¼Ïñ¡£Ä¬ÈÏÇé¿öÏÂ£¬Í¼Ïñ½«Ìæ»»ÎÄ±¾¡£ 

. 	justify£º¸ü¸ÄÎÄ±¾µÄ¶ÔÆë·½Ê½¡£¿ÉÒÔÉèÖÃÎª LEFT¡¢CENTER»ò RIGHT¡£ 

. 	padx£ºÔÚÎÄ±¾µÄ×ó²àºÍÓÒ²àÌî³ä¡£ 

. 	pady£ºÔÚÎÄ±¾ÉÏ·½ºÍÏÂ·½Ìî³ä¡£ 

. 	relief£ºÖ¸¶¨±ß¿òµÄÀàÐÍ¡£´ËÑ¡ÏîµÄÄ¬ÈÏÖµÎª FLAT£¬ÆäËûÑ¡Ïî°üÀ¨ SUNKEN¡¢ RAISED¡¢GROVEºÍ RIDGE¡£ 

. 	state£ºÄ¬ÈÏÖµÎª NORMAL¡£DISABLED£¨½ûÓÃ£©»áÊ¹°´Å¥±ä»Ò²¢´¦ÓÚ·Ç»î¶¯×´Ì¬¡£ ACTIVEÊÇÊó±êÐüÍ£ÔÚ°´Å¥ÉÏÊ±µÄ×´Ì¬¡£ 

. 	underline£ºÄ¬ÈÏÖµÎª -1¡£ÎªÁË¸ø°´Å¥ÎÄ±¾Ìí¼ÓÏÂ»­Ïß£¬¿ÉÒÔÉèÖÃ´ËÑ¡Ïî¡£ 

. 	width£º°´Å¥µÄ¿í¶È¡£ 

. 	wrappelength£ºÈç¹û¸ÃÖµÉèÖÃÎªÕýÊý£¬ÔòÎÄ±¾ÐÐ½«±»»»ÐÐÒÔÊÊÓ¦´Ë³¤¶È¡£


ÏÂÃæµÄ´úÂë½«´´½¨Ò»¸ö´øÓÐ°´Å¥µÄ GUI£¬¸Ã°´Å¥½«Ïò¿ØÖÆÌ¨ÏÔÊ¾ÎÄ±¾¡° Hello World¡±¡£ 
from tkinter import * 
def set():
 print("Hello World") 

root = Tk() 
root.geometry("200x150") 

frame = Frame(root) 
frame.pack() 

button = Button(frame, text = "Button1", command = set) 
button.pack() 
root.mainloop() 
Tkinter±êÇ©ÊÇÒ»¸öÐ¡²¿¼þ£¬ÓÃÓÚÊµÏÖ¿ÉÒÔ·ÅÖÃÎÄ±¾»òÍ¼ÏñµÄÏÔÊ¾¿ò¡£¿ª·¢ÈËÔ±¿ÉÒÔËæÊ±¸ü¸Ä´ËÐ¡²¿¼þÏÔÊ¾µÄÎÄ±¾¡£Ëü»¹ÓÃÓÚÖ´ÐÐÔÚÎÄ±¾²¿·ÖÌí¼ÓÏÂ»­Ïß£¬¿ç¶àÐÐÏÔÊ¾ÎÄ±¾ÕâÑùµÄÈÎÎñ¡£ÐèÒª×¢ÒâµÄÊÇ£¬±êÇ©Ò»´ÎÖ»ÄÜÊ¹ÓÃÒ»ÖÖ×ÖÌåÀ´ÏÔÊ¾ÎÄ±¾¡£ÒªÊ¹ÓÃ±êÇ©£¬Ö»ÐèÖ¸¶¨ÒªÔÚÆäÖÐÏÔÊ¾µÄÄÚÈÝ£¨¿ÉÒÔÊÇÎÄ±¾¡¢Î»Í¼»òÍ¼Ïñ£©¡£
Óï·¨£º 

²ÎÊýÈçÏÂ¡£ 
. master£º±íÊ¾¸¸´°¿Ú¡£ . options£ºÏÂÃæÊÇÕâ¸öÐ¡²¿¼þ×î³£ÓÃµÄÑ¡ÏîÁÐ±í¡£ÕâÐ©Ñ¡Ïî¿ÉÓÃ×÷ÒÔ¶ººÅ·Ö¸ôµÄ¼ü

Öµ¶Ô¡£¸÷ÖÖÑ¡ÏîÃèÊöÈçÏÂ¡£ 

. 	anchor£ºÈç¹ûÐ¡²¿¼þµÄ¿Õ¼ä´óÓÚÎÄ±¾ËùÐèµÄ¿Õ¼ä£¬Ôò´ËÑ¡ÏîÓÃÓÚ¿ØÖÆÎÄ±¾µÄÎ»ÖÃ¡£Ä¬ÈÏÖµÎª anchor=CENTER£¬½«ÎÄ±¾ÖÃÓÚ¿ÉÓÃ¿Õ¼äµÄÖÐÐÄ¡£ 

. 	bg£º´ËÑ¡ÏîÓÃÓÚÉèÖÃ±êÇ©ºÍÖ¸Ê¾Æ÷ºóÃæÏÔÊ¾µÄÕý³£±³¾°É«¡£ 

. 	height£º´ËÑ¡ÏîÓÃÓÚÉèÖÃÐÂ¿ò¼ÜµÄ´¹Ö±³ß´ç¡£ 

. 	width£º±êÇ©µÄ¿í¶È£¬ÒÔ×Ö·ûÎªµ¥Î»£¨²»ÊÇÏñËØ£¡£©¡£Èç¹ûÎ´ÉèÖÃ´ËÑ¡Ïî£¬Ôò±êÇ©µÄ´óÐ¡½«ÊÊºÏÆäÄÚÈÝ¡£ 

. 	bd£º´ËÑ¡ÏîÓÃÓÚÉèÖÃÖ¸Ê¾Æ÷ÖÜÎ§±ß¿òµÄ´óÐ¡¡£Ä¬ÈÏµÄ bdÖµÎª 2ÏñËØ¡£ 

. 	font£ºÈç¹ûÄúÔÚ±êÇ©ÖÐÏÔÊ¾ÎÄ±¾£¬Ôò×ÖÌåÑ¡ÏîÓÃÓÚÖ¸¶¨±êÇ©ÖÐµÄÎÄ±¾½«ÒÔºÎÖÖ×ÖÌåÏÔÊ¾¡£ 

. 	cursor£ºÓÃÓÚÖ¸¶¨µ±Êó±êÒÆ¶¯µ½±êÇ©ÉÏÊ±ÒªÏÔÊ¾µÄ¹â±ê¡£Ä¬ÈÏÖµÊÇÊ¹ÓÃ±ê×¼¹â±ê¡£ 

. 	textvariable£º¹ËÃûË¼Òå£¬ËüÓë±êÇ©µÄ Tkinter±äÁ¿£¨Í¨³£ÊÇ StringVar£©¹ØÁª¡£Èç¹û±äÁ¿ÒÑ¸ü¸Ä£¬Ôò±êÇ©ÎÄ±¾½«¸üÐÂ¡£ 

. 	bitmap£ºÓÃÓÚ½«Î»Í¼ÉèÖÃÎªÖ¸¶¨µÄÍ¼ÐÎ¶ÔÏó£¬ÒÔ±ã±êÇ©¿ÉÒÔ±íÊ¾Í¼ÐÎ¶ø²»ÊÇÎÄ±¾¡£ 

. 	fg£ºÈç¹ûÔÚ´Ë±êÇ©ÖÐÏÔÊ¾ÎÄ±¾»òÎ»Í¼£¬Ôò´ËÑ¡ÏîÖ¸¶¨ÎÄ±¾µÄÑÕÉ«¡£Èç¹ûÒªÏÔÊ¾Î»Í¼£¬ÔòÕâÊÇÎ»Í¼ÖÐ 1Î»Î»ÖÃ´¦³öÏÖµÄÑÕÉ«¡£ 

. 	image£º´ËÑ¡ÏîÓÃÓÚÔÚ±êÇ©Ð¡²¿¼þÖÐÏÔÊ¾¾²Ì¬Í¼Ïñ¡£ 

. 	padx£ºÔÚÐ¡²¿¼þÖÐÎªÎÄ±¾µÄ×ó²àºÍÓÒ²àÌí¼Ó¶îÍâµÄ¿Õ¼ä¡£Ä¬ÈÏÖµÎª 1¡£ 

. 	pady£ºÔÚÐ¡²¿¼þµÄÎÄ±¾ÉÏ·½ºÍÏÂ·½Ìí¼Ó¶îÍâµÄ¿Õ¼ä¡£Ä¬ÈÏÖµÎª 1¡£ 

. 	justify£º´ËÑ¡ÏîÓÃÓÚ¶¨ÒåÈçºÎ¶ÔÆë¶àÐÐÎÄ±¾¡£Ê¹ÓÃ LEFT¡¢RIGHT»ò CENTER×÷ÎªÆäÖµ¡£Çë×¢Òâ£¬ÒªÔÚÐ¡²¿¼þÖÐ¶¨Î»ÎÄ±¾£¬ÇëÊ¹ÓÃÃª¶¨Ñ¡Ïî¡£¶ÔÆëµÄÄ¬ÈÏÖµÎª CENTER¡£

. 	relief£º´ËÑ¡ÏîÓÃÓÚÖ¸¶¨±êÇ©ÖÜÎ§×°ÊÎ±ß¿òµÄÍâ¹Û¡£´ËÑ¡ÏîµÄÄ¬ÈÏÖµÎª FLAT¡£ 

. 	underline£ºÍ¨¹ý½«´ËÑ¡ÏîÉèÖÃÎª n£¬¿ÉÒÔÔÚÎÄ±¾µÄµÚ n¸ö×ÖÄ¸ÏÂ·½ÏÔÊ¾ÏÂ»­Ïß (_)£¬´Ó 0¿ªÊ¼¼ÆÊý¡£Ä¬ÈÏÖµÎª underline=-1£¬ÕâÒâÎ¶×ÅÃ»ÓÐÏÂ»­Ïß¡£ 

. 	wrappelength£º²»ÊÇÖ»ÓÐÒ»ÐÐ×÷Îª±êÇ©ÎÄ±¾£¬¶øÊÇ¿ÉÒÔ²ð·ÖÎªÊýÐÐ£¬ÆäÖÐÃ¿ÐÐ¶¼ÓÐ


Îª´ËÑ¡ÏîÖ¸¶¨µÄ×Ö·ûÊý¡£Ê¾Àý´úÂëÈçÏÂ£º 

CanvasÐ¡²¿¼þÔÊÐíÎÒÃÇÔÚÓ¦ÓÃ³ÌÐòÉÏÏÔÊ¾¸÷ÖÖÍ¼ÐÎ£¬Ëü¿ÉÒÔÓÃÀ´»æÖÆ¼òµ¥µÄÐÎ×´µ½¸´ÔÓµÄÍ¼ÐÎ¡£ÎÒÃÇ»¹¿ÉÒÔ¸ù¾ÝÐèÒªÏÔÊ¾¸÷ÖÖ×Ô¶¨ÒåÐ¡²¿¼þ¡£
Óï·¨£º 

¿ÉÑ¡²ÎÊýÈçÏÂ¡£
. 	root£º¸ù´°¿Ú¡£ 

. height£º»­²¼Ð¡²¿¼þµÄ¸ß¶È¡£ 

. 	width£º»­²¼Ð¡²¿¼þµÄ¿í¶È¡£ 

. bg£º»­²¼µÄ±³¾°É«¡£ 

. 	bd£º»­²¼´°¿ÚµÄ±ß¿ò¡£ 

. 	scrollregion£ºÒ»¸öÔª×é£¨ w£¬n£¬e£¬s£©£¬¶¨Òå»­²¼¿ÉÒÔ¹ö¶¯µÄÇøÓò´óÐ¡£¬ÆäÖÐ wÊÇ×ó²à£¬nÊÇ¶¥²¿£¬eÊÇÓÒ²à£¬sÊÇµ×²¿¡£ 

. highlightcolor£º½¹µã¸ßÁÁÏÔÊ¾µÄÑÕÉ«¡£ 

. cursor£º¿ÉÒÔ¶¨ÒåÎª»­²¼µÄ¹â±ê£¬¿ÉÒÔÊÇÔ²¡¢¼ýÍ·µÈ¡£ 

. 	con.ne£º¾ö¶¨ÊÇ·ñ¿ÉÒÔÔÚ¹ö¶¯ÇøÓòÖ®Íâ·ÃÎÊ»­²¼¡£ 

. relief£º±ß¿òµÄÀàÐÍ£¬¿ÉÒÔÊÇ SUNKEN¡¢RAISED¡¢GROVEºÍ RIDGE¡£Ò»Ð©³£¼ûµÄ»æÍ¼·½·¨£º 

.	´´½¨ÍÖÔ² 

.	´´½¨Ö±Ïß 

.	´´½¨¶à±ßÐÎ 

.	´´½¨Í¼Ïñ 






¼òµ¥ÐÎ×´µÄ»æÍ¼µÄ´úÂëÈçÏÂ£º 

 fill="blue") 
C.pack() 
mainloop() 

EntryÐ¡²¿¼þÊÇÒ»¸öÓÃÓÚÊäÈë»òÏÔÊ¾µ¥ÐÐÎÄ±¾µÄÐ¡²¿¼þ¡£
Óï·¨£º 

entry = tk.Entry(parent, options)
²ÎÊýÃèÊöÈçÏÂ¡£
£¨1£©parent£ºÒªÏÔÊ¾µÄÐ¡²¿¼þµÄ¸¸¼¶´°¿Ú»ò¿ò¼Ü¡£

£¨2£©optiens£ºEntryÐ¡²¿¼þÌá¹©µÄ¸÷ÖÖÑ¡Ïî¡£¸÷ÖÖÑ¡ÏîÃèÊöÈçÏÂ¡£ 

. 	bg£º±êÇ©ºÍÖ¸Ê¾Æ÷ºóÃæÏÔÊ¾µÄ±³¾°É«¡£ 

. 	bd£ºÖ¸Ê¾Æ÷ÖÜÎ§±ß¿òµÄ´óÐ¡¡£Ä¬ÈÏÖµÎª 2ÏñËØ¡£ 

. 	font£ºÓÃÓÚÎÄ±¾µÄ×ÖÌå¡£ 

. 	fg£ºÓÃÓÚäÖÈ¾ÎÄ±¾µÄÑÕÉ«¡£ 

. 	justify£ºÈç¹ûÎÄ±¾°üº¬¶àÐÐ£¬Ôò´ËÑ¡Ïî¿ØÖÆÎÄ±¾µÄ¶ÔÆë·½Ê½¡£¿ÉÑ¡ÖµÎª CENTER¡¢ LEFT»ò RIGHT¡£ 

. 	relief£º±ß¿òµÄÀàÐÍ¡£ reliefÄ¬ÈÏÖµÊÇ FLAT¡£Äú¿ÉÒÔ½«´ËÑ¡ÏîÉèÖÃÎªÈÎºÎÆäËûÑùÊ½£¬Èç SUNKEN¡¢RIGID¡¢RAISED¡¢GROVE¡£ 

. 	show£ºÍ¨³££¬ÓÃ»§ÊäÈëµÄ×Ö·û»á³öÏÖÔÚ entryÖÐ¡£Èç¹ûÒª´´½¨Ò»¸ö .password.entry£¬ÇÒ½«Ã¿¸ö×Ö·û×÷ÎªÐÇºÅ½øÐÐÏìÓ¦£¬ÇëÉèÖÃ show=¡°*¡±¡£ 

. 	textvariable£ºÎªÁËÄÜ¹»´Ó EntryÐ¡²¿¼þÖÐ¼ìË÷µ±Ç°ÎÄ±¾£¬±ØÐë½«´ËÑ¡ÏîÉèÖÃÎª 

StringVarÀàµÄÊµÀý¡£ 
EntryÐ¡²¿¼þÌá¹©µÄ¸÷ÖÖ·½·¨ÈçÏÂ¡£ 


. 	get()£ºÒÔ×Ö·û´®ÐÎÊ½·µ»ØÌõÄ¿µÄµ±Ç°ÎÄ±¾¡£ 

. 	delete()£º´ÓÐ¡²¿¼þÖÐÉ¾³ý×Ö·û¡£ 

. insert£¨index,¡®name¡¯£©£ºÔÚ¸ø¶¨Ë÷ÒýµÄ×Ö·ûÖ®Ç°²åÈë×Ö·û´®¡°name¡±¡£
Ê¾Àý´úÂëÈçÏÂ£º 



# Program to make a simple 
# login screen 

import tkinter as tk 
root=tk.Tk() 
# setting the windows size 
root.geometry("600x400") 
# declaring string variable 
# for storing name and password 
name_var=tk.StringVar() 
passw_var=tk.StringVar() 

# defining a function that will 
# get the name and password and 
# print them on the screen 
def submit():

 name=name_var.get()
 password=passw_var.get() 

print("The name is : " + name) 
print("The password is : " + password)

 name_var.set("")
 passw_var.set("") 

# creating a label for 
# name using widget Label 

name_label = tk.Label(root, text = 'Username', font=('calibre',10, 'bold')) 
# creating a entry for input 
# name using widget Entry 

name_entry = tk.Entry(root,textvariable = name_var, font=('calibre',10,'normal')) 
# creating a label for password 
passw_label = tk.Label(root, text = 'Password', font = ('calibre',10,'bold')) 
# creating a entry for password 
passw_entry=tk.Entry(root, textvariable = passw_var, font = ('calibre',10,'normal'), show = '*') 
# creating a button using the widget 
# Button that will call the submit function 

sub_btn=tk.Button(root,text = 'Submit', command = submit) 
# placing the label and entry in 
# the required position using grid 


TextÐ¡²¿¼þÓÃÓÚÓÃ»§Ï£Íû²åÈë¶àÐÐÎÄ±¾×Ö¶ÎµÄµØ·½¡£´ËÐ¡²¿¼þ¿ÉÓÃÓÚÐèÒª¶àÐÐÎÄ±¾µÄ¸÷ÖÖÓ¦ÓÃ³ÌÐò£¬ÀýÈçÏûÏ¢´«µÝ¡¢·¢ËÍÐÅÏ¢»òÏÔÊ¾ÐÅÏ¢ÒÔ¼°Ðí¶àÆäËûÈÎÎñ¡£ÎÒÃÇ»¹¿ÉÒÔÔÚ TextÐ¡²¿¼þÖÐ²åÈëÍ¼ÏñºÍÁ´½ÓµÈÃ½ÌåÎÄ¼þ¡£
Óï·¨£º 

¿ÉÑ¡²ÎÊýÃèÊöÈçÏÂ¡£ 
. root£º¸ù´°¿Ú¡£ 

. bg£º±³¾°É«¡£ 

. fg£ºÇ°¾°É«¡£ 

. bd£ºÐ¡²¿¼þµÄ±ß¿ò¡£ 

. height£ºÐ¡²¿¼þµÄ¸ß¶È¡£ 

. width£ºÐ¡²¿¼þµÄ¿í¶È¡£ 

. font£ºÎÄ±¾µÄ×ÖÌåÀàÐÍ¡£ 

. cursor£ºÒªÊ¹ÓÃµÄ¹â±êÀàÐÍ¡£ 

. insetof.me£º¹â±êÉÁË¸¹Ø±ÕµÄÊ±¼ä£¨ºÁÃë£©¡£ 

. insertontime£º¹â±êÉÁË¸µÄÊ±¼ä£¨ºÁÃë£©¡£ 

. padx£ºË®Æ½Ìî³ä¡£ 

. pady£º´¹Ö±Ìî³ä¡£ 

. state£º¶¨ÒåÐ¡²¿¼þÊÇ·ñÏìÓ¦Êó±ê»ò¼üÅÌµÄÒÆ¶¯¡£ 

. highlightthickness£º¶¨Òå½¹µã¸ß¹âµÄºñ¶È¡£ 

. insertionwidth£º¶¨Òå²åÈë×Ö·ûµÄ¿í¶È¡£ 

. relief£º±ß¿òµÄÀàÐÍ£¬¿ÉÒÔÊÇ SUNKEN¡¢RIGID¡¢RAISEDºÍ GROVE¡£ 

. yscrollcommand£ºÊ¹Ð¡²¿¼þ¿É´¹Ö±¹ö¶¯¡£ 

. xscrollcommand£ºÊ¹Ð¡²¿¼þ¿ÉË®Æ½¹ö¶¯¡£

Ò»Ð©³£ÓÃ·½·¨ÈçÏÂ¡£ 

. index(index)£º»ñÈ¡Ö¸¶¨µÄË÷Òý¡£ 

. insert(index)£ºÔÚÖ¸¶¨Ë÷Òý´¦²åÈë×Ö·û´®¡£ 

. see(index)£º¼ì²é×Ö·û´®ÔÚ¸ø¶¨Ë÷Òý´¦ÊÇ·ñ¿É¼û¡£ 

. get(startindex, endindex)£º»ñÈ¡¸ø¶¨·¶Î§ÄÚµÄ×Ö·û¡£ 

. delete(startindex, endindex)£ºÉ¾³ýÖ¸¶¨·¶Î§ÄÚµÄ×Ö·û¡£Ê¾Àý´úÂëÈçÏÂ£º 


import tkinter as tk from tkinter import * 
root = Tk() 
# specify size of window. root.geometry("250x170") 
# create text widget and specify size. 
T = Text(root, height=5, width=52) 
# create label 
l = Label(root, text="Fact of the Day") l.config(font=("Courier", 14)) 
Fact = """A man can be arrested in Italy for wearing a skirt in public.""" 
# create button for next text. 
b1 = Button(root, text="Next", ) 
# create an Exit button. 
b2 = Button(root, text="Exit",
 command=root.destroy) 
l.pack() T.pack() b1.pack() b2.pack() 
# insert The Fact. 
T.insert(tk.END, Fact) 
tk.mainloop() 
FrameÊÇÆÁÄ»ÉÏµÄ¾ØÐÎÇøÓò¡£ Frame¿ÉÒÔÓÃ×÷»ù´¡ÀàÀ´ÊµÏÖ¸´ÔÓµÄÐ¡²¿¼þ£¬ËüÓÃÓÚ×éÖ¯Ò»×éÐ¡²¿¼þ¡£
Ê¹ÓÃ FrameÐ¡²¿¼þµÄÓï·¨ÈçÏÂËùÊ¾¡£ 

²ÎÊýÃèÊöÈçÏÂ¡£ 
. master£º´Ë²ÎÊýÓÃÓÚ±íÊ¾¸¸´°¿Ú¡£ 
. options£ºÓÐÐí¶à¿ÉÓÃµÄÑ¡Ïî£¬ËüÃÇ¿ÉÒÔÓÃ×÷ÓÃ¶ººÅ·Ö¸ôµÄ¼üÖµ¶Ô¡£
ÒÔÏÂÊÇ¿ÉÓÃÓÚ´ËÐ¡²¿¼þ³£ÓÃµÄÑ¡Ïî¡£ 


. bg£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾±êÇ©ºÍÖ¸Ê¾Æ÷ºóÃæÏÔÊ¾µÄÕý³£±³¾°É«¡£ 

. bd£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾Ö¸Ê¾Æ÷ÖÜÎ§±ß¿òµÄ´óÐ¡£¬Ä¬ÈÏÖµÎª 2ÏñËØ¡£ 

. cursor£ºÍ¨¹ýÊ¹ÓÃ´ËÑ¡Ïî£¬Êó±ê¹â±êÔÚ FrameÉÏÊ±½«¸ü¸ÄÎª¸ÃÄ£Ê½¡£ 

. height£ºÐÂ FrameµÄ´¹Ö±³ß´ç¡£ 

. highlightcolor£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾ Frame¾ßÓÐ½¹µãÊ±½¹µã¸ßÁÁÏÔÊ¾µÄÑÕÉ«¡£ 

. highlightthickness£º½¹µã¸ßÁÁÏÔÊ¾µÄºñ¶È¡£ 

. highlightbackground£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾ FrameÃ»ÓÐ½¹µãÊ±½¹µã¸ßÁÁÏÔÊ¾µÄÑÕÉ«¡£ 

. relief£ºFrame±ß¿òµÄÀàÐÍ¡£ÆäÄ¬ÈÏÖµÉèÖÃÎª FLAT¡£ 

. width£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾ FrameµÄ¿í¶È¡£
Ê¾Àý´úÂëÈçÏÂ£º 




b3_button = Button(frame, text="Geeks3", fg="blue") 
b3_button.pack(side=LEFT) 
b4_button = Button(bottomframe, text="Geeks4", fg="green") 
b4_button.pack(side=BOTTOM) 

b5_button = Button(bottomframe, text="Geeks5", fg="green") 
b5_button.pack(side=BOTTOM) 

b6_button = Button(bottomframe, text="Geeks6", fg="green") 
b6_button.pack(side=BOTTOM) 

root.mainloop() 
ToplevelÐ¡²¿¼þÓÃÓÚÔÚËùÓÐÆäËû´°¿ÚÖ®ÉÏ´´½¨´°¿Ú¡£ ToplevelÐ¡²¿¼þÓÃÓÚÏòÓÃ»§Ìá¹©Ò»Ð©¶îÍâµÄÐÅÏ¢£¬µ±ÎÒÃÇµÄ³ÌÐò´¦Àí¶à¸öÓ¦ÓÃ³ÌÐòÊ±Ò²ÊÇÈç´Ë¡£ÕâÐ©´°¿ÚÓÉ´°¿Ú¹ÜÀíÆ÷Ö±½Ó×éÖ¯ºÍ¹ÜÀí£¬²»ÐèÒªÃ¿´Î¶¼ÓÐÈÎºÎ¸¸´°¿ÚÓëÆä¹ØÁª¡£
Óï·¨£º 

¿ÉÑ¡²ÎÊýÃèÊöÈçÏÂ¡£ 
. root£º¸ù´°¿Ú£¨¿ÉÑ¡£©¡£ 

. bg£º±³¾°É«¡£ 

. fg£ºÇ°¾°É«¡£ 

. bd£º±ß¿ò¡£ 

. height£ºÐ¡²¿¼þµÄ¸ß¶È¡£ 

. width£ºÐ¡²¿¼þµÄ¿í¶È¡£ 

. font£ºÎÄ±¾µÄ×ÖÌåÀàÐÍ¡£ 

. cursor£º³öÏÖÔÚÐ¡²¿¼þÉÏµÄ¹â±ê£¬¿ÉÒÔÊÇ¼ýÍ·¡¢µãµÈ¡£³£ÓÃ·½·¨ÃèÊöÈçÏÂ¡£ 

. iconify()£º½«´°¿Ú±ä³ÉÍ¼±ê¡£ 

. deionify()£º½«Í¼±ê×ª»Ø´°¿Ú¡£ 

. state()£º·µ»Ø´°¿ÚµÄµ±Ç°×´Ì¬¡£ 

. withdraw()£º½«´°¿Ú´ÓÆÁÄ»ÉÏÉ¾³ý¡£ 

. title()£º¶¨Òå´°¿ÚµÄ±êÌâ¡£ 

. frame()£º·µ»ØÌØ¶¨ÓÚÏµÍ³µÄ´°¿Ú±êÊ¶·û¡£


Ê¾Àý´úÂëÈçÏÂ£º 

ScrollbarÐ¡²¿¼þÓÃÓÚÏòÏÂ¹ö¶¯ÄÚÈÝ¡£Õâ¸öÐ¡²¿¼þÌá¹©ÁËÒ»¸ö»¬¶¯¿ØÖÆÆ÷£¬ÓÃÓÚÊµÏÖ´¹Ö±¹ö¶¯µÄÐ¡²¿¼þ£¬Èç Listbox¡¢TextºÍ Canvas¡£
ÏÂÃæ¸ø³öÁËÊ¹ÓÃ ScrollbarÐ¡²¿¼þµÄÓï·¨¡£ 

²ÎÊýÃèÊöÈçÏÂ¡£ 
. master£º´Ë²ÎÊýÓÃÓÚ±íÊ¾¸¸´°¿Ú¡£ 
. options£ºÓÐÐí¶à¿ÉÓÃµÄÑ¡Ïî£¬ËüÃÇ¿ÉÒÔÓÃ×÷ÓÃ¶ººÅ·Ö¸ôµÄ¼üÖµ¶Ô¡£
ÒÔÏÂÊÇ¿ÉÓÃÓÚ´ËÐ¡²¿¼þµÄ³£ÓÃÑ¡Ïî¡£ 


. activebackground£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾¿Ø¼þ¾ßÓÐ½¹µãÊ±µÄ±³¾°É«¡£ 

. bg£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾Ð¡²¿¼þµÄ±³¾°É«¡£ 

. 	bd£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾Ð¡²¿¼þµÄ±ß¿ò¿í¶È¡£ 

. 	command£º´ËÑ¡Ïî¿ÉÒÔÉèÖÃÎªÓëÁÐ±íÏà¹ØÁªµÄ¹ý³Ì£¬Ã¿´ÎÒÆ¶¯¹ö¶¯ÌõÊ±¶¼¿ÉÒÔµ÷ÓÃ¸Ã¹ý³Ì¡£ 

. cursor£ºÔÚ¸ÃÑ¡ÏîÖÐ£¬Êó±êÖ¸Õë½«¸ü¸ÄÎª¸ÃÑ¡ÏîµÄ¹â±êÀàÐÍ£¬¿ÉÒÔÊÇ¼ýÍ·¡¢µãµÈ¡£ 

. 	elementborderwidth£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾¼ýÍ·ºÍ»¬¿éÖÜÎ§µÄ±ß¿ò¿í¶È¡£Ä¬ÈÏÖµÎª -1¡£ 

. highlightbackground£ºµ±Ð¡²¿¼þÃ»ÓÐ½¹µãÊ±£¬´ËÑ¡ÏîÓÃÓÚ½¹µã¸ß¹âÑÕÉ«¡£ 

. highlightcolor£ºµ±Ð¡²¿¼þ¾ßÓÐ½¹µãÊ±£¬ÕâÊÇ½¹µã¸ß¹âÑÕÉ«¡£ 

. highlightthickness£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾½¹µã¸ß¹âµÄºñ¶È¡£

. 	jump£º´ËÑ¡ÏîÓÃÓÚ¿ØÖÆ¹ö¶¯Ìø×ªµÄÐÐÎª¡£Èç¹ûÉèÖÃÎª 1£¬ÔòÔÚÓÃ»§ÊÍ·ÅÊó±ê°´Å¥Ê±µ÷ÓÃ»Øµ÷¡£ 

. 	orient£º¸ù¾Ý¹ö¶¯ÌõµÄ·½Ïò£¬´ËÑ¡Ïî¿ÉÒÔÉèÖÃÎª HORIZONTAL£¨Ë®Æ½£©»ò VERTICAL£¨´¹Ö±£©¡£ 

. 	repeatdelay£º´ËÑ¡Ïî¸æËßÔÚ»¬¿é¿ªÊ¼Ïò¸Ã·½ÏòÖØ¸´ÒÆ¶¯Ö®Ç°£¬°´Å¥±»°´ÏÂµÄ³ÖÐøÊ±¼ä¡£Ä¬ÈÏÖµÎª 300ºÁÃë¡£ 

. 	repeatinterval£ºÒ»µ©»¬¿éÔÚÄ³·½ÏòµÄ³ÖÐøÒÆ¶¯¿ªÊ¼£¬¸ÃÖµ¾ö¶¨ÁËÏàÁÚÁ½´ÎÒÆ¶¯¶¯×÷µÄÊ±¼ä¼ä¸ô¡£ 

. 	takefocus£º¿ÉÒÔÊ¹ÓÃ Tab¼ü½«½¹µãÇÐ»»µ½ scrollbar¡£Èç¹û takefocus=0£¬ÄÇÃ´½«¹Ø±Õ¸Ã¹¦ÄÜ¡£ 

. 	troughcolor£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾²ÛµÄÑÕÉ«¡£ 

. width£º´ËÑ¡ÏîÓÃÓÚ±íÊ¾¹ö¶¯ÌõµÄ¿í¶È¡£´ËÐ¡²¿¼þÖÐÊ¹ÓÃµÄ·½·¨ÈçÏÂ¡£ 

. 	get()£º·µ»ØÃèÊö»¬¿éµ±Ç°Î»ÖÃµÄÁ½¸öÊý×Ö (a, b)¡£aÖµ·Ö±ðÎªË®Æ½ºÍ´¹Ö±¹ö¶¯ÌõÌá¹©»¬¿é×ó±ßÔµ»òÉÏ±ßÔµµÄÎ»ÖÃ£»bÖµ¸ø³öÓÒ±ßÔµ»òÏÂ±ßÔµµÄÎ»ÖÃ¡£ 

. set ( .rst, last )£ºÉèÖÃ¹ö¶¯ÌõµÄ»¬¿éµÄÎ»ÖÃ¡£Ê¾Àý´úÂëÈçÏÂ£º 



mylist.pack( side = LEFT, fill = BOTH ) 
scroll_bar.config( command = mylist.yview ) 
root.mainloop() 
LabelFrameÊÇ TkinterÖÐ LabelºÍ FrameÐ¡²¿¼þµÄ×éºÏ¡£Ä¬ÈÏÇé¿öÏÂ£¬ LabelFrame »áÔÚÆä×Ó×é¼þµÄÖÜÎ§»æÖÆÒ»¸ö±ß¿òÒÔ¼°Ò»¸ö±êÌâ¡£ÒÔÏÂÊÇÔÚ TkinterÖÐ´´½¨ LabelFrameµÄÓï·¨¡£ 
Labelframe_tk = LabelFrame ( windows, features ) 
LabelFrameµÄÌØÕ÷ºÍÊôÐÔÃèÊöÈçÏÂ¡£ 
. bg£ºÏÔÊ¾Ð¡²¿¼þµÄ±³¾°É«¡£ 

. bd£ºÏÔÊ¾±ß¿òµÄ¿í¶È¡£ 

. cursor£ºÔÚ¸ÃÑ¡ÏîÖÐ£¬Êó±êÖ¸Õë½«¸ü¸ÄÎª¸ÃÑ¡ÏîµÄ¹â±êÀàÐÍ£¬¿ÉÒÔÊÇ¼ýÍ·¡¢µãµÈ¡£ 

. fg£ºÈ·¶¨ÓÃÓÚÐ¡²¿¼þµÄ×ÖÌåµÄÇ°¾°É«¡£ 

. font£ºÈ·¶¨ÓÃÓÚÐ¡²¿¼þµÄ×ÖÌåÀàÐÍ¡£ 

. height£ºÈ·¶¨Ð¡²¿¼þµÄ¸ß¶È¡£ 

. labelAnchor£ºÖ¸¶¨ÎÄ±¾ÔÚÐ¡²¿¼þÖÐµÄÎ»ÖÃ¡£ 

. labelwidget£ºÖ¸¶¨ÓÃÓÚ±êÊ¶±êÇ©µÄÐ¡²¿¼þ¡£Èç¹ûÎ´¶¨ÒåÖµ£¬ÔòÊ¹ÓÃ Text×÷ÎªÄ¬ÈÏÖµ¡£ 

. highlightbackground£ºµ¥»÷Ê±ÏÔÊ¾ÎÄ±¾Ð¡²¿¼þ±³¾°µÄ¸ßÁÁÑÕÉ«¡£ 

. highlightcolor£ºÏÔÊ¾µ¥»÷±êÇ©¿ò¼ÜÐ¡²¿¼þÊ±µÄ¸ßÁÁÑÕÉ«¡£ 

. highlightthickness£ºÖ¸¶¨½¹µãÖÐ¸ßÁÁµÄºñ¶È¡£ 

. padx£ºÔÚË®Æ½·½ÏòÉÏÌí¼ÓÌî³ä¡£ 

. pady£ºÔÚ´¹Ö±·½ÏòÌí¼ÓÌî³ä¡£ 

. relief£ºÏÔÊ¾²»Í¬ÀàÐÍµÄ±ß¿ò¡£Ä¬ÈÏÇé¿öÏÂ£¬ËüÓÐÒ»¸ö FLAT±ß¿ò¡£ 

. text£ºÖ¸¶¨°üº¬±êÇ©ÎÄ±¾µÄ×Ö·û´®¡£ 

. width£ºÖ¸¶¨Ð¡²¿¼þµÄ¿í¶È¡£
¿ÉÒÔ´´½¨¼òµ¥µÄ LabelFrameÐ¡²¿¼þ£¬ÈçÏÂËùÊ¾£º 



from tkinter import * 
screen = Tk() 
screen.geometry('300x300') 

labelframe_tk = LabelFrame(screen, text="LabelFrame Title") 
labelframe_tk.pack(fill="both", expand="yes") 

inside = Label(labelframe_tk, text="Add whatever you like") 
inside.pack() 
screen.mainloop()
ÔÚÃ¿¸öÓ¦ÓÃ³ÌÐòÖÐ£¬ÎÒÃÇ¶¼ÐèÒªÏÔÊ¾Ò»Ð©ÏûÏ¢£¬Èç¡°Òª¹Ø±ÕÂð¡±»òÏÔÊ¾ÈÎºÎ¾¯¸æ»òÆäËûÐÅÏ¢£¬Îª´Ë£¬ TkinterÌá¹©ÁËÒ»¸ö messagebox¿â¡£Í¨¹ýÊ¹ÓÃ messagebox¿â£¬ÎÒÃÇ¿ÉÒÔÏûÏ¢¿òµÄÐÎÊ½ÏÔÊ¾Ò»Ð©ÐÅÏ¢¡¢´íÎó¡¢¾¯¸æ¡¢È¡ÏûµÈ¡£ËüÓÐÒ»¸ö²»Í¬µÄÏûÏ¢¿ò£¬ÓÃÓÚ²»Í¬µÄÄ¿µÄ¡£
£¨1£©showinfo() ¡ª¡ªÏÔÊ¾Ò»Ð©ÖØÒªÐÅÏ¢¡£

£¨2£©showwarning() ¡ª¡ªÏÔÊ¾Ä³ÖÖÀàÐÍµÄ¾¯¸æ¡£

£¨3£©showerror() ¡ª¡ªÏÔÊ¾Ò»Ð©´íÎóÏûÏ¢¡£

£¨4£©askquestion() ¡ª¡ªÏÔÊ¾´øÓÐÁ½¸öÑ¡Ïî¡°ÊÇ¡±»ò¡°·ñ¡±µÄ¶Ô»°¿ò¡£

£¨5£©askokcancel() ¡ª¡ªÏÔÊ¾Ò»¸ö¶Ô»°¿ò£¬Ñ¯ÎÊÁ½¸öÑ¡Ïî¡°ÊÇ¡±»ò¡°È¡Ïû¡±¡£

£¨6£©askretrycancel() ¡ª¡ªÏÔÊ¾Ò»¸ö¶Ô»°¿ò£¬Ñ¯ÎÊÁ½¸öÑ¡Ïî¡°ÖØÊÔ¡±»ò¡°È¡Ïû¡±¡£

£¨7£©askyesnocancel() ¡ª¡ªÏÔÊ¾Ò»¸ö¶Ô»°¿ò£¬Ñ¯ÎÊÈý¸öÑ¡Ïî¡°ÊÇ¡±¡°·ñ¡±»ò¡°È¡Ïû¡±¡£ MessageBoxº¯ÊýµÄÓï·¨£º 

£¨1£©name_of_function ¡ª¡ªÒªÊ¹ÓÃµÄº¯ÊýÃû¡£

£¨2£©Title ¡ª¡ªÏûÏ¢¿òµÄ±êÌâ¡£

£¨3£©Message ¡ª¡ªÒªÔÚ¶Ô»°¿òÖÐÏÔÊ¾µÄÏûÏ¢¡£

£¨4£©Options ¡ª¡ªÅäÖÃÑ¡Ïî¡£Ê¾Àý´úÂëÈçÏÂ£º 





place¼¸ºÎ¹ÜÀíÆ÷ÔÊÐíÒÔ¾ø¶ÔÖµ»òÏà¶ÔÓÚÁíÒ»¸ö´°¿ÚÏÔÊ½ÉèÖÃ´°¿ÚµÄÎ»ÖÃºÍ´óÐ¡¡£¿ÉÒÔÍ¨¹ý place()·½·¨·ÃÎÊÎ»ÖÃ¹ÜÀíÆ÷£¬¸Ã·½·¨ÊÊÓÃÓÚËùÓÐ±ê×¼Ð¡²¿¼þ¡£¶ÔÓÚÆÕÍ¨µÄ´°¿ÚºÍ¶Ô»°¿ò²¼¾Ö£¬Ê¹ÓÃ place()Í¨³£²»ÊÇÒ»¸öºÃÖ÷Òâ£¬ÈÃÊÂÇé°´Ó¦ÓÐµÄ·½Ê½ÔË×ª£¬ÊµÔÚÊÇÌ«ÄÑÁË¡£Îª´Ë£¬ÇëÊ¹ÓÃ pack()»ò grid()¹ÜÀíÆ÷¡£Óï·¨£º 

Ê¾Àý´úÂëÈçÏÂ£º 

µ±Ê¹ÓÃ pack()»ò grid()¹ÜÀíÆ÷Ê±£¬ºÜÈÝÒ×½«Á½¸ö²»Í¬µÄÐ¡²¿¼þ±Ë´Ë·Ö¿ª£¬µ«½«ÆäÖÐÒ»¸ö·Åµ½ÁíÒ»¸öÀïÃæÓÐµãÀ§ÄÑ£¬µ«Õâ¿ÉÒÔÍ¨¹ý place()·½·¨ÇáËÉÊµÏÖ¡£ÔÚ place()·½·¨ÖÐ£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃ In_Ñ¡Ïî½«Ò»¸öÐ¡²¿¼þ·ÅÔÚÁíÒ»¸öÄÚ£¬Ê¾Àý´úÂëÈçÏÂ£º 

grid¼¸ºÎ¹ÜÀíÆ÷½«Ð¡²¿¼þ·ÅÔÚ¶þÎ¬±íÖÐ¡£Ö÷´°¿ÚÐ¡²¿¼þ±»·Ö³ÉÐí¶àÐÐºÍÁÐ£¬½á¹û±íÖÐµÄÃ¿¸ö¡°µ¥Ôª¸ñ¡±¶¼¿ÉÒÔÈÝÄÉÒ»¸ö´°¿ÚÐ¡²¿¼þ¡£ grid¼¸ºÎ¹ÜÀíÆ÷ÊÇ TkinterÖÐ×îÁé»îµÄ¼¸ºÎ¹ÜÀíÆ÷¡£Ê¾Àý´úÂëÈçÏÂ£º 


Ê¹ÓÃ packÃüÁî£¬ÎÒÃÇ¿ÉÒÔÉùÃ÷Ð¡²¿¼þ±Ë´ËÖ®¼äµÄÎ»ÖÃ¡£ packÃüÁî¸ºÔðÏêÏ¸ÐÅÏ¢£¬ÕâÊÇ×îÈÝÒ×ÊµÏÖµÄ²¼¾Ö¹ÜÀíÆ÷¡£¶ÔÓÚ¿ª·¢¼òµ¥»òÐ¡ÐÍµÄ GUIÓ¦ÓÃ³ÌÐò£¬×îºÃÊ¹ÓÃ pack¼¸ºÎ¹ÜÀíÆ÷¡£Ê¾Àý´úÂëÈçÏÂ£º 

¿ÉÒÔÓë pack¼¸ºÎ¹ÜÀíÆ÷Ò»ÆðÊ¹ÓÃµÄÊôÐÔÃèÊöÈçÏÂ¡£
£¨1£©Fill£ºÓÃÓÚÌî³äÕû¸öÇøÓò£¨Ê¹ÓÃ±³¾°É«£©£¬¼´Ë®Æ½£¨ x£©»ò´¹Ö±£¨y£©¡£

£¨2£©Padding£ºÓÃÓÚÎªÔªËØÌá¹©Ïà¶ÔÓÚ xÖá»ò yÖáµÄÌî³ä¡£

£¨3£©Side£ºÓÃÓÚ½«ÔªËØ·ÅÖÃÔÚÌØ¶¨µÄ±ßÉÏ£¬Ëü¿ÉÒÔÊÇÓÒ²à»ò×ó²à¡£°ó¶¨º¯ÊýÓÃÓÚ´¦ÀíÊÂ¼þ¡£ÎÒÃÇ¿ÉÒÔ½« PythonµÄº¯ÊýºÍ·½·¨°ó¶¨µ½ÊÂ¼þ£¬Ò²¿ÉÒÔ½«Õâ


Ð©º¯Êý°ó¶¨µ½ÈÎºÎÌØ¶¨µÄÐ¡²¿¼þ¡£Èç¹ûÒª°ó¶¨Ð¡²¿¼þµÄÊÂ¼þ£¬ÇëÔÚ¸ÃÐ¡²¿¼þÉÏµ÷ÓÃ .bind()·½·¨¡£°ó¶¨Ð¡²¿¼þÊÂ¼þµÄÓï·¨ÈçÏÂ£º 

²ÎÊýÃèÊöÈçÏÂ¡£ 
. event¡ª¡ªÓÉÓÃ»§ÒýÆðµÄ¿ÉÄÜ·´Ó³¸ü¸ÄµÄÊÂ¼þ¡£ 

. event handler ¡ª¡ªÓ¦ÓÃ³ÌÐòÖÐÔÚÊÂ¼þ·¢ÉúÊ±µ÷ÓÃµÄº¯Êý¡£
ÒÔÏÂÊÇÈçºÎ½«ÊÂ¼þ°ó¶¨µ½Ð¡²¿¼þµÄÌØ¶¨ÊµÀýµÄÊ¾Àý¡£ 




7.2.ÍøÂçÅÀ³æÍ¼ÐÎÓÃ»§½çÃæ
´øÓÃ»§½çÃæµÄÍøÂçÅÀ³æ×¥È¡ÊäÈëÍøÖ·µÄÔ´´úÂë£¬²¢ÔÚÐÂ´°¿ÚÖÐÏÔÊ¾³öÀ´¡£´úÂëÈçÏÂ£º 

 ''' Scraping Method Start'''
 # Giving url

 url = url_entry.get()

 # Reading all content
 content = urllib.request.urlopen(url).read()

 # Passing the content to function

 soup = BeautifulSoup(content, features="lxml")
 # Storing html in one variable
 info = soup.prettify()

 '''Scrape Method End'''
 '''Window Settings Start'''
 # Creating New Window
 root = tk.Toplevel()

 # Creating Title
 root.title('Thank You For Using Our Service !!!!')

 # Creating title icon
 root.iconbitmap('img/logo.ico')

 # Locking the window size
 root.resizable(width=False, height=False)
 ''' Window Setting End'''
 # Adding scrollbar to the window
 scrollbar = Scrollbar(root)

 scrollbar.pack(side=RIGHT, fill=Y)
 # Using text widget to show scraped content
 text = Text(root, yscrollcommand=scrollbar.set, wrap = WORD) text.insert(INSERT, info)
 text.pack()
 # Scroll bar settings
 scrollbar.config(command=text.yview)
 except ValueError:
 ms.showerror('Error', 'Enter A Valid URL !!!') 
''' Window Setting Start ''' 


# Creating Widget 
crawler = tk.Tk() 

url_entry = tk.Entry(frame, font=('calibre',10,'normal'), justify = 'center', 


7.3.±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁËÊ¹ÓÃ TkinterÄ£¿éÊµÏÖÍøÂçÅÀ³æÍ¼ÐÎÓÃ»§½çÃæµÄ·½·¨¡£
ÎÒÃÇÆù½ñÎªÖ¹Ëù×öµÄ´ó¶àÊý³ÌÐò¶¼ÊÇ»ùÓÚÎÄ±¾µÄ±à³Ì£¬µ«Ðí¶àÓ¦ÓÃ³ÌÐòÐèÒª GUI£¨Graphical User Interface£¬Í¼ÐÎÓÃ»§½çÃæ£©¡£ 
PythonÌá¹©ÁË±ê×¼¿â Tkinter£¬ÓÃÓÚÎª»ùÓÚ×ÀÃæµÄÓ¦ÓÃ³ÌÐò´´½¨Í¼ÐÎÓÃ»§½çÃæ¡£ TkinterÓÐÒ»¸ö¼òµ¥µÄÓï·¨£¬ÒÔ¼°Èý¸ö¼¸ºÎ¹ÜÀíÆ÷£¬¼´ grid¡¢placeºÍ pack¡£


µÚ 8ÕÂ.°¸Àý·ÖÎö
±¾ÕÂÊ×ÏÈ½éÉÜÓ°ÊÓ²É¼¯Æ÷µÄ°¸Àý£¬Ëæºó½éÉÜ×¥È¡ËÑË÷ÒýÇæ½á¹ûµÄ°µÍøÅÀ³æ¡£ 
8.1.Ó°ÊÓ²É¼¯Æ÷
×¥È¡Ó°ÊÓÍøÕ¾ http://kusonime.com/¡£Ê¹ÓÃ ScrapyÊµÏÖÕâ¸öÅÀ³æ¡£
´´½¨Ò»¸öÃûÎª webcrawlerµÄ ScrapyÏîÄ¿£º 

scrapy startproject webcrawler
´´½¨ kusonimeÅÀ³æ£º 
cd webcrawler 
scrapy genspider kusonime kusonime.com

ÊµÏÖÅÀ³æµÄ kusonime.pyÎÄ¼þÄÚÈÝÈçÏÂ£º 
import scrapy 
class KusonimeSpider(scrapy.Spider):
 name = 'kusonime'

 allowed_domains = ['kusonime.com']
 start_urls = ['http://kusonime.com/']

 def parse(self, response):
 for i in response.css(".episodeye a::attr(href)"):
 yield scrapy.Request(url=i.get(), callback=self.parse_content)
 next_page = response.css("link[rel='next']::attr(href)")
 if next_page: yield scrapy.Request(url=next_page.get())
 def parse_content(self, response):
 item = {
 "title": ( 

 response.css(".clear ~ p strong::text").get() or response.css(".wp-post-image::attr(title)").get()
 ).strip(),
 "url": response.url,
 "genre": response.css("a[rel='tag']::text").extract(),

 "thumbnail": response.css(".wp-post-image::attr(src)").get() }
 for info in response.css(".info p"):
 data = info.css("::text").getall()

 if data[0].strip() == "Genre":
 continue
 if len(data) > 2:
 k, v = data[0], data[-1]
 else:
 k, v = data item[k.strip()] = v.strip(": ") item["sinopsis"] = response.css(".clear ~ p ::text").get().strip()
 downloads = []
 for ddl in response.css(".smokeddl"):
 name = ddl.css(".smokettl::text").get()
 if not name:

 continue
 data = []
 for smokeurl in ddl.css(".smokeurl"):
 data.append({

 "desc": smokeurl.css("strong::text").get(),
 "url": smokeurl.css("a::attr(href)").extract() }) downloads.append({
 "name": name,
 "link": data})
 item["download_data"] = downloads
 yield item
Ê¹ÓÃ SQLAlchemy½«Êý¾Ý´æÈë SQLiteÊý¾Ý¿â£º 
import sqlalchemy as sa import warnings from sqlalchemy import exc as sa_exc from sqlalchemy.orm import sessionmaker from sqlalchemy.orm import registry from collections import defaultdict from urllib.parse import unquote from pathlib import Path import re import attr import sys import copy import logging 
import dif.ib 
import json 
from scrapy.utils.project import get_project_settings 
settings = get_project_settings() 
db_name = settings.get("DATABASE_NAME", "database") 
db_dir = Path(__file__).parent.joinpath("../database") 
db_dir.mkdir(exist_ok=True) 
db_path = db_dir.joinpath(db_name + ".sqlite") 

warnings.simplefilter("ignore", category=sa_exc.SAWarning) 
class database:
    def __init__(self):
 self.engine = sa.create_engine("sqlite:///%s" % db_path)
 self.mapper = registry()
 self.mapper.metadata.bind = self.engine
 Session = sessionmaker(self.engine)
 self.session = Session()

 self.columns = defaultdict(dict)
 self.unique_keys = defaultdict(lambda: None)
 self.table = None

 def create_new_table(self, dbname, columns, metadata):
 wrapper = attr.s(type("wrapper", (), metadata))
 wrapper = type(dbname.title(), (wrapper,), {

            "__table__": sa.Table(
 dbname, self.mapper.metadata, *columns, extend_existing=True)})
 return self.mapper.mapped(wrapper)
 def init_table(self):
 table, inspector = {}, sa.inspect(self.engine) 
 for dbname in inspector.get_table_names():
 columns, metadata = [], {"id": attr.ib(init=False)}
 for column in inspector.get_columns(dbname):
 name = column["name"]
 column_type = column.pop("type")
 column["type_"] = column_type
 sa_col = sa.Column(**column)
 columns.append(sa_col)

 self.columns[dbname][name] = sa_col
 if name != "id" or self.unique_keys[dbname] == "id": metadata[name] = attr.ib(default=column_type.python_type()) table[dbname] = self.create_new_table(dbname, columns, metadata)
 self.table = table
 def get_column_type(self, v): if isinstance(v, bool):
 t = sa.Boolean
 elif isinstance(v, int) or (isinstance(v, str) and v.isdigit()):
 t = sa.Integer
 elif isinstance(v, (str, dict, list)):
 t = sa.String
 else:
 raise ValueError(f"unknown value type {v!r}")
 return t

 def safe_name(self, name): return re.sub(r"\s+", "_", name.strip()).lower().strip()
 def create_table_from_data(self, dbname, data_dict): columns, metadata = [ sa.Column("id", sa.Integer(), primary_key=True)], {
 "id": attr.ib(init=False)}
 for k, v in data_dict.items():
 name = self.safe_name(k)
 v_type = self.get_column_type(v)

 if name != "id" or self.unique_keys[dbname] == "id": metadata[name] = attr.ib(default=v_type().python_type())
 if name != "id":
 columns.append(sa.Column(name, v_type))
 # extend data
 for k, v in self.columns[dbname].items(): 
 if k not in metadata:
 columns.append(v)

 metadata[k] = attr.ib(default=v.type.python_type())
 # update self.columns
 for col in columns:

 self.columns[dbname][self.safe_name(col.name)] = col
 self.table[dbname] = self.create_new_table(dbname, columns, metadata)
 def add_column(self, table_name, column):
 column_name = column.compile(dialect=self.engine.dialect)
 column_type = column.type.compile(self.engine.dialect)

 self.engine.execute('ALTER TABLE %s ADD COLUMN %s %s' %
 (table_name, column_name, column_type))

 logging.info(f"add new column: '{column_name}' type {column_type!r}")
 def update_database(self): self.mapper.metadata.create_all(self.engine)
 def exists(self, name, filters: dict):
 name = self.safe_name(name)
 if not self.table.get(name):
 return False

 table = self.table[name]
        filters = [table.__table__.columns.get(
 key) == value for key, value in filters.items()]
 return self.session.query(table).filter(*filters).count() != 0

 def commit(self): self.session.commit()
 def rollback(self): self.session.rollback()
 def add(self, dbname, data_dict):
 dbname = self.safe_name(dbname)
 if not self.table.get(dbname):
 logging.info(f"create a new table: {dbname!r}")

 self.create_table_from_data(dbname, data_dict)
 self.update_database()
 table = self.table[dbname] 

 unique_key = getattr(spider, "unique_key", "title") output_keys = getattr(spider, "outputs", [unique_key]) out = ", ".join(f"{item.get(key)!r}" for key in output_keys)
 if not self.db:
 logging.info(f"{out} crawled")
 return item

 if not self.names.get(spider.name):
 self.names[spider.name] = self.parse_dbname(spider) name = self.names[spider.name]
 self.db.unique_keys[name] = unique_key
 if self.db.table is None:
 self.db.init_table()

 if self.db.exists(name, {unique_key: item[unique_key]}):
 logging.error(f"{out}: already exists!")
 else:
 try:
 if item.get('url'):

 item["url"] = unquote(item["url"]) self.db.add(name, item)
 self.db.commit()
 logging.info(f"{out}: added to database")

 except Exception as e:
 self.db.rollback()
 logging.error(

 f"{out}: failed added to database\n{e}") return item 
8.2.°µÍøÅÀ³æ
ÔÚ´óº£ÖÐ£¬ºÜ¶àÓãÉî²ØÔÚË®ÏÂ¡£ÓÐµÄÒ³Ãæ¾ÍÏñÊÇÉî²»¿É²âµÄ´óº££¬ºÜ¶àÓÐÓÃµÄÐÅÏ¢Òþ²ØÔÚÍøÒ³ÖÐ¡£
°µÍøµÄ±íÏÖÐÎÊ½Ò»°ãÊÇ£ºÇ°Ì¨ÊÇÒ»¸ö±íµ¥À´»ñÈ¡£¬Ìá½»ºó·µ»ØÒ»¸öÁÐ±íÐÎÊ½µÄËÑË÷½á¹ûÒ³£¬ËüÃÇÊÇÓÉ°µÍøºóÌ¨Êý¾Ý¿â¶¯Ì¬²úÉúµÄ¡£ËÑË÷ÒýÇæ±¾ÉíÒ²¿ÉÒÔ¿´×÷Ò»¸ö°µÍø¡£ËÑË÷½á¹ûÒ³°üº¬ÁËÖ¸ÏòÏêÏ¸ÄÚÈÝÒ³µÄÁ´½Ó¡£ËÑË÷ÒýÇæÖÐµÄÄÚÈÝÓÐÍÚ¾ò¼ÛÖµ¡£ 
search_engines(https://github.com/tasos-py/Search-Engines-Scraper)ÊÇÒ»¸ö Python ¿â£¬ÓÃÓÚ²éÑ¯ Google¡¢Bing¡¢Yahoo ºÍÆäËûËÑË÷ÒýÇæ²¢´Ó¶à¸öËÑË÷ÒýÇæµÄ½á¹ûÒ³ÃæÖÐÊÕ¼¯½á¹û¡£
ÎªÁËÒ×ÓÚÎª search_enginesÌí¼ÓÐÂµÄËÑË÷ÒýÇæ£¬¿ÉÒÔÍ¨¹ýÔÚ search_engines/engines/ÖÐ´´½¨Ò»¸öÐÂÀàÀ´Ìí¼ÓÐÂÒýÇæ£¬²¢½«ÆäÌí¼Óµ½ search_engines/engines/__init__.pyÖÐµÄ search_engines_dict×ÖµäÖÐ¡£ÐÂÀàÓ¦¸ÃÎª SearchEngineÀàµÄ×ÓÀà£¬²¢¸²¸ÇÒÔÏÂ·½·¨£º _selectors¡¢_.rst_page¡¢_next_page¡£
ÎªÁË°²×°Õâ¸ö¿â£¬ÐèÒªÔËÐÐÉèÖÃÎÄ¼þ£º 

ÓÃ·¨ÈçÏÂ£º 

8.3¡¡±¾ÕÂÐ¡½á
±¾ÕÂ½éÉÜÁËÓ°ÊÓ²É¼¯Æ÷ºÍ°µÍøÅÀ³æµÄ°¸Àý¡£