µÚ3ÕÂ¾ö²ßÊ÷



±¾ÕÂÑ§Ï°Ä¿±ê
¤r Àí½â¾ö²ßÊ÷µÄ¹¹½¨£» 
¤r ÕÆÎÕ¾ö²ßÊ÷µÄÊµÏÖ·½·¨£» 
¤r ÕÆÎÕÊ÷ÐÎÍ¼µÄ»æÖÆ·½·¨£» 
¤r ÁË½â¾ö²ßÊ÷µÄ¼ôÖ¦¼¼Êõ¡£

µÚ3ÕÂ¾ö²ßÊ÷
¾ö²ßÊ÷Ëã·¨ÊÇÒ»ÖÖ·Ç²ÎÊýµÄ¼à¶½Ñ§Ï°·½·¨£¬³£±»ÓÃÓÚ´ÓÒ»×éÎÞÐò¡¢ÎÞ¹æÔòµÄÑù±¾Êý¾ÝÖÐÍÆÀí³ö¾ö²ßÊ÷±íÊ¾ÐÎÊ½µÄ·ÖÀà¹æÔò£¬ÀýÈçÊý¾ÝÍÚ¾òÈÎÎñ¡£¹ËÃûË¼Òå£¬¾ö²ßÊ÷ÒÔÊ÷ÐÎÊý¾Ý½á¹¹À´½øÐÐ·ÖÀà»òÔ¤²â¾ö²ß£¬ÔÚ·ÖÀàÓ¦ÓÃÖÐ£¬¾ö²ßÊ÷ÖÐµÄÃ¿¸ö½áµã¹¹³ÉÀà±êÇ©£¬Ò¶×Ó½áµãÊÇ×îÖÕµÄ·ÖÀà±êºÅ£» Ê÷ÖÐµÄ·ÖÖ§ÓÉ¾ö²ß¹æÔò×é³É¡£¾ö²ßÊ÷ÊÇ×î³£¼ûµÄÒ»ÖÖ»úÆ÷Ñ§Ï°Ëã·¨£¬ËüÒ×ÓÚÊµÏÖ£¬¿É½âÊÍÐÔÇ¿£¬·ûºÏÈËÀàµÄÖ±¹ÛË¼Î¬¡£±¾ÕÂ½«¶Ô¾ö²ßÊ÷µÄ¹¹½¨ÒÔ¼°ÊµÏÖ·½·¨½øÐÐ½²½â¡£
3.1¾ö²ßÊ÷ÓëÐÅÏ¢ìØ
3.1.1¾ö²ßÊ÷¼ò½é

¾ö²ßÊ÷Í¨³£ÓÃÒ»¿Ãµ¹ÖÃµÄÊ÷½á¹¹À´±íÊ¾Êý¾Ý¼äµÄÂß¼­¹ØÏµ£¬»ùÓÚÊý¾ÝµÄÌØÕ÷½øÐÐÅÐ¶Ï£¬½ø¶øµÃµ½·ÖÀà»ò»Ø¹é½á¹û¡£Ê÷½á¹¹ÖÐÍ¨³£°üº¬ÈýÖÖ½áµã£¬·Ö±ðÎª¸ù½áµã¡¢×Ó½áµãºÍÒ¶×Ó½áµã¡£¸ù½áµãÊÇÊ÷µÄ×î


Í¼3.1ÅÐ¶ÏÓÃ»§ÊÇ·ñÄÜ´û¿î


¶¥¶ËµÄ½áµã£¬Ã¿¿Ã¾ö²ßÊ÷Ö»»áÓÐÒ»¸ö¸ù½áµã£» ×Ó½áµã¶ÔÓ¦ÓÚÃ¿Ò»¸ö·ÖÁÑÎÊÌâ£¬¸Ã½áµãµÄÃ¿Ò»¸öºó¼Ì·ÖÖ§¶ÔÓ¦ÓÚ¸ÃÌØÕ÷µÄÒ»¸ö¿ÉÄÜÖµ£» Ò¶×Ó½áµãÊÇ´øÓÐ·ÖÀà±êÇ©µÄÊý¾Ý¼¯ºÏ£¬¼´Ñù±¾ËùÊôµÄ·ÖÀà¡£µ±¾ö²ßÊ÷²»¶Ï·ÖÁÑÖ±µ½ÎÞ·¨ÔÙ·Ö³ö×Ó½áµãÊ±³Æ¸Ã½áµãÎªÒ¶×Ó½áµã¡£½ÓÏÂÀ´£¬Í¨¹ýÒ»¸ö¼òµ¥Ê¾ÀýÕ¹Ê¾¾ö²ßÊ÷Ä£ÐÍ¡£

¼ÙÉèÒøÐÐÒªÊ¹ÓÃ»úÆ÷Ñ§Ï°Ëã·¨À´È·¶¨ÊÇ·ñ¸ø¿Í»§·¢·Å´û¿î£¬Îª´ËÐèÒª¿¼²ì¿Í»§µÄÄêÊÕÈëÒÔ¼°ÊÇ·ñÓÐ·¿²úÕâÁ½¸öÖ¸±ê¡£ÅÐ¶ÏÊÇ·ñ¸øÓÃ»§´û¿îµÄ¹ý³ÌºÜ¼òµ¥£¬ÈçÍ¼3.1ËùÊ¾¡£

Í¼3.1ÊÇÒ»¸öµäÐÍµÄ¾ö²ßÊ÷£¬Í¼ÖÐµÄ¾ØÐÎ±íÊ¾×Ó½áµã£¬¼´ÅÐ¶ÏÄ£¿é(decision block)£» ÍÖÔ²±íÊ¾Ò¶×Ó½áµã£¬¼´ÖÕÖ¹Ä£¿é(terminating block)£¬¶ÔÓ¦ÓÚÍ¨¹ý¾ö²ßÊ÷Ëã·¨·ÖÎö³öµÄ¸÷ÖÖ½áÂÛ£» ¼ýÍ·±íÊ¾·ÖÖ§(branch)£¬¼´¾ö²ß¹æÔò¡£¾ö²ß¹ý³Ì´ÓÊ÷µÄ¸ù½áµã¿ªÊ¼£¬ÔÚ×Ó½áµã´¦½øÐÐÅÐ¶Ï£¬Ö±µ½µ½´ïÒ»¸öÒ¶×Ó½áµã´¦£¬µÃµ½¾ö²ß½á¹û¡£¾ö²ßÊ÷ÓÉÒ»ÏµÁÐ·Ö²ãÇ¶Ì×µÄÅÐ¶¨¹æÔò×é³É£¬ÊÇÒ»¸öµÝ¹éµÄ½á¹¹¡£
µÚ2ÕÂ½éÉÜÁËK½üÁÚËã·¨£¬Æä×î´óµÄÈ±µãÊÇÎÞ·¨¸ø³öÊý¾ÝµÄÄÚÔÚº¬Òå¡£¶øÔÚ¾ö²ßÊ÷ÖÐ£¬Ê÷ÐÎ½á¹¹Ê¹µÃÊý¾ÝÐÎÊ½·Ç³£ÈÝÒ×Àí½â£¬ÕâÊÇ¾ö²ßÊ÷µÄ×î´óÓÅÊÆ¡£ÔÚ´Ë×Ü½á³ö¾ö²ßÊ÷Ëã·¨µÄÈý¸öÖ÷ÒªÌØµã£¬¾ßÌåÈçÏÂËùÊ¾¡£
¤r ¾ö²ßÊ÷Ëã·¨ÊÊÓÃÓÚÊýÖµÐÍºÍ±ê³ÆÐÍÊý¾Ý£¬Í¨¹ý¾ö²ßÊ÷¿ÉÒÔ¶ÁÈ¡Êý¾Ý¼¯ºÏ£¬ÌáÈ¡Êý¾ÝÖÐÔÌº¬µÄ¹æÔò¡£
¤r ¾ö²ßÊ÷Ëã·¨ÔÚ½â¾ö·ÖÀàÎÊÌâÊ±£¬¾ßÓÐ½ÏµÍµÄ¸´ÔÓ¶È¡¢±ãÓÃÐÔºÍ¸ßÐ§ÐÔ¡£
¤r ¾ö²ßÊ÷Ëã·¨¿ÉÒÔÓÃÓÚ´¦Àí¾ßÓÐ²»Ïà¹ØÌØÕ÷µÄÊý¾Ý£¬ËüµÄÊ÷½á¹¹¿ÉÒÔºÜÈÝÒ×µØ¹¹½¨Ò×ÓÚÀí½âµÄ¹æÔò¡£
¾ö²ßÊ÷Ëã·¨µÄÈ±µãÔÚÓÚÄÑÒÔ´¦ÀíÊý¾ÝÈ±Ê§µÄÇé¿ö£¬ÈÝÒ×³öÏÖ¹ýÄâºÏ£¬²¢ÇÒÊ÷½á¹¹±¾ÉíÄÑÒÔÍ»³öÊý¾Ý¼¯ÖÐÌØÕ÷Ö®¼äµÄÏà¹ØÐÔ¡£

¾ö²ßÊ÷Ä£ÐÍµÄÑ§Ï°¹ý³ÌÖ÷ÒªÓÐÒÔÏÂÈý¸ö²½Öè¡£
(1) ÌØÕ÷Ñ¡È¡¡£ÌØÕ÷Ñ¡È¡ÊÇÖ¸´Ó´óÁ¿ÑµÁ·Êý¾ÝÌØÕ÷ÖÐÌáÈ¡Ò»¸öÌØÕ÷Öµ×÷Îªµ±Ç°½áµãµÄ·ÖÁÑ±ê×¼¡£ÌØÕ÷ÖµµÄÑ¡Ôñ±ê×¼ÓÐ×ÅÐí¶à²»Í¬Á¿»¯ÆÀ¹À±ê×¼£¬Ò²Òò´ËÑÜÉú³ö²»Í¬µÄ¾ö²ßÊ÷Ëã·¨¡£
(2) ¾ö²ßÊ÷Éú³É¡£¸ù¾ÝÉÏÒ»²½ËùÑ¡ÔñµÄÌØÕ÷ÆÀ¹À±ê×¼£¬´ÓÉÏÖÁÏÂµÝ¹éµØÉú³É×Ó½áµã£¬Ö±µ½Êý¾Ý¼¯²»ÔÙ¿É·ÖÁÑ£¬´ËÊ±Í£Ö¹¾ö²ßÊ÷µÄÉú³¤¡£
(3) ¼ôÖ¦¡£¾ö²ßÊ÷ÈÝÒ×³öÏÖ¹ýÄâºÏÎÊÌâ£¬ÐèÒªÍ¨¹ý¼ôÖ¦À´ËõÐ¡Ê÷µÄ½á¹¹¹æÄ££¬´Ó¶ø»º½â¹ýÄâºÏÎÊÌâ¡£³£¼ûµÄ¼ôÖ¦¼¼ÊõÓÐÔ¤¼ôÖ¦¼¼ÊõºÍºó¼ôÖ¦¼¼Êõ¡£
ÔÚ¹¹½¨¾ö²ßÊ÷Ê±£¬Ê×ÏÈÒª½â¾öµÄÎÊÌâÊÇÅÐ¶Ï³öµ±Ç°Êý¾Ý¼¯ÖÐÄÄ¸öÌØÕ÷ÔÚ»®·ÖÊý¾Ý·ÖÀàÊ±Æð¾ö¶¨ÐÔ×÷ÓÃ¡£Í¨¹ý¶ÔÃ¿¸öÌØÕ÷½øÐÐÆÀ¹ÀÀ´ÕÒµ½¾ö¶¨ÐÔµÄÌØÕ÷¡£ÔÚÑ¡È¡ºÃ´ý»®·ÖµÄÌØÕ÷ºó£¬Ô­Ê¼Êý¾Ý¼¯½«¸ù¾ÝÕâ¸öÌØÕ÷±»»®·ÖÎªÈô¸É¸öÊý¾Ý×Ó¼¯¡£¸ÃÊý¾Ý×Ó¼¯»á·Ö²¼ÔÚµÚÒ»¸ö¾ö²ßµãµÄËùÓÐ·ÖÖ§ÉÏ¡£Èç¹ûÄ³¸ö·ÖÖ§ÏÂµÄÊý¾ÝÊôÓÚÍ¬Ò»ÀàÐÍ£¬ÔòÎÞÐë½øÒ»²½¶ÔÊý¾Ý¼¯½øÐÐ·Ö¸î¡£Èç¹ûÊý¾Ý×Ó¼¯ÄÚµÄÊý¾Ý²»ÊôÓÚÍ¬Ò»ÀàÐÍ£¬ÔòÐèÒªµÝ¹éµØÖØ¸´»®·ÖÊý¾Ý×Ó¼¯µÄ¹ý³Ì£¬Ö±µ½Ã¿¸öÊý¾Ý×Ó¼¯ÄÚµÄÊý¾ÝÀàÐÍÏàÍ¬¡£
¾ö²ßÊ÷µÄÑµÁ·Á÷³Ì×ñÑ­¼òµ¥ÇÒÖ±¹ÛµÄ¡°·Ö¶øÖÎÖ®¡±²ßÂÔ£¬½ÓÏÂÀ´Í¨¹ýÒ»¶ÎÎ±´úÂëÀ´ÑÝÊ¾´´½¨·ÖÖ§µÄ¹ý³Ì£º 


¼ì²âÊý¾Ý¼¯ÖÐµÄÃ¿¸ö×ÓÏîÊÇ·ñÊôÓÚÍ¬Ò»ÀàÐÍ£º

If Yes return Àà±êÇ©

Else

ÕÒ³öÓÃÓÚ»®·ÖÊý¾Ý¼¯µÄ×îÓÅÌØÕ÷

½øÐÐÊý¾Ý¼¯µÄ»®·Ö

¹¹½¨ÐÂµÄ·ÖÖ§½áµã

for Ã¿¸ö±»»®·ÖµÄ×Ó¼¯£º

µÝ¹éµ÷ÓÃ±¾Ëã·¨²¢Ìí¼Ó·µ»Ø½á¹ûµ½·ÖÖ§½áµãÖÐ

return ·ÖÖ§½áµã

ÉÏÊöÎ±´úÂëÍ¨¹ýµÝ¹éµÄ·½Ê½ÊµÏÖÁË·ÖÖ§µÄ¹¹½¨¡£±¾ÕÂºóÐøÄÚÈÝ»áÑÝÊ¾Í¨¹ýPythonÊµÏÖ¸Ã¹ý³ÌµÄ·½·¨¡£
³£ÓÃµÄ5ÖÖ¾ö²ßÊ÷Ëã·¨ÈçÏÂËùÊ¾¡£
¤r D3Ëã·¨£¬ÆäºËÐÄÊÇÔÚ¾ö²ßÊ÷µÄ¸÷¼¶½áµãÉÏ£¬Ê¹ÓÃÐÅÏ¢ÔöÒæ·½·¨×÷ÎªÌØÕ÷µÄÑ¡Ôñ±ê×¼À´È·¶¨Éú³ÉÃ¿¸ö½áµãÊ±ËùÑ¡È¡µÄ×îÓÅÌØÕ÷¡£¸ÃËã·¨µÄÈ±µãÊÇÖ»ÊÊÓÃÓÚÀëÉ¢ÐÍÌØÕ÷ÃèÊö¡£
¤r C4.5Ëã·¨£¬¶ÔID3Ëã·¨½øÐÐÁË¸Ä½ø£¬Ê¹ÓÃÐÅÏ¢ÔöÒæÂÊÀ´Ñ¡Ôñ½áµãÌØÕ÷¡£C4.5Ëã·¨¿Ë·þÁËID3Ëã·¨µÄ²»×ã£¬¼È¿ÉÒÔ´¦ÀíÀëÉ¢ÐÍÌØÕ÷ÃèÊöÈÎÎñ£¬Ò²¿ÉÒÔ´¦ÀíÁ¬ÐøÐÍÌØÕ÷ÃèÊöÈÎÎñ¡£
¤r CARTËã·¨£¬Ò»ÖÖÊ®·ÖÓÐÐ§µÄ·Ç²ÎÊý·ÖÀàºÍ»Ø¹é·½·¨£¬Í¨¹ý¹¹½¨Ê÷¡¢¼ôÖ¦ºÍÆÀ¹ÀÀ´¹¹½¨¶þ²æÊ÷½á¹¹¡£µ±Ò¶×Ó½áµãÊÇÁ¬Ðø±äÁ¿Ê±£¬¸ÃÊ÷Îª»Ø¹éÊ÷£» µ±Ò¶×Ó½áµãÊÇ·ÖÀà±äÁ¿Ê±£¬¸ÃÊ÷Îª·ÖÀàÊ÷¡£
¤r SLIQËã·¨£¬¶ÔC4.5Ëã·¨½øÐÐÁË¸Ä½ø£¬ÔÚ¾ö²ßÊ÷µÄ¹¹½¨¹ý³ÌÖÐ²ÉÓÃÁË¡°Ô¤ÅÅÐò¡±ºÍ¡°¹ã¶ÈÓÅÏÈ²ßÂÔ¡±Á½ÖÖ¼¼Êõ¡£ÔÚ½¨Ê÷½×¶Î£¬SLIQËã·¨»áÕë¶ÔÁ¬ÐøÊôÐÔ²ÉÈ¡Ô¤ÏÈÅÅÐò¼¼ÊõÓë¹ã¶ÈÓÅÏÈÏà½áºÏµÄ²ßÂÔÉú³ÉÊ÷£¬¶ÔÀëÉ¢ÊôÐÔ²ÉÈ¡¿ìËÙÇó×Ó¼¯Ëã·¨È·¶¨»®·ÖÌõ¼þ¡£SLIQËã·¨¾ßÓÐ¿ÉÉìËõÐÔÁ¼ºÃ¡¢Ñ§Ï°Ê±¼ä¶Ì¡¢ÄÜ´¦Àí³£×¤´ÅÅÌµÄÊý¾Ý¼¯ÒÔ¼°´¦Àí½á¹û×¼È·µÄÓÅµã¡£
¤r SPRINTËã·¨£¬Ò»ÖÖ¿ÉÀ©Õ¹µÄ¡¢¿É²¢ÐÐµÄ¹éÄÉ¾ö²ßÊ÷£¬ËüÍêÈ«²»ÊÜÄÚ´æÏÞÖÆ£¬ÔËÐÐËÙ¶È¿ì£¬ÇÒÔÊÐí¶à¸ö´¦ÀíÆ÷Ð­Í¬´´½¨Ò»¸ö¾ö²ßÊ÷Ä£ÐÍ¡£SPRINTËã·¨¶ÔSLIQËã·¨½øÐÐÁË½øÒ»²½µÄ¸Ä½ø£¬È¥µôÁËSLIQÖÐÐèÒª×¤ÁôÓÚÄÚ´æµÄÀà±ðÁÐ±í£¬½«Àà±ðÁÐºÏ²¢µ½ÁËÃ¿¸öÌØÕ÷ÁÐ±íÖÐ¡£SPRINTËã·¨µÄÓÅµãÊÇÔÚÑ°ÕÒÃ¿¸ö½áµãµÄ×îÓÅ»®·ÖÌØÕ÷Ê±±äµÃ¸ü¼òµ¥¡£ÆäÈ±µãÊÇ¶Ô·Ç·ÖÁÑÊôÐÔµÄÊôÐÔÁÐ±í½øÐÐ»®·Ö·Ç³£À§ÄÑ¡£

3.1.2ÐÅÏ¢Óë×ÔÐÅÏ¢
ÔÚ½øÒ»²½Ñ§Ï°¾ö²ßÊ÷Ëã·¨Ö®Ç°£¬ÓÐ±ØÒªÕÆÎÕÒ»Ð©±ØÒªµÄ»ù´¡¸ÅÄî£¬ÈçÐÅÏ¢Óë×ÔÐÅÏ¢µÄ¸ÅÄî¡£
¹ãÒåÉÏµÄÐÅÏ¢ÊÇÖ¸ÊÂÎïÔË¶¯Ê±·¢³öµÄÐÅºÅËù´øÀ´µÄÏûÏ¢£¬ÊÇÊÂÎï´æÔÚ·½Ê½ºÍÔË¶¯¹æÂÉµÄÒ»ÖÖ±íÏÖÐÎÊ½¡£²»Í¬µÄÊÂÎï¾ßÓÐ²»Í¬µÄ´æÔÚ·½Ê½ºÍÔË¶¯¹æÂÉ£¬´Ó¶ø¹¹³ÉÁË¸÷ÖÖÊÂÎïµÄ²»Í¬ÌØÕ÷¡£ÐÅÏ¢ÆÕ±é´æÔÚÓÚ×ÔÈ»½ç¡¢Éç»á½çÒÔ¼°ÈËµÄË¼Î¬Ö®ÖÐ£¬ÊÇ¿Í¹ÛÊÂÎïÇ§²îÍò±ðµÄ±¾ÖÊÌØÕ÷µÄ·´Ó³¡£ÐÅÏ¢·ÖÎªÁ½´óÀà£º ×ÔÈ»ÐÅÏ¢ÓëÉç»áÐÅÏ¢¡£
ÏûÏ¢ÊÇÖ¸ÐÅÏ¢µÄ¾ßÌå·´Ó³ÐÎÊ½£¬ÊÇÐÅÏ¢µÄÊµÖÊÄÚÈÝ¡£²»Í¬µÄÏûÏ¢ÖÐËù°üº¬µÄÐÅÏ¢Á¿ÊÇ²»Í¬µÄ¡£Ö»ÓÐ±»ÏûÏ¢µÄ½ÓÊÕÕßÁË½â²¢ÈÏÊ¶µÄÄÚÈÝ(Õâ²¿·ÖÄÚÈÝ½ÓÊÕÕßÊÂÏÈ²»ÖªµÀ)²ÅÔÌº¬×ÅÐÅÏ¢¡£
×ÔÐÅÏ¢(selfª²information)ÊÇÐÅÏ¢µÄ¶ÈÁ¿µ¥Î»£¬ÓÉ¿ËÀÍµÂ¡¤ÏãÅ©Ìá³ö£¬ÓÃÀ´ºâÁ¿µ¥Ò»ÊÂ¼þ·¢ÉúÊ±Ëù°üº¬µÄÐÅÏ¢Á¿¶à¹Ñ£¬ËüµÄµ¥Î»ÊÇb(»òÕßnats)¡£Ëù½ÓÊÕµ½µÄ×ÔÐÅÏ¢µÄÁ¿Óë¾ßÌå·¢ÉúµÄÊÂ¼þÓÐ¹Ø£¬×ÔÐÅÏ¢µÄ´óÐ¡ÓëËæ»úÊÂ¼þµÄ¸ÅÂÊÓÐ¹Ø¡£¸ÅÂÊÔ½Ð¡µÄÊÂ¼þ·¢ÉúºóËù°üº¬µÄ×ÔÐÅÏ¢Ô½¶à£¬¸ÅÂÊÔ½´óµÄÊÂ¼þ·¢ÉúºóËù°üº¬µÄ×ÔÐÅÏ¢Ô½ÉÙ¡£
ÐÅÏ¢ÂÛµÄ»ù±¾¹ÛµãÊÇ£º ¡°Ò»¸ö¼«Ð¡¸ÅÂÊÊÂ¼þµÄ·¢Éú£¬±ÈÒ»¸ö´ó¸ÅÂÊÊÂ¼þµÄ·¢ÉúËùÌá¹©ÐÅÏ¢¸ü¶à¡£¡±ÀýÈç£¬Ñ§Ð£¸øÑ§Éú·¢·ÅÁËÒ»ÔòÍ¨Öª£º ¡°ÖÜÒ»ÔçÉÏÕÕ³£ÉÏ¿Î¡£¡±ºÜÏÔÈ»£¬Ñ§Ð£ÖÜÒ»ÉÏ¿ÎÊôÓÚÊ®·ÖÕý³£µÄÊÂ¼þ£¬ÔÚÃ»ÓÐÆäËûÍâÔÚ»·¾³¸ÉÉæµÄÇé¿öÏÂ£¬ÕâÌõÍ¨Öªº¬ÓÐµÄ×ÔÐÅÏ¢ÊÇ¼«ÉÙµÄ¡£Èç¹ûÑ§Ð£½«Í¨Öª¸Ä³É¡°ÖÜÒ»ÔçÉÏ·Å¼Ù¡±£¬ÄÇÃ´ÕâÌõÍ¨ÖªµÄ×ÔÐÅÏ¢±ã¶àÓÚÉÏÒ»ÌõÍ¨Öª¡£ÕâÊÇÒòÎªÏà½ÏÓÚ¡°ÖÜÒ»ÉÏ¿Î¡±£¬¡°ÖÜÒ»·Å¼Ù¡±ÊôÓÚÐ¡¸ÅÂÊÊÂ¼þ¡£
Í¨¹ýÐÅÏ¢ÂÛµÄË¼ÏëÀ´Á¿»¯ÐÅÏ¢£¬ÐèÒª×¢ÒâÒÔÏÂ¼¸µã£º 
¤r ¸ÅÂÊÔ½´óµÄÊÂ¼þ·¢ÉúºóËù²úÉúµÄ×ÔÐÅÏ¢Ô½ÉÙ¡£ÔÚ¼«¶ËÇé¿öÏÂ£¬±Ø¶¨·¢ÉúÊÂ¼þµÄ×ÔÐÅÏ¢º¬Á¿Îª0¡£
¤r ¸ÅÂÊÔ½Ð¡µÄÊÂ¼þ·¢ÉúºóËù°üº¬µÄ×ÔÐÅÏ¢Ô½¶à¡£
¤r ¶ÀÁ¢ÊÂ¼þÓ¦¾ßÓÐÔöÁ¿µÄÐÅÏ¢¡£ÀýÈç£¬Í¶ÖÀÓ²±Ò2´Î£¬½á¹û¶¼ÊÇÕýÃæ³¯ÉÏËù´«µÝµÄ×ÔÐÅÏ¢ÊÇÖ»³öÏÖ1´ÎÕýÃæ³¯ÉÏµÄ×ÔÐÅÏ¢º¬Á¿µÄ2±¶¡£
3.1.3ÐÅÏ¢ìØ
Ò»°ãÇé¿öÏÂ£¬Êý¾Ý¼¯»®·ÖµÄ´óÔ­ÔòÊÇ½«Ô­±¾ÎÞÐòµÄÊý¾ÝÕûÀí³É¸ü¼ÓÓÐÐòµÄ·Ö×é¡£ÆäÖÐÒ»ÖÖ¶ÔÔÓÂÒÎÞÕÂµÄÊý¾Ý½øÐÐÕûÀíµÄ·½·¨±ãÊÇÍ¨¹ýÐÅÏ¢ÂÛ¶ÈÁ¿ÐÅÏ¢¡£ÐÅÏ¢ÂÛÊôÓÚÁ¿»¯´¦ÀíÐÅÏ¢µÄ·ÖÖ§¿ÆÑ§¡£
Èç¹û´ý·ÖÀàµÄÊý¾Ý¼¯DÖÐµÚiÀàÑù±¾ËùÕ¼µÄ±ÈÀýÎªp(xi)£¬(i=1,2,¡­,n)£¬n±íÊ¾·ÖÀàÊýÁ¿£¬ÔòÀà±ðxiµÄ×ÔÐÅÏ¢±í´ïÊ½ÈçÏÂËùÊ¾¡£

I(xi)=-lbp(xi)

ÎªÁË¼ÆËãìØ£¬ÐèÒªÊ×ÏÈÍ¨¹ýÏÂÁÐ¹«Ê½À´¼ÆËãËùÓÐÀà±ðµÄ¿ÉÄÜÖµËù°üº¬µÄÐÅÏ¢ÆÚÍûÖµ±í´ïÊ½¡£

Ent(D)=-¡Æni=1p(xi)lbp(xi)

±¾ÕÂºóÐøÐ¡½Ú½«Í¨¹ýÊµÀýÀ´ÑÝÊ¾¾ö²ßÊ÷½øÐÐ·ÖÀàµÄÔ­ÀíºÍ´úÂëÊµÏÖ·½·¨¡£
¼ÙÉèÓÐÈç±í3.1ËùÊ¾µÄ5ÖÖº£ÑóÉúÎï£¬ÆäÖÐ°üº¬ÁËËüÃÇµÄÁ½ÖÖÌØÕ÷£º ¢ÙÊÇ·ñ¿ÉÒÔÊ¼ÖÕ±£³ÖÔÚË®ÏÂÉú´æ£» ¢ÚÊÇ·ñ¾ßÓÐ½Åõë¡£±í3.1»¹¶ÔÕâ5ÖÖº£ÑóÉúÎï½øÐÐÁË»®·Ö£¬±íÃ÷ËüÃÇÊÇ·ñÊôÓÚÓãÀà¡£ÏÖÔÚÐèÒªÈ·¶¨ÒÀ¾ÝÁ½ÖÖÌØÕ÷ÖÐµÄÄÄÒ»ÖÖ½øÐÐ»®·Ö£¬²Å¿ÉÒÔ¸üºÃµØ¶ÔÕâ5ÖÖº£ÑóÉúÎïÊÇ·ñÊôÓÚÓãÀà½øÐÐ×¼È·µÄÅÐ¶Ï¡£


±í3.15ÖÖº£ÑóÉúÎïµÄÊý¾Ý



ÐòºÅÊÇ·ñ¿ÉÒÔÊ¼ÖÕ±£³ÖÔÚË®ÏÂÉú´æÊÇ·ñ¾ßÓÐ½ÅõëÊÇ·ñÊôÓÚÓãÀà
1ÊÇ
ÊÇ
ÊÇ
2
ÊÇ
ÊÇ
ÊÇ
3
ÊÇ
·ñ
·ñ
4
·ñ
ÊÇ
·ñ
5
·ñ
ÊÇ
·ñ

Ê×ÏÈ£¬ÐèÒª¼ÆËãÊý¾Ý¼¯µÄÐÅÏ¢ìØ£¬¾ßÌå·½·¨ÈçÀý3.1ËùÊ¾¡£
¡¾Àý3.1¡¿¼ÆËãÊý¾Ý¼¯µÄÐÅÏ¢ìØ¡£


1from math import log

2import operator

3def calcShannonEnt(dataSet):

4numEntries = len(dataSet)#ÉùÃ÷Êý¾Ý¼¯ÖÐÑù±¾×ÜÊý

5labelCounts = {}#´´½¨×Öµä



6for featVec in dataSet:#ËùÓÐ¿ÉÄÜ·ÖÀàµÄÊýÁ¿ºÍ·¢ÉúÆµÂÊ

7currentLabel = featVec£Û-1£Ý

8if currentLabel not in labelCounts.keys(): labelCounts£ÛcurrentLabel£Ý = 0

9labelCounts£ÛcurrentLabel£Ý += 1

10shannonEnt = 0.0

11for key in labelCounts:

12prob = float(labelCounts£Ûkey£Ý)/numEntries

13shannonEnt -= prob * log(prob,2) #log base 2

14return shannonEnt

ÉÏÊö´úÂëÖÐËù´´½¨µÄ×ÖµäµÄ¼üÖµÎª×îºóÒ»ÁÐµÄÊýÖµ¡£µ±Ç°¼üÖµ²»´æÔÚÊ±£¬ÔòÀ©Õ¹×Öµä²¢½«µ±Ç°¼üÖµ¼ÓÈë×Öµä¡£Ã¿¸ö¼üÖµ¶¼¼ÇÂ¼ÁËµ±Ç°Àà±ð³öÏÖµÄ´ÎÊý¡£×îºó£¬Ê¹ÓÃËùÓÐÀà±êÇ©µÄ·¢ÉúÆµÂÊ¼ÆËãÀà±ð³öÏÖµÄ¸ÅÂÊ£¬Í¨¹ý¸Ã¸ÅÂÊ¼ÆËãÐÅÏ¢ìØ£¬Í³¼ÆËùÓÐÀà±êÇ©·¢ÉúµÄ´ÎÊý¡£´úÂëÖÐµÄimport operatorÊÇÎªºóÐøµÝ¹é¹¹½¨¾ö²ßÊ÷¶øµ¼ÈëµÄ¹¤¾ß°ü¡£
½ÓÏÂÀ´£¬Í¨¹ýÐÅÏ¢ìØ¼ÆËã»®·ÖºóµÄÊý¾Ý¼¯»ìÂÒ³Ì¶È£¬¾ßÌåÈçÀý3.2ËùÊ¾¡£
¡¾Àý3.2¡¿Í¨¹ýÐÅÏ¢ìØ¼ÆËã»®·ÖºóµÄÊý¾Ý¼¯»ìÂÒ³Ì¶È¡£


1def createDataSet():

2dataSet = £Û£Û1, 1, 'yes'£Ý,

3   £Û1, 1, 'yes'£Ý,

4   £Û1, 0, 'no'£Ý,

5   £Û0, 1, 'no'£Ý,

6   £Û0, 1, 'no'£Ý£Ý

7labels = £Û'no surfacing','flippers'£Ý

8return dataSet, labels

9myDat,labels=createDataSet()

10print(myDat)

11print(calcShannonEnt(myDat))

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


£Û£Û1, 1, 'yes'£Ý, £Û1, 1, 'yes'£Ý, £Û1, 0, 'no'£Ý, £Û0, 1, 'no'£Ý, £Û0, 1, 'no'£Ý£Ý
0.9709505944546686

ÉÏÊö½á¹ûÖÐ£¬ìØµÄÖµÔ¼µÈÓÚ0.97¡£Ëæ×ÅÊý¾Ý¼¯¸´ÔÓ³Ì¶ÈµÄÔö¼Ó£¬ìØµÄÖµÒ²»áÔö´ó¡£¶ÁÕß¿ÉÒÔ³¢ÊÔÎªÊý¾Ý¼¯Ìí¼Ó¸ü¶àµÄ·ÖÀà£¬ÒÔ¹Û²ììØµÄ±ä»¯¡£
3.1.4ÐÅÏ¢ÔöÒæÓë»®·ÖÊý¾Ý¼¯
ÐÅÏ¢ÔöÒæÊÇÖ¸ÒÔÄ³ÌØÕ÷»®·ÖÊý¾Ý¼¯Ç°ºóµÄìØµÄ²îÖµ¡£ÔÚ3.1.3½ÚÖÐ£¬±¾Êé½éÉÜÁË¶ÈÁ¿Êý¾Ý¼¯ÎÞÐò³Ì¶ÈµÄ·½·¨£¬ÔÚ·ÖÀàËã·¨ÖÐ£¬³ýÁËÐèÒª¼ÆËãÐÅÏ¢ìØ£¬»¹ÐèÒª¶ÔÊý¾Ý¼¯½øÐÐ»®·Ö£¬¼ÆËã»®·ÖÊý¾Ý¼¯µÄìØ£¬´Ó¶øÅÐ¶Ï¸Ã·ÖÀà·½·¨ÊÇ·ñÕýÈ·µØ¶ÔÊý¾Ý¼¯½øÐÐÁË»®·Ö¡£Í¨¹ý¶Ô°´ÕÕÃ¿ÖÖÌØÕ÷»®·ÖÊý¾Ý¼¯µÄ½á¹ûÖðÒ»¼ÆËãÐÅÏ¢ìØÀ´ÕÒ³ö×îÓÅµÄ»®·Ö·½Ê½¡£ÕÆÎÕÁË¼ÆËãÐÅÏ¢ÔöÒæµÄ·½·¨£¬¾Í¿ÉÒÔ¼ÆËãÃ¿Ò»¸öÌØÕ÷Öµ»®·ÖÊý¾Ý¼¯»ñµÃµÄÐÅÏ¢ÔöÒæ£¬»ñµÃÐÅÏ¢ÔöÒæ×î¸ßµÄÌØÕ÷¾ÍÊÇ×îÓÅÌØÕ÷¡£
ÔÚÖ®Ç°½éÉÜìØµÄÊ±ºòÒÑ¾­Ìáµ½£¬¿ÉÒÔÍ¨¹ýìØÀ´±íÊ¾Êý¾Ý¼¯µÄ²»È·¶¨ÐÔ£¬ìØµÄÖµÔ½´ó£¬Êý¾Ý¼¯µÄ²»È·¶¨ÐÔ¾ÍÔ½´ó¡£Òò´Ë£¬¿ÉÒÔ¸ù¾Ý»®·ÖÇ°ºóÊý¾Ý¼¯ìØÖµµÄ±ä»¯À´ºâÁ¿Ê¹ÓÃµ±Ç°ÌØÕ÷¶ÔÑù±¾¼¯ºÏD»®·ÖµÄÐ§¹û¡£»®·ÖÇ°Êý¾Ý¼¯DµÄìØÊÇÈ·¶¨µÄ£¬¸ù¾ÝÄ³¸öÌØÕ÷A»®·ÖÊý¾Ý¼¯D£¬¼ÆËã»®·ÖºóµÄÊý¾Ý×Ó¼¯µÄìØ¡£ÐÅÏ¢ÔöÒæµÄ¼ÆËã¹«Ê½ÈçÏÂËùÊ¾¡£

Gain(D,A)=Ent(D)-Ent(D|A)

ÉÏÊö±í´ïÊ½ÖÐEnt(D)±íÊ¾»®·ÖÇ°Êý¾Ý¼¯DµÄìØ£¬Ent(D|A)±íÊ¾»®·ÖºóµÄÊý¾Ý×Ó¼¯µÄìØ¡£¼Ù¶¨ÀëÉ¢ÌØÕ÷AÓÐm¸ö¿ÉÄÜµÄÈ¡Öµ{a1,a2,¡­,am}£¬ÈôÊ¹ÓÃÌØÕ÷AÀ´¶ÔÑù±¾Êý¾Ý¼¯D½øÐÐ»®·Ö£¬Ôò»á²úÉúm¸ö·ÖÖ§½áµã£¬ÆäÖÐµÚm¸ö·ÖÖ§½áµã°üº¬ÁËÊý¾Ý¼¯DÖÐµÄËùÓÐÔÚÌØÕ÷AÉÏÈ¡ÖµÎªamµÄÑù±¾£¬¼Ç×÷Dm¡£ÔÙ¸ù¾Ý²»Í¬µÄ·ÖÖ§½áµãËù°üº¬µÄÑù±¾ÊýÁ¿²îÒì£¬¸ø¸÷·ÖÖ§½áµã¸³ÓèÈ¨ÖØ|Dm|/|D|(Ñù±¾ÊýÔ½¶à·ÖÖ§½áµãµÄÓ°ÏìÔ½´ó)¡£Í¨¹ýÕâÖÖ·½Ê½¼ÆËã³öÓÃÌØÕ÷A¶ÔÑù±¾Êý¾Ý¼¯D½øÐÐ»®·ÖËù»ñµÃµÄ¡°ÐÅÏ¢ÔöÒæ¡±£¬±í´ïÊ½ÈçÏÂËùÊ¾¡£

Gain(D,A)=Ent(D)-¡Æmm=1|Dm||D|Ent(Dm)

Ò»°ãÇé¿öÏÂ£¬ÐÅÏ¢ÔöÒæÔ½´ó£¬±íÊ¾ËùÊ¹ÓÃµÄÌØÕ÷A»®·ÖµÃµ½µÄ·ÖÀà×¼È·ÐÔÌáÉýÔ½´ó¡£
½ÓÏÂÀ´£¬Í¨¹ý´úÂëÊµÏÖÊý¾Ý¼¯»®·ÖµÄ·½·¨£¬¾ßÌå·½·¨ÈçÀý3.3ËùÊ¾¡£
¡¾Àý3.3¡¿Êý¾Ý¼¯µÄ»®·Ö¡£


1def splitDataSet(dataSet, axis, value):

2retDataSet = £Û£Ý #´´½¨ÁÐ±í¶ÔÏóÒýÓÃÊý¾Ý¼¯£¬·ÀÖ¹ÓÉÓÚ¶à´Îµ÷ÓÃ¶ø
#¸Ä±äÔªÊý¾Ý¼¯

3for featVec in dataSet: #±éÀúÊý¾Ý¼¯ÖÐµÄÃ¿¸öÔªËØ

4if featVec£Ûaxis£Ý == value:

5reducedFeatVec = featVec£Û:axis£Ý

6reducedFeatVec.extend(featVec£Ûaxis+1:£Ý)

7retDataSet.append(reducedFeatVec)#½«·ûºÏÌØÕ÷µÄÊý¾Ý³éÈ¡³öÀ´

8return retDataSet

9myDat,labels = createDataSet()

10print(myDat)

11print(splitDataSet(myDat,0,1))

12print(splitDataSet(myDat,0,0))

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


£Û£Û1, 1, 'yes'£Ý, £Û1, 1, 'yes'£Ý, £Û1, 0, 'no'£Ý, £Û0, 1, 'no'£Ý, £Û0, 1, 'no'£Ý£Ý

£Û£Û1, 'yes'£Ý, £Û1, 'yes'£Ý, £Û0, 'no'£Ý£Ý

£Û£Û1, 'no'£Ý, £Û1, 'no'£Ý£Ý

ÉÏÊö´úÂëÖÐÒýÈëÁËÈý¸öÊäÈë²ÎÊý£¬·Ö±ðÊÇ´ý»®·ÖÊý¾Ý¼¯dataSet¡¢»®·ÖÊý¾Ý¼¯µÄÌØÕ÷axisºÍ·µ»ØµÄÌØÕ÷Öµvalue¡£
¿ÉÒÔ¿´µ½Àý3.3µÄ´úÂëÖÐ·Ö±ðÊ¹ÓÃÁËextend()·½·¨ºÍappend()·½·¨À´´¦ÀíÁÐ±íÊý¾Ý¡£ÕâÁ½¸ö·½·¨´¦ÀíÊý¾ÝËùµÃµÄ½á¹ûÊÇÍêÈ«²»Í¬µÄ£¬¾ßÌå¿ÉÒÔ²Î¿¼Python»ù´¡µÄÏà¹ØÄÚÈÝ£¬´Ë´¦²»ÔÙ×¸Êö¡£
½ÓÏÂÀ´£¬Í¨¹ý±éÀúÕû¸öÊý¾Ý¼¯£¬Ñ­»·¼ÆËãÐÅÏ¢ìØºÍsplitDataSet()º¯ÊýÀ´Ñ¡³ö×îÓÅµÄÌØÕ÷»®·Ö·½Ê½¡£¾ßÌå·½·¨ÈçÀý3.4ËùÊ¾¡£
¡¾Àý3.4¡¿Ñ¡³ö×îÓÅµÄÌØÕ÷»®·Ö·½Ê½¡£


1def chooseBestFeatureToSplit(dataSet):

2numFeatures = len(dataSet£Û0£Ý) - 1#×îºóÒ»¸öÔªËØÊÇµ±Ç°ÊµÀýµÄÀà±ð±êÇ©

3baseEntropy = calcShannonEnt(dataSet)#¼ÆËãÔ­Ê¼ÐÅÏ¢ìØ

4bestInfoGain = 0.0; bestFeature = -1

5for i in range(numFeatures):#±éÀúÊý¾Ý¼¯ÖÐËùÓÐÌØÕ÷

6featList = £Ûexample£Ûi£Ý for example in dataSet£Ý#´´½¨Ò»¸öÁÐ±íÀ´´æ·ÅÌØÕ÷

7uniqueVals = set(featList) #´´½¨Î¨Ò»µÄ·ÖÀà±êÇ©ÁÐ±í

8newEntropy = 0.0

9for value in uniqueVals: #±éÀúµ±Ç°ÌØÕ÷ÖÐËùÓÐÎ¨Ò»µÄÌØÕ÷Öµ

10subDataSet = splitDataSet(dataSet, i, value)

11prob = len(subDataSet)/float(len(dataSet))

12newEntropy += prob * calcShannonEnt(subDataSet)#¼ÆËãÃ¿ÖÖ»®·Ö·½Ê½µÄÐÅÏ¢ìØ

13infoGain = baseEntropy - newEntropy#¼ÆËãÐÅÏ¢ÔöÒæ

14if (infoGain > bestInfoGain):#½«½á¹ûÓëÄ¿Ç°ËùµÃµ½µÄ×îÓÅ»®·Ö½øÐÐ±È½Ï

15bestInfoGain = infoGain #Èç¹û½á¹ûÓÅÓÚµ±Ç°×îÓÅ»¯·ÖÌØÕ÷£¬Ôò¸üÐÂ»®·ÖÌØÕ÷

16bestFeature = i

17return bestFeature#·µ»Ø×îÓÅ»®·ÖµÄË÷ÒýÖµ

18myDat,labels=createDataSet()

19print(chooseBestFeatureToSplit(myDat))

20print(myDat)

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


0

£Û£Û1, 1, 'yes'£Ý, £Û1, 1, 'yes'£Ý, £Û1, 0, 'no'£Ý, £Û0, 1, 'no'£Ý, £Û0, 1, 'no'£Ý£Ý

ÉÏÊö´úÂëÖÐchooseBestFeatureToSplit()º¯ÊýÓÃÓÚÑ¡È¡ÌØÕ÷£¬»®·ÖÊý¾Ý¼¯²¢¼ÆËã³ö×îÓÅµÄ»®·ÖÌØÕ÷¡£ÍêÕû´úÂëÐèÒªÕûºÏÀý3.1~Àý3.3ÖÐµÄº¯Êý¡£
ÐèÒª×¢ÒâµÄÊÇ£¬ÔÚº¯ÊýÖÐµ÷ÓÃµÄÊý¾ÝÐèÒªÂú×ãÁ½¸ö»ù±¾ÒªÇó£º ¢ÙÊý¾Ý±ØÐëÊÇÒ»ÖÖÁÐ±í£¬ÇÒËùÓÐµÄÁÐ±íÔªËØ¶¼Òª¾ßÓÐÏàÍ¬µÄÊý¾Ý³¤¶È£» ¢ÚÊý¾ÝµÄ×îºóÒ»ÁÐ»òÃ¿¸öÊµÀýµÄ×îºóÒ»¸öÔªËØÊÇµ±Ç°ÊµÀýµÄÀà±ð±êÇ©¡£µ±Êý¾Ý¼¯Âú×ãÒÔÉÏÁ½¸öÒªÇóÊ±£¬¼´¿ÉÔÚº¯ÊýµÄµÚÒ»ÐÐÅÐ¶¨µ±Ç°Êý¾Ý¼¯°üº¬¶àÉÙÌØÕ÷¡£
ÉÏÊöÊä³ö½á¹û±íÃ÷£¬ÁÐ±íÖÐµÚ0¸öÌØÕ÷ÊÇ×îÓÅ»®·ÖÌØÕ÷¡£´ËÊ±Êä³ö½á¹ûÎª0±íÊ¾¸ù¾Ý±í3.1ÖÐ¡°ÊÇ·ñ¿ÉÒÔÊ¼ÖÕ±£³ÖÔÚË®ÏÂÉú´æ¡±ÕâÒ»ÌØÕ÷À´½øÐÐ»®·ÖÊÇ×îÓÅµÄ¡£Ò²¾ÍÊÇËµ£¬°Ñ¡°¿ÉÒÔÊ¼ÖÕ±£³ÖÔÚË®ÏÂÉú´æµÄº£ÑóÉúÎï¡±»®·ÖÎªÒ»×é£¬¡°²»¿ÉÒÔÊ¼ÖÕ±£³ÖÔÚË®ÏÂÉú´æµÄº£ÑóÉúÎï¡±»®·ÖÎªÁíÒ»×é£¬ÊÇ×î¼Ñ»®·Ö·½Ê½¡£¸ù¾ÝÕâÒ»ÌØÕ÷½øÐÐ»®·ÖµÄ½á¹ûÓë±í3.1ÖÐµÄ¡°ÊÇ·ñÊôÓÚÓãÀà¡±»®·Ö½á¹û×î½Ó½ü£¬ÕâËµÃ÷ÁÐ±íÖÐµÚ0¸öÌØÕ÷È·ÊµÊÇ×îÓÅ»®·ÖÌØÕ÷¡£
3.2¹¹½¨¾ö²ßÊ÷
ÔÚ¹¹½¨¾ö²ßÊ÷Ê±£¬Ê×ÏÈÒª½â¾öµÄÎÊÌâÊÇÅÐ¶Ï³öµ±Ç°Êý¾Ý¼¯ÖÐÄÄ¸öÌØÕ÷ÔÚ»®·ÖÊý¾Ý·ÖÀàÊ±Æð¾ö¶¨ÐÔ×÷ÓÃ¡£ÎªÕÒµ½¾ö¶¨ÐÔµÄÌØÕ÷£¬»®·Ö³ö×îºÃµÄ½á¹û£¬ÐèÒª¶ÔÃ¿¸öÌØÕ÷½øÐÐÆÀ¹À¡£¼ÙÉèÒÑ¾­¸ù¾ÝÒ»¶¨µÄ·½·¨Ñ¡È¡ÁË´ý»®·ÖµÄÌØÕ÷£¬ÔòÔ­Ê¼Êý¾Ý¼¯½«¸ù¾ÝÕâ¸öÌØÕ÷±»»®·ÖÎª¼¸¸öÊý¾Ý×Ó¼¯¡£ÓÉÓÚÌØÕ÷Öµ¿ÉÄÜ¶àÓÚ2¸ö£¬Òò´Ë¿ÉÄÜ³öÏÖ¶àÓÚ2¸ö·ÖÖ§µÄ»®·ÖÇé¿ö£º Èç¹ûÄ³¸ö·ÖÖ§ÏÂµÄÊý¾ÝÊôÓÚÍ¬Ò»ÀàÐÍ£¬ÔòÎÞÐë½øÒ»²½¶ÔÊý¾Ý¼¯½øÐÐ»®·Ö£» Èç¹ûÊý¾Ý×Ó¼¯ÄÚµÄÊý¾Ý²»ÊôÓÚÍ¬Ò»ÀàÐÍ£¬ÔòÐèÒªµÝ¹éµØÖØ¸´»®·ÖÊý¾Ý×Ó¼¯µÄ¹ý³Ì£¬Ö±µ½Ã¿¸öÊý¾Ý×Ó¼¯ÄÚµÄÊý¾ÝÀàÐÍÏàÍ¬¡£
Í¨¹ýµÝ¹é·½·¨¹¹½¨¾ö²ßÊ÷µÄ½áÊøÌõ¼þÊÇ£º ³ÌÐò±éÀúÍêËùÓÐ»®·ÖÊý¾Ý¼¯µÄÌØÕ÷£¬»òÕßÃ¿¸ö·ÖÖ§ÏÂµÄËùÓÐÊµÀý¶¼ÊôÓÚÏàÍ¬µÄ·ÖÀà¡£µ±·ÖÖ§ÖÐµÄËùÓÐÑù±¾¶¼ÊôÓÚÍ¬Ò»·ÖÀàÊ±£¬ÔòµÃµ½Ò»¸öÒ¶×Ó½áµã(ÈÎºÎµ½´ïÒ¶×Ó½áµãµÄÊý¾Ý±Ø¶¨ÊôÓÚ¸ÃÒ¶×Ó½áµãµÄ·ÖÀà)¡£ÔÚËã·¨¿ªÊ¼ÔËÐÐÇ°£¬¿ÉÒÔÔ¤ÏÈÉèÖÃ×î´ó·Ö×éÊý¡£ÔÚÖÕÖ¹µÝ¹éÊ±£¬²é¿´Ëã·¨ÊÇ·ñÊ¹ÓÃÁËËùÓÐÌØÕ÷£¬ÈôÊý¾Ý¼¯ÒÑ´¦ÀíËùÓÐÌØÕ÷£¬µ«Àà±êÇ©²»ÊÇÎ¨Ò»µÄ£¬´ËÊ±¾ÍÐèÒª¿¼ÂÇÈçºÎÓÅ»¯¶¨ÒåÒ¶×Ó½áµã¡£Ò»°ãÇé¿öÏÂ£¬²ÉÓÃ¶àÊý±í¾öµÄ·½·¨¾ö¶¨¸ÃÒ¶×Ó½áµãµÄ·ÖÀà¡£ÔÚÊ¹ÓÃµÝ¹éËã·¨¹¹½¨¾ö²ßÊ÷Ê±¿ÉÄÜ»áÓöµ½ÌØÕ÷ÊýÁ¿²¢²»×ÜÊÇËæ×Å»®·ÖµÄ½øÐÐ¶ø¼õÉÙµÄÎÊÌâ¡£
Í¨¹ýÔÚ3.1½ÚÍê³ÉµÄ´úÂëÖÐÌí¼ÓÈçÏÂ´úÂë£¬À´·µ»Ø³öÏÖ´ÎÊý×î¶àµÄ·ÖÀàÃû³Æ(ÓÃÓÚ¶àÊý±í¾ö·¨¾ö¶¨Ò¶×Ó½áµãµÄ·ÖÀà)£¬¾ßÌå·½·¨ÈçÀý3.5ËùÊ¾¡£
¡¾Àý3.5¡¿·µ»Ø³öÏÖ´ÎÊý×î¶àµÄ·ÖÀàÃû³Æ¡£


1#·µ»Ø³öÏÖ´ÎÊý×î¶àµÄ·ÖÀàÃû³Æ

2def majorityCnt(classList):

3classCount={}

4for vote in classList:

5if vote not in classCount.keys(): classCount£Ûvote£Ý = 0

6classCount£Ûvote£Ý += 1

7sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1), reverse=True)

8return sortedClassCount£Û0£Ý£Û0£Ý

majorityCnt()º¯ÊýÖÐÊ¹ÓÃ·ÖÀàÃû³ÆµÄÁÐ±í£¬½Ó×Å´´½¨¼üÖµÎªclassListÖÐÎ¨Ò»ÖµµÄÊý¾Ý×ÖµäclassCount£¬¸Ã×Öµä¶ÔÏó´æ´¢ÁËclassListÖÐÃ¿¸öÀà±êÇ©³öÏÖµÄÆµÂÊ£¬×îºóÍ¨¹ýoperator²Ù×÷¼üÖµÅÅÐò×Öµä£¬²¢·µ»Ø³öÏÖ´ÎÊý×î¶àµÄ·ÖÀàÃû³Æ¡£´´½¨Ê÷º¯ÊýµÄ·½·¨¾ßÌåÈçÀý3.6ËùÊ¾¡£
¡¾Àý3.6¡¿´´½¨Ê÷º¯Êý¡£


1def createTree(dataSet,labels):

2classList = £Ûexample£Û-1£Ý for example in dataSet£Ý#»ñÈ¡Êý¾Ý¼¯µÄËùÓÐÀà±ð

3if classList.count(classList£Û0£Ý) == len(classList): 

4return classList£Û0£Ý#Èç¹ûÊý¾Ý¼¯µÄËùÓÐÀà±ð¶¼ÏàÍ¬Ôò
#²»ÐèÒª»®·Ö,Ê¹ÓÃÍêËùÓÐÌØÕ÷ºóÈÔÈ»²»ÄÜ½«Êý¾Ý»®·Öµ½Ä³¸öÀà±ðÉÏ,Ôò·µ»Ø³öÏÖ´ÎÊý×î¶àµÄÀà±ð

5if len(dataSet£Û0£Ý) == 1: 

6return majorityCnt(classList)

7bestFeat = chooseBestFeatureToSplit(dataSet)   #»ñÈ¡Êý¾Ý¼¯ÖÐ°´ÄÄÒ»ÁÐ½øÐÐ»®·Ö

8bestFeatLabel = labels£ÛbestFeat£Ý  #bestFeatLabel=ÁÐÃèÊö

9myTree = {bestFeatLabel:{}} #´´½¨Ò»¸ö×Öµä

10del(labels£ÛbestFeat£Ý) #É¾³ýÒÑ¼ÆËã¹ýµÄÁÐ

11featValues = £Ûexample£ÛbestFeat£Ý for example in dataSet£Ý

12uniqueVals = set(featValues) #»ñÈ¡Ä³ÁÐËùÓÐ²»ÖØ¸´Öµ

13for value in uniqueVals:

14subLabels = labels£Û:£Ý 




15myTree£ÛbestFeatLabel£Ý£Ûvalue£Ý = createTree(splitDataSet(

16dataSet, bestFeat, value),subLabels)#µÝ¹é

17return myTree

18myDat,labels = createDataSet()

19myTree = createTree(myDat,labels)

20print(myTree)

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

ÉÏÊö´úÂëÖÐ£¬createTree()º¯ÊýÖÐ°üº¬ÁËÁ½¸öÊäÈë²ÎÊý£º Êý¾Ý¼¯ºÍ±êÇ©ÁÐ±í¡£±êÇ©ÁÐ±í°üº¬ÁËÊý¾Ý¼¯ÖÐËùÓÐÌØÕ÷µÄ±êÇ©£¬Ëã·¨±¾Éí²¢²»ÐèÒªÕâ¸ö±äÁ¿£¬µ«ÎªÁË¸ø³öÃ÷È·µÄÊý¾Ýº¬Òå£¬ÐèÒª½«Æä×÷ÎªÊäÈë²ÎÊýµ¼Èë¡£´úÂëÖÐÊ×ÏÈ´´½¨ÁËÃûÎªclassListµÄÁÐ±í±äÁ¿£¬ÆäÖÐ°üº¬Êý¾Ý¼¯ÖÐµÄËùÓÐÀà±êÇ©¡£µÝ¹éº¯ÊýµÄµÚÒ»¸öÍ£Ö¹Ìõ¼þÊÇÈôËùÓÐÀà±êÇ©ÍêÈ«ÏàÍ¬£¬ÔòÖ±½Ó·µ»Ø¸ÃÀà±êÇ©classList£Û0£Ý£» µÚ¶þ¸öÍ£Ö¹Ìõ¼þÊÇËùÓÐÌØÕ÷±»ÓÃÍêÊ±£¬Èç¹ûÈÔÈ»²»ÄÜ½«Êý¾Ý¼¯»®·ÖÎª½ö°üº¬Î¨Ò»Àà±ðµÄ·Ö×é£¬Ôò²ÉÓÃ¶àÊý±í¾öµÄ·½·¨¾ö¶¨¸ÃÒ¶×Ó½áµãµÄ·ÖÀà¡£
½ÓÏÂÀ´£¬½øÐÐ´´½¨Ê÷²Ù×÷¡£Í¨¹ý×ÖµäÀàÐÍ±äÁ¿myTree´æ´¢Ê÷µÄËùÓÐÐÅÏ¢¡£µ±Ç°Êý¾Ý¼¯Ñ¡È¡µÄ×îÓÅÌØÕ÷´æ´¢ÔÚ±äÁ¿bestFeatÖÐ£¬µÃµ½ÁÐ±í°üº¬µÄËùÓÐÌØÕ÷Öµ¡£
×îºó£¬±éÀúµ±Ç°Ñ¡ÔñÌØÕ÷°üº¬µÄËùÓÐÊôÐÔÖµ£¬ÔÚÃ¿¸öÊý¾Ý¼¯»®·ÖÉÏµÝ¹éµ÷ÓÃcreateTree()º¯Êý£¬µÃµ½µÄ·µ»ØÖµ½«±»²åÈë×Öµä±äÁ¿myTreeÖÐ¡£ÔÚº¯ÊýÖÕÖ¹Ö´ÐÐÊ±£¬×Öµä±äÁ¿myTreeÖÐ½«Ç¶Ì×ºÜ¶à´ú±íÒ¶×Ó½áµãÐÅÏ¢µÄ×ÖµäÊý¾Ý¡£subLabels = labels£Û:£Ý¸´ÖÆÀà±êÇ©²¢½«Æä´æ´¢ÔÚÐÂÁÐ±í±äÁ¿subLabelsÖÐ£¬¸Ã×ö·¨¿ÉÒÔÊ¹µÃÃ¿´Îµ÷ÓÃº¯ÊýcreateTree()Ê±²»¸Ä±äÔ­Ê¼ÁÐ±íµÄÄÚÈÝ¡£
ÔÚÉÏÊö´úÂëµÄÔËÐÐ½á¹ûÖÐ£¬±äÁ¿myTree°üº¬ºÜ¶àÊ÷½á¹¹ÐÅÏ¢µÄÇ¶Ì××Öµä£¬´Ó×ó¿ªÊ¼µÚÒ»¸ö¹Ø¼ü×ÖflippersÊÇµÚÒ»¸ö»®·ÖÊý¾Ý¼¯µÄÌØÕ÷Ãû³Æ£¬¸Ã¹Ø¼ü×ÖµÄÖµÒ²ÊÇÁíÒ»¸öÊý¾Ý×Öµä¡£µÚ¶þ¸ö¹Ø¼ü×Öno sufacingÌØÕ÷»®·ÖµÄÊý¾Ý¼¯£¬ÕâÐ©¹Ø¼ü×ÖµÄÖµÊÇflippers½áµãµÄ×Ó½áµã£¬ÕâÐ©Öµ¿ÉÄÜÊÇÀà±êÇ©Ò²¿ÉÄÜÊÇÁíÒ»¸öÊý¾Ý×Öµä¡£Èç¹ûÖµÊÇÀà±êÇ©£¬Ôò¸Ã×Ó½áµãÊÇÒ¶×Ó½áµã£» Èç¹ûÖµÊÇÁíÒ»¸öÊý¾Ý×Öµä£¬Ôò×Ó½áµãÊÇÒ»¸öÅÐ¶Ï½áµã£¬ÕâÖÖ¸ñÊ½½á¹¹²»¶ÏÖØ¸´¾Í¹¹³ÉÁËÕû¿ÃÊ÷¡£±¾ÀýÖÐ£¬Õâ¿ÃÊ÷°üº¬ÁË3¸öÒ¶×Ó½áµãÒÔ¼°2¸öÅÐ¶Ï½áµã¡£
3.3¿ÉÊÓ»¯¾ö²ßÊ÷
¾ö²ßÊ÷µÄÖ÷ÒªÓÅµãÊÇÖ±¹Û¡¢Ò×ÓÚÀí½â£¬Èô²»ÄÜ½«ÆäÖ±¹ÛµØÏÔÊ¾³öÀ´£¬¾ÍÎÞ·¨ÌåÏÖÆäÓÅÊÆ¡£±¾½Ú½«½²½âÈçºÎÊ¹ÓÃMatplotlib¿â»æÖÆÊ÷ÐÎÍ¼£¬´Ó¶ø¸üÖ±¹ÛµØ½âÊÍÊý¾ÝÐÅÏ¢µÄº¬Òå¡£
3.3.1×¢ÊÍ½áµã
Matplotlib¹¤¾ß¿âÎª±à³ÌÕßÌá¹©ÁË×¢½â¹¤¾ß¡ª¡ªannotations£¬±à³ÌÕß¿ÉÒÔÍ¨¹ýËüÔÚÊý¾ÝÍ¼ÐÎÖÐÌí¼ÓÎÄ±¾×¢ÊÍ£¬¸Ã×¢ÊÍÍ¨³£ÓÃÓÚ½âÊÍÊý¾ÝµÄÄÚÈÝ¡£¸Ã¹¤¾ßÖ§³Ö´ø¼ýÍ·µÄ»­Ïß¹¤¾ß£¬¿ÉÔÚÆäËûÇ¡µ±µÄµØ·½Ö¸ÏòÊý¾ÝÎ»ÖÃ²¢ÔÚ¸Ã´¦Ìí¼ÓÃèÊöÐÅÏ¢£¬±ÜÃâÖ±½ÓÔÚÎÄ±¾ÉÏÃèÊö¡£
MatplotlibµÄ×¢½â¹¦ÄÜ¿ÉÒÔ¶ÔÎÄ×Ö×ÅÉ«²¢Ìá¹©ÁË¶àÖÖÍ¼ÐÎÐÎ×´£¬Ò²¿É·´×ª¼ýÍ·½«ÆäÖ¸ÏòÎÄ±¾¿ò¡£¿ÉÒÔÍ¨¹ýÒÔÏÂ´úÂëÊµÏÖÏà¹Ø²Ù×÷£¬¾ßÌåÈçÀý3.7ËùÊ¾¡£
¡¾Àý3.7¡¿×¢½âÊ÷½áµã¡£


1import matplotlib.pyplot as plt

2#¶¨Òå¾ö²ßÊ÷¾ö²ß½á¹ûµÄÌØÕ÷£¬ÒÔ×ÖµäµÄÐÎÊ½¶¨Òå  

3#ÏÂÃæµÄ×Öµä¶¨ÒåÒ²¿ÉÐ´×÷ decisionNode={boxstyle:'sawtooth',fc:'0.8'}  

4#boxstyleÎªÎÄ±¾¿òµÄÀàÐÍ£¬sawtoothÊÇ¾â³ÝÐÎ£¬fcÊÇ±ß¿òÏß´ÖÏ¸  

5decisionNode = dict(boxstyle="sawtooth", fc="0.8")

6leafNode = dict(boxstyle="round4", fc="0.8")

7arrow_args = dict(arrowstyle="<-")

8def plotNode(nodeTxt, centerPt, parentPt, nodeType):

9#annotateÊÇ¹ØÓÚÒ»¸öÊý¾ÝµãµÄÎÄ±¾  

10#nodeTxtÎªÒªÏÔÊ¾µÄÎÄ±¾£¬centerPtÎªÎÄ±¾µÄÖÐÐÄµã£¬parentPtÎªÖ¸ÏòÎÄ±¾µÄµã 

11createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',

12xytext=centerPt, textcoords='axes fraction',

13va="center", ha="center", bbox=nodeType, arrowprops=arrow_args )

14def createPlot(): 

15fig = plt.figure(1,facecolor='white') # ¶¨ÒåÒ»¸ö»­²¼£¬±³¾°Îª°×É«

16fig.clf() # °Ñ»­²¼Çå¿Õ

17#createPlot.ax1ÎªÈ«¾Ö±äÁ¿£¬»æÖÆÍ¼ÏñµÄ¾ä±ú£¬subplotÎª¶¨ÒåÁËÒ»¸ö»æÍ¼

18#111±íÊ¾figureÖÐµÄÍ¼ÓÐ1ÐÐ1ÁÐ£¬¼´1¸ö£¬×îºóµÄ1´ú±íµÚÒ»¸öÍ¼ 

19#frameon±íÊ¾ÊÇ·ñ»æÖÆ×ø±êÖá¾ØÐÎ 

20createPlot.ax1 = plt.subplot(111,frameon=False) 

21plotNode('a decision node',(0.2,0.2),(0.6,0.8),decisionNode) 

22plotNode('a leaf node',(0.6,0.1),(0.8,0.8),leafNode) 

23plt.show()

24if __name__ == '__main__':

25createPlot()

ÔËÐÐ³ÌÐò£¬½á¹ûÈçÍ¼3.2ËùÊ¾¡£


Í¼3.2Í¨¹ýplotNode()º¯Êý½øÐÐ×¢ÊÍ


ÉÏÊö´úÂëÖÐÊ×ÏÈ¶¨ÒåÁËÎÄ±¾¿òºÍ¼ýÍ·¸ñÊ½£¬È»ºó¶¨ÒåplotNode()º¯ÊýÖ´ÐÐÊµ¼ÊµÄ»æÍ¼¹¦ÄÜ£¬»æÍ¼ÇøÓòÓÉÈ«¾Ö±äÁ¿createPlot.ax1¶¨Òå¡£×îºó¶¨ÒåcreatePlot()º¯Êý£¬¸Ãº¯ÊýÖÐÊ×ÏÈ´´½¨Ò»¸öÐÂÍ¼ÐÎ²¢Çå¿Õ»æÍ¼Çø£¬È»ºóÔÚ»æÍ¼ÇøÖÐ»æÖÆÁ½¸ö´ú±í²»Í¬ÀàÐÍµÄÊ÷½áµã¡£
3.3.2¹¹½¨ÍêÕûµÄ×¢½âÊ÷
»æÖÆÒ»¿ÅÍêÕûµÄ¾ö²ßÊ÷²»½öÐèÒªÓÐ×ø±ê£¬»¹Òª¿¼ÂÇÈçºÎ·ÅÖÃËùÓÐµÄÊ÷½áµã¡£ÐèÒªÏÈÈ·¶¨¾ö²ßÊ÷µÄ½áµãµÄ¸öÊý£¬ÒÔ±ãÉèÖÃºÏÊÊµÄxÖá³¤¶È£» ÔÙÈ·¶¨¾ö²ßÊ÷µÄ²ãÊý£¬ÒÔ±ãÉèÖÃºÏÊÊµÄyÖá³¤¶È¡£
¿ÉÍ¨¹ý¶¨ÒåÁ½¸öÐÂµÄº¯ÊýÔÚ3.3.1½Ú´úÂëµÄ»ù´¡ÉÏ»ñÈ¡Ò¶×Ó½áµãµÄÊýÄ¿ÒÔ¼°Ê÷µÄ²ãÊý£¬ÕâÁ½¸öº¯Êý¿ÉÃüÃûÎªgetNumLeafs()ÓëgetTreeDepth()£¬¾ßÌå´úÂëÈçÀý3.8ËùÊ¾¡£
¡¾Àý3.8¡¿»ñÈ¡Ò¶×Ó½áµãµÄÊýÄ¿ÒÔ¼°Ê÷µÄ²ãÊý¡£


1def getNumLeafs(myTree):

2numLeafs = 0

3firstStr = list(myTree.keys())£Û0£Ý #×ÖµäµÄµÚÒ»¸ö¼ü£¬¼´Ê÷µÄÒ»¸ö½áµã

4secondDict = myTree£ÛfirstStr£Ý  #Õâ¸ö¼üµÄÖµ£¬¶ÔÓ¦¸Ã½áµãµÄËùÓÐ·ÖÖ§

5for key in secondDict.keys():

6if type(secondDict£Ûkey£Ý).__name__=='dict':

7numLeafs += getNumLeafs(secondDict£Ûkey£Ý)

8else:   numLeafs +=1

9return numLeafs

10def getTreeDepth(myTree):

11maxDepth = 0

12firstStr = list(myTree.keys())£Û0£Ý

13secondDict = myTree£ÛfirstStr£Ý

14for key in secondDict.keys():

15if type(secondDict£Ûkey£Ý).__name__=='dict':

16thisDepth = 1 + getTreeDepth(secondDict£Ûkey£Ý)

17else:   thisDepth = 1

18if thisDepth > maxDepth: maxDepth = thisDepth

19return maxDepth

ÉÏÊö´úÂë¶¨ÒåÁËgetNumLeafs()º¯ÊýÓëgetTreeDepth()º¯Êý£¬²»ÄÑ¿´³ö£¬ÕâÁ½¸öº¯ÊýÓÐ×ÅÏàÍ¬µÄ½á¹¹¡£º¯ÊýÖÐÑÝÊ¾ÁËÈçºÎÊ¹ÓÃ×ÖµäÀàÐÍ´æ´¢Ê÷ÐÅÏ¢£¬µÚÒ»¸ö¹Ø¼ü×ÖfirstStrÊÇµÚÒ»´Î»®·ÖÊý¾Ý¼¯µÄÀà±ð±êÇ©£¬¸½´øµÄÊýÖµ±íÊ¾×Ó½áµãµÄÈ¡Öµ£¬´ÓµÚÒ»¸ö¹Ø¼ü×Ö³ö·¢¿É±éÀúÕû¿ÃÊ÷µÄËùÓÐ×Ó½áµã¡£ÔÚº¯ÊýgetNumLeafs()ÖÐ£¬Ê¹ÓÃtype()·½·¨ÅÐ¶Ï×Ó½áµãÎª×ÖµäÀàÐÍ(¼´¸Ã½áµãÒ²ÊÇÒ»¸öÅÐ¶Ï½áµã)ºó£¬ÔòµÝ¹éµ÷ÓÃgetNumLeafs()º¯Êý£¬¸Ã¹ý³Ì±éÀúÕû¿ÃÊ÷£¬²¢·µ»ØÀÛ¼ÆÒ¶×Ó½áµãµÄ¸öÊý¡£º¯ÊýgetTreeDepth()ÖÐ½«ÅÐ¶Ï½áµãµÄ¸öÊý£¬µ±µ½´ïÒ¶×Ó½áµãÊ±´ÓµÝ¹éµ÷ÓÃÖÐ·µ»Ø£¬²¢½«Ê÷Éî¶ÈµÄ±äÁ¿Ôö¼Ó1¡£
Îª±ÜÃâÃ¿´Î²âÊÔ´úÂëÊ±¶¼Òª´ÓÊý¾ÝÖÐÖØÐÂ´´½¨Ê÷£¬¿É¶¨ÒåÒ»¸öº¯ÊýÔ¤ÏÈ´æ´¢Ê÷ÐÅÏ¢£¬¾ßÌå´úÂëÈçÀý3.9ËùÊ¾¡£
¡¾Àý3.9¡¿¹¹½¨Ô¤ÏÈ´æ´¢Ê÷ÐÅÏ¢µÄº¯Êý¡£


1def retrieveTree(i):

2listOfTrees = £Û{'no surfacing':{0:'no',1:{'flippers':£Ü

3{0:'no', 1:'yes'}}}},




4   {'no surfacing':{0:'no',1:{'flippers':£Ü

5{0:{'head':{0:'no', 1:'yes'}},1:'no'}}}}£Ý

6return listOfTrees£Ûi£Ý

7if __name__ == '__main__':

8tree = retrieveTree(1)

9leafs = getNumLeafs(tree)

10depth = getTreeDepth(tree)

11print(leafs)

12print(depth)

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


4

3

ÉÏÊö½á¹û±íÃ÷¸Ã¾ö²ßÊ÷µÄÒ¶×Ó½áµãÊýÎª4£¬²ãÊýÎª3¡£
ÔÚµ±Ç°µÄtreePlotter.pyÎÄ¼þÖÐ£¬Èç¹ûÖ±½ÓÖ´ÐÐcreatePlot()º¯Êý£¬ÔòÊä³ö½á¹ûÈÔÎªÍ¼3.2ÖÐµÄÍ¼ÐÎ¡£ÏÖ¶ÔÆä½øÐÐ¸ÄÔìÒÔ±ãÓÚ»æÖÆÊ÷ÐÎÍ¼£¬¾ßÌåÐÞ¸ÄºóµÄ´úÂëÈçÀý3.10ËùÊ¾¡£

¡¾Àý3.10¡¿»æÖÆÊ÷ÐÎÍ¼¡£


1def plotTree(myTree, parentPt, nodeTxt):

2numLeafs = getNumLeafs(myTree)  #µ±Ç°Ê÷µÄÒ¶×ÓÊý

3depth = getTreeDepth(myTree) #Ã»ÓÐÓÃµ½Õâ¸ö±äÁ¿

4firstSides = list(myTree.keys())

5firstStr = firstSides£Û0£Ý

6#cntrPtÊÇÎÄ±¾ÖÐÐÄµã£¬parentPtÖ¸ÏòÎÄ±¾ÖÐÐÄµã 

7cntrPt=(plotTree.xOff+(1.0+float(numLeafs))/2.0/plotTree.totalW, plotTree.yOff)

8plotMidText(cntrPt, parentPt, nodeTxt) #»­·ÖÖ§ÉÏµÄ¼ü

9plotNode(firstStr, cntrPt, parentPt, decisionNode)

10secondDict = myTree£ÛfirstStr£Ý

11plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD  #´ÓÉÏÍùÏÂ»­

12for key in secondDict.keys():

13#Èç¹ûÊÇ×ÖµäÔòÊÇÒ»¸öÅÐ¶Ï(ÄÚ²¿)½áµã

14if type(secondDict£Ûkey£Ý).__name__=='dict': 

15plotTree(secondDict£Ûkey£Ý,cntrPt,str(key))   

16else:  #´òÓ¡Ò¶×Ó½áµã

17plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW

18plotNode(secondDict£Ûkey£Ý, (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)

19plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))

20plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD

21def plotMidText(cntrPt, parentPt, txtString):


22xMid = (parentPt£Û0£Ý-cntrPt£Û0£Ý)/2.0 + cntrPt£Û0£Ý

23yMid = (parentPt£Û1£Ý-cntrPt£Û1£Ý)/2.0 + cntrPt£Û1£Ý

24createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)

25def createPlot(inTree):

26fig = plt.figure(1, facecolor='white')




27fig.clf()

28axprops = dict(xticks=£Û£Ý, yticks=£Û£Ý)#¶¨Òåºá×Ý×ø±êÖá  


29createPlot.ax1 = plt.subplot(111, frameon=False) 


30plotTree.totalW = float(getNumLeafs(inTree))   #È«¾Ö±äÁ¿¿í¶È = Ò¶×ÓÊý

31plotTree.totalD = float(getTreeDepth(inTree))  #È«¾Ö±äÁ¿¸ß¶È = Éî¶È

32#Í¼ÐÎµÄ´óÐ¡ÊÇ0-1£¬0-1

33plotTree.xOff = -0.5/plotTree.totalW;  

34#ÀýÈç»æÖÆ3¸öÒ¶×Ó½áµã£¬×ø±êÓ¦Îª1/3,2/3,3/3

35#µ«ÕâÑù»áÊ¹Õû¸öÍ¼ÐÎÆ«ÓÒ£¬Òò´Ë³õÊ¼µÄxÖµ½«Ïò×óÒÆÒ»µã

36plotTree.yOff = 1.0;

37plotTree(inTree, (0.5,1.0), '')

38plt.show()

39if __name__ == '__main__':

40myTree = retrieveTree(0)

41createPlot(myTree)

ÉÏÊö´úÂëÔÚ»æÖÆ×¢½âÊ÷Ê±£¬²»»áÒòÎªÊ÷µÄ½áµãµÄÔö¼õºÍÉî¶ÈµÄÔö¼õ¶øµ¼ÖÂ»æÖÆ³öÀ´µÄÍ¼ÐÎÌ«ÃÜ¼¯¶ø³öÏÖÎÊÌâ¡£ÕâÊÇÒòÎª´úÂë½«Õû¿ÃÊ÷µÄÒ¶×Ó½áµãÊý×÷Îª·ÝÊý¶ÔÕû¸öxÖáµÄ³¤¶È½øÐÐÁËÆ½¾ùÇÐ·Ö£¬½«Ê÷µÄÉî¶È×÷Îª·ÝÊý¶ÔyÖá³¤¶È½øÐÐÁËÆ½¾ùÇÐ·Ö¡£²¢ÇÒ£¬´úÂë½«plotTree.xOff×÷Îª×î½ü»æÖÆµÄÒ»¸öÒ¶×Ó½áµãµÄx×ø±ê£¬µ±ÔÙÒ»´Î»æÖÆÒ¶×Ó½áµã×ø±êÊ±plotTree.xOff²Å»á·¢Éú¸Ä±ä£» ½«plotTree.yOff×÷Îªµ±Ç°»æÖÆµÄÉî¶È£¬plotTree.yOffÃ¿µÝ¹éÒ»²ã¾Í»á¼õÒ»·Ý(Ö®Ç°ÀûÓÃÊ÷µÄÉî¶È½«yÖáÆ½¾ùÇÐ·Ö)£¬ÆäËûÊ±ºòÀûÓÃÕâÁ½¸ö×ø±êµã¼ÆËã·ÇÒ¶×Ó½áµã£¬Í¨¹ýÕâÁ½¸ö²ÎÊý¾Í¿ÉÒÔÈ·¶¨Ò»¸öµã×ø±ê£¬×ø±êÈ·¶¨ºó±ã¿ÉÒÔ»æÖÆ½áµã¡£
createPlot()º¯Êýµ÷ÓÃÁËplotTree()ÓëplotMidText()º¯Êý£¬ÆäÖÐplotTree()º¯ÊýÔÚ»æÖÆÊ÷ÐÎÍ¼µÄ¹ý³ÌÖÐÆð¹Ø¼ü×÷ÓÃ£¬plotTree()º¯ÊýÖÐÊ×ÏÈ¼ÆËãÊ÷µÄ¿íºÍ¸ß£¬È«¾Ö±äÁ¿plotTree.totalW´æ´¢Ê÷µÄ¿í¶È£¬È«¾Ö±äÁ¿plotTree.totalD´æ´¢Ê÷µÄÉî¶È¡£
Êä³ö½á¹ûÈçÍ¼3.3ËùÊ¾¡£


Í¼3.3Ê÷0µÄÊ÷ÐÎÍ¼»æÖÆ


3.4»ùÄáÖ¸ÊýÓëCARTËã·¨
³ýÁËÇ°Ãæ½éÉÜµÄÍ¨¹ýÐÅÏ¢ìØÀ´ºâÁ¿¼¯ºÏµÄÎÞÐò³Ì¶ÈÍâ£¬ÁíÒ»ÖÖ³£¼ûµÄ¶ÈÁ¿Ö¸±êÊÇ»ùÄáÖ¸Êý(Gini index)£¬Ò²³Æ×÷»ùÄá²»´¿¶È(Gini impurity)¡£»ùÄáÖ¸ÊýÍ¨¹ý´ÓÊý¾Ý¼¯ÖÐËæ»úÑ¡È¡×ÓÏîÀ´¶ÈÁ¿¸Ã×ÓÏî±»´íÎó·ÖÀàµ½ÆäËû·Ö×éÖÐµÄ¸ÅÂÊ¡£
·ÖÀàÓë»Ø¹éÊ÷(Classification And Regression Tree£¬CART)Ëã·¨Í¨¹ý¡°»ùÄáÖ¸Êý¡±À´Ñ¡Ôñ»®·ÖÌØÕ÷µÄÒÀ¾Ý¡£Í¨¹ý»ùÄáÖ¸ÊýÀ´¶ÈÁ¿Êý¾Ý¼¯ºÏDµÄ´¿¶È£¬¶ÈÁ¿´¿¶ÈµÄ±í´ïÊ½ÈçÏÂËùÊ¾¡£


Gini(D)=¡Æni=1¡Æi¡ä¡Ùip(xi)p(xi')
=1-¡Æni=1p(xi)2

Gini(D)±íÊ¾´ÓÊý¾Ý¼¯DÖÐËæ»ú³éÈ¡Á½¸öÑù±¾£¬ÆäÀà±ð±ê¼Ç²»Ò»ÖÂµÄ¸ÅÂÊ¡£Òò´Ë£¬Gini(D)µÄÖµÔ½Ð¡£¬ÔòÊý¾Ý¼¯DµÄ´¿¶ÈÔ½¸ß¡£
¼Ù¶¨ÀëÉ¢ÌØÕ÷AÓÐm¸ö¿ÉÄÜµÄÈ¡Öµ{a1,a2,¡­,am}£¬ÈôÊ¹ÓÃÌØ¶¨ÌØÕ÷AÀ´¶ÔÑù±¾Êý¾Ý¼¯D½øÐÐ»®·Ö£¬Ôò»á²úÉúm¸ö·ÖÖ§½áµã£¬ÆäÖÐµÚi¸ö·ÖÖ§½áµã°üº¬ÁËÊý¾Ý¼¯DÖÐµÄËùÓÐÔÚÌØÕ÷AÉÏÈ¡ÖµÎªaiµÄÑù±¾Âð£¬¼Ç×÷Di¡£¸ù¾Ý¹«Ê½¼ÆËã³öDiµÄÐÅÏ¢ìØ¡£ÔÙ¸ù¾Ý²»Í¬µÄ·ÖÖ§½áµãËù°üº¬µÄÑù±¾ÊýÁ¿²îÒì£¬¸ø¸÷·ÖÖ§½áµã¸³ÓèÈ¨ÖØ|Di|/|D|(Ñù±¾ÊýÔ½¶à£¬·ÖÖ§½áµãµÄÓ°ÏìÔ½´ó)¡£Í¨¹ýÕâÖÖ·½Ê½¼ÆËã³öÓÃÌØÕ÷A¶ÔÑù±¾Êý¾Ý¼¯D½øÐÐ»®·ÖËù»ñµÃµÄ»ùÄáÖ¸Êý£¬±í´ïÊ½ÈçÏÂËùÊ¾¡£

Giniindex(D,A)=¡Æmi=1|Di||D|Gini(Di)

¸ù¾ÝÉÏÊö±í´ïÊ½£¬ÔÚºòÑ¡ÌØÕ÷¼¯ºÏAÖÐ£¬Ñ¡È¡Ê¹µÃ»®·Öºó»ùÄáÖ¸Êý×îÐ¡µÄÌØÕ÷×÷Îª×îÓÅ»®·ÖÌØÕ÷¡£
Í¨¹ýCARTËã·¨¹¹½¨¾ö²ßÊ÷£¬¾ßÌå·½·¨ÈçÀý3.11ËùÊ¾¡£
¡¾Àý3.11¡¿Í¨¹ýCARTËã·¨¹¹½¨¾ö²ßÊ÷¡£


1from math import log

2import operator

3import treePlotter

4

5def calcShannonEnt(dataSet):

6numEntries = len(dataSet) #¼ÆËãÊý¾Ý¼¯ÖÐµÄÊµÀý×ÜÊý

7labelCounts = {}

8#Í³¼ÆÀà±ð³öÏÖµÄ´ÎÊý

9#·Åµ½Ò»¸öÊý×éÖÐ key±íÊ¾±êÇ©,val±íÊ¾¸öÊý

10for featVec in dataSet:

11currentLabel = featVec£Û-1£Ý

12if currentLabel not in labelCounts.keys():

13labelCounts£ÛcurrentLabel£Ý = 0

14labelCounts£ÛcurrentLabel£Ý += 1

15shannonEnt = 0.0

16for key in labelCounts:

17prob = float(labelCounts£Ûkey£Ý)/numEntries

18shannonEnt -= prob * log(prob, 2)




19return shannonEnt

20

21def splitDataSet(dataSet, axis, value):

22"""

23ÊäÈë£ºÊý¾Ý¼¯£¬Ñ¡ÔñÎ¬¶È£¬Ñ¡ÔñÖµ

24Êä³ö£º»®·ÖÊý¾Ý¼¯

25ÃèÊö£º°´ÕÕ¸ø¶¨ÌØÕ÷»®·ÖÊý¾Ý¼¯£»È¥³ýÑ¡ÔñÎ¬¶ÈÖÐµÈÓÚÑ¡ÔñÖµµÄÏî

26"""

27retDataSet = £Û£Ý

28for featVec in dataSet:

29if featVec£Ûaxis£Ý == value:

30reduceFeatVec = featVec£Û:axis£Ý

31reduceFeatVec.extend(featVec£Ûaxis+1:£Ý)

32retDataSet.append(reduceFeatVec)

33return retDataSet

34

35def chooseBestFeatureToSplit(dataSet):

36"""

37ÊäÈë£ºÊý¾Ý¼¯

38Êä³ö£º×îºÃµÄ»®·ÖÎ¬¶È

39ÃèÊö£ºÑ¡Ôñ×îºÃµÄÊý¾Ý¼¯»®·ÖÎ¬¶È

40"""

41numFeatures = len(dataSet£Û0£Ý) - 1#ÌØÕ÷¸öÊý

42bestGini = 999999.0

43bestFeature = -1

44for i in range(numFeatures):

45featList = £Ûexample£Ûi£Ý for example in dataSet£Ý #Í³¼ÆµÚi¸öÌØÕ÷ÓÐ¼¸ÖÖÇé¿ö

46uniqueVals = set(featList)

47gini = 0.0

48for value in uniqueVals:  #±éÀúÌØÕ÷ÁÐ±í

49subDataSet = splitDataSet(dataSet, i, value)

50prob = len(subDataSet)/float(len(dataSet)) #×Ó¼¯Ñù±¾¸öÊý/×ÜÑù±¾¸öÊý


51subProb = len(splitDataSet(subDataSet, -1, 'N')) / float(len(subDataSet)) 

52gini += prob * (1.0 - pow(subProb, 2) - pow(1 - subProb, 2))

53if (gini < bestGini):

54bestGini = gini

55bestFeature = i

56return bestFeature

57

58def majorityCnt(classList):

59"""

60ÊäÈë£º·ÖÀàÀà±ðÁÐ±í

61Êä³ö£º×Ó½áµãµÄ·ÖÀà

62ÃèÊö£ºÊý¾Ý¼¯ÒÑ¾­´¦ÀíÁËËùÓÐÊôÐÔ£¬µ«ÊÇÀà±êÇ©ÒÀÈ»²»ÊÇÎ¨Ò»µÄ£¬

63²ÉÓÃ¶àÊýÅÐ¾öµÄ·½·¨¾ö¶¨¸Ã×Ó½áµãµÄ·ÖÀà

64"""

65classCount = {}

66for vote in classList:

67if vote not in classCount.keys():

68classCount£Ûvote£Ý = 0





69classCount£Ûvote£Ý += 1

70sortedClassCount=sorted(classCount.iteritems(), key=operator.itemgetter(1), reversed=True)

71return sortedClassCount£Û0£Ý£Û0£Ý

72

73def createTree(dataSet, labels):

74"""

75ÊäÈë£ºÊý¾Ý¼¯£¬ÌØÕ÷±êÇ©

76Êä³ö£º¾ö²ßÊ÷

77ÃèÊö£ºµÝ¹é¹¹½¨¾ö²ßÊ÷£¬ÀûÓÃÉÏÊöµÄº¯Êý

78"""

79   #µÝ¹éÍ£Ö¹Ìõ¼þ

80classList = £Ûexample£Û-1£Ý for example in dataSet£Ý #È¡ËùÓÐµÄÀà±ð

81if classList.count(classList£Û0£Ý) == len(classList): 

82#Ö»ÓÐÒ»¸öÀà±ðÊ±£¬Í£Ö¹»®·Ö

83return classList£Û0£Ý

84if len(dataSet£Û0£Ý) == 1:

85#±éÀúÍêËùÓÐÌØÕ÷Ê±·µ»Ø³öÏÖ´ÎÊý×î¶àµÄ

86return majorityCnt(classList)

87bestFeat = chooseBestFeatureToSplit(dataSet) #·µ»Ø×îºÃµÄÌØÕ÷

88bestFeatLabel = labels£ÛbestFeat£Ý #ÌáÈ¡ÌØÕ÷Ãû³Æ

89myTree = {bestFeatLabel:{}} #ÌØÕ÷¶ÔÓ¦µÄ×Öµä

90del(labels£ÛbestFeat£Ý)

91#µÃµ½ÁÐ±í°üÀ¨½áµãËùÓÐµÄÊôÐÔÖµ

92featValues = £Ûexample£ÛbestFeat£Ý for example in dataSet£Ý #È¡×îÓÅÌØÕ÷µÄÖÖÀà

93uniqueVals = set(featValues)

94for value in uniqueVals:

95subLabels = labels£Û:£Ý

96  #µÝ¹éµ÷ÓÃ

97myTree£ÛbestFeatLabel£Ý£Ûvalue£Ý = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)


98return myTree

99

100def classify(inputTree, featLabels, testVec):

101"""

102ÊäÈë£º¾ö²ßÊ÷£¬·ÖÀà±êÇ©£¬²âÊÔÊý¾Ý

103Êä³ö£º¾ö²ß½á¹û

104"""

105firstStr = list(inputTree.keys())£Û0£Ý

106secondDict = inputTree£ÛfirstStr£Ý

107featIndex = featLabels.index(firstStr)

108classLabel = 'N'

109for key in secondDict.keys():

110if testVec£ÛfeatIndex£Ý == key:

111if type(secondDict£Ûkey£Ý).__name__ == 'dict':

112classLabel = classify(secondDict£Ûkey£Ý, featLabels, testVec)

113else:

114classLabel = secondDict£Ûkey£Ý

115return classLabel

116





117def classifyAll(inputTree, featLabels, testDataSet):

118"""

119ÊäÈë£º¾ö²ßÊ÷£¬·ÖÀà±êÇ©£¬²âÊÔÊý¾Ý¼¯

120Êä³ö£º¾ö²ß½á¹û

121ÃèÊö£ºÅÜ¾ö²ßÊ÷

122"""

123classLabelAll = £Û£Ý

124for testVec in testDataSet:

125classLabelAll.append(classify(inputTree, featLabels, testVec))

126return classLabelAll

127

128def storeTree(inputTree, filename):

129"""

130ÊäÈë£º¾ö²ßÊ÷£¬±£´æÎÄ¼þÂ·¾¶

131Êä³ö£º¾ö²ßÊ÷ÎÄ¼þ

132ÃèÊö£º±£´æ¾ö²ßÊ÷µ½ÎÄ¼þ

133"""

134fw = open(filename, 'wb')

135pickle.dump(inputTree, fw)

136fw.close()

137

138def grabTree(filename):

139"""

140ÊäÈë£ºÎÄ¼þÂ·¾¶Ãû

141Êä³ö£º¾ö²ßÊ÷

142ÃèÊö£º´ÓÎÄ¼þ¶ÁÈ¡¾ö²ßÊ÷

143"""

144fr = open(filename, 'rb')

145return pickle.load(fr)

146


147def createDataSet():

148"""

149outlook->  0: sunny | 1: overcast | 2: rain

150temperature-> 0: hot | 1: mild | 2: cool

151humidity-> 0: high | 1: normal

152windy-> 0: false | 1: true 

153"""

154dataSet = £Û£Û0, 0, 0, 0, 'N'£Ý, 

155£Û0, 0, 0, 1, 'N'£Ý, 

156£Û1, 0, 0, 0, 'Y'£Ý, 

157£Û2, 1, 0, 0, 'Y'£Ý, 

158£Û2, 2, 1, 0, 'Y'£Ý, 

159£Û2, 2, 1, 1, 'N'£Ý, 

160£Û1, 2, 1, 1, 'Y'£Ý£Ý

161labels = £Û'outlook', 'temperature', 'humidity', 'windy'£Ý

162return dataSet, labels

163

164def createTestSet():

165"""

166outlook->  0: sunny | 1: overcast | 2: rain





167temperature-> 0: hot | 1: mild | 2: cool

168humidity-> 0: high | 1: normal

169windy-> 0: false | 1: true 

170"""

171testSet = £Û£Û0, 1, 0, 0£Ý, 

172£Û0, 2, 1, 0£Ý, 

173£Û2, 1, 1, 0£Ý, 

174£Û0, 1, 1, 1£Ý, 

175£Û1, 1, 0, 1£Ý, 

176£Û1, 0, 1, 0£Ý, 

177£Û2, 1, 0, 1£Ý£Ý

178return testSet

179

180def main():

181dataSet, labels = createDataSet()

182labels_tmp = labels£Û:£Ý #¸´ÖÆ£¬createTree»á¸Ä±älabels

183desicionTree = createTree(dataSet, labels_tmp)

184#storeTree(desicionTree, 'classifierStorage.txt')

185#desicionTree = grabTree('classifierStorage.txt')

186print('desicionTree:£Ün', desicionTree)

187treePlotter.createPlot(desicionTree)

188testSet = createTestSet()

189print('classifyResult:£Ün', classifyAll(desicionTree, labels, testSet))

190

191if __name__ == '__main__':

192main()

Êä³ö½á¹ûÈçÏÂËùÊ¾¡£


desicionTree:

{'outlook': {0: 'N', 1: 'Y', 2: {'windy': {0: 'Y', 1: 'N'}}}}





classifyResult:

£Û'N', 'N', 'Y', 'N', 'Y', 'Y', 'N'£Ý

3.5¾ö²ßÊ÷µÄ¼ôÖ¦
·ÖÀà»Ø¹éÊ÷µÄµÝ¹é½¨Ê÷µÄ¹ý³ÌÖÐºÜÈÝÒ×³öÏÖÊý¾Ý¹ýÄâºÏµÄÎÊÌâ¡£ÕâÊÇÒòÎªÔÚ¹¹½¨¾ö²ßÊ÷Ê±£¬ÑµÁ·Êý¾ÝÖÐ´æÔÚ´óÁ¿µÄÔëÉù»ò¹ÂÁ¢µã£¬Ðí¶à·ÖÖ¦·´Ó³µÄÊÇÑµÁ·Êý¾ÝÖÐµÄÒì³££¬Ê¹ÓÃÕâÑùµÄÅÐ¶¨Ê÷¶ÔÀà±ðÎ´ÖªµÄÊý¾Ý½øÐÐ·ÖÀà£¬·ÖÀàµÄ×¼È·ÐÔ¾Í»áÏÂ½µ¡£Òò´Ë£¬»áÓÃµ½¼ôÖ¦(pruning)¼¼Êõ¡£¼ôÖ¦ÊÇÖ¸´ÓÒÑ¾­Éú³ÉµÄÊ÷ÉÏ²ÃµôÒ»Ð©×ÓÊ÷»òÒ¶½áµã£¬²¢½«Æä¸ù½áµã»ò¸¸½áµã×÷ÎªÐÂµÄÒ¶×Ó½áµã£¬´Ó¶ø¼ò»¯·ÖÀàÊ÷Ä£ÐÍ¡£ÊµÏÖ·½·¨ÊÇ¼«Ð¡»¯¾ö²ßÊ÷ÕûÌåµÄËðÊ§º¯Êý»ò´ú¼Ûº¯Êý¡£
¾ö²ßÊ÷³£ÓÃµÄ¼ôÖ¦·½·¨ÓÐÁ½ÖÖ£º Ô¤¼ôÖ¦(preª²pruning)ºÍºó¼ôÖ¦(postª²pruning)¡£
1. Ô¤¼ôÖ¦
Ô¤¼ôÖ¦ÊÇÖ¸ÔÚ¹¹½¨¾ö²ßÊ÷µÄÍ¬Ê±½øÐÐ¼ôÖ¦£¬¸ù¾ÝÒ»Ð©¹æÔò¼°ÔçµØÍ£Ö¹Ê÷µÄÔö³¤¡£ËùÎ½ ¡°¹æÔò¡±¿ÉÒÔÊÇÖ¸¶¨µÄÊ÷µÄÉî¶È£¬Ò²¿ÉÒÔÊÇÖ¸¶¨µÄ½áµãÖÐÑù±¾µÄ¸öÊý£¬»¹¿ÉÒÔÊÇ²»´¿¶ÈÖ¸±êÏÂ½µµ½Ä³¸öÖ¸¶¨µÄ·ù¶È¡£ËùÓÐ¾ö²ßÊ÷µÄ¹¹½¨·½·¨¶¼ÊÇÔÚÎÞ·¨½øÒ»²½·ÖÖ¦µÄÇé¿öÏÂ²Å»áÍ£Ö¹´´½¨ÐÂµÄ·ÖÖ¦£¬Ô¤¼ôÖ¦ÔòÍ¨¹ýÉè¶¨Ä³¸ö¡°¹æÔò¡±ÌáÇ°Í£Ö¹·ÖÖ¦¹ý³Ì£¬±ÜÃâ¹ýÄâºÏ¡£
Ô¤¼ôÖ¦µÄºËÐÄÎÊÌâÊÇÈçºÎÊÂÏÈÖ¸¶¨ºÏÊÊµÄ×î´óÉî¶È¡£²»Ç¡µ±µÄ×î´óÉî¶È½«µ¼ÖÂÊ÷µÄÉú³¤ÊÜÏÞ£¬Ê¹¾ö²ßÊ÷µÄ±í´ïÊ½¹æÔòÇ÷ÓÚÒ»°ã»¯£¬Õâ»áÏÞÖÆ¾ö²ßÊ÷¶ÔÐÂÊý¾Ý½øÐÐ·ÖÀàºÍÔ¤²âµÄ×¼È·ÐÔ¡£³ýÁËÊÂÏÈÏÞ¶¨¾ö²ßÊ÷µÄ×î´óÉî¶ÈÍâ£¬»¹ÓÐÁíÍâÒ»¸ö·½·¨¿ÉÒÔÊµÏÖÔ¤¼ôÖ¦²Ù×÷£¬ÄÇ¾ÍÊÇ²ÉÓÃ¼ìÑé¼¼Êõ¶Ôµ±Ç°½áµã¶ÔÓ¦µÄÑù±¾¼¯ºÏ½øÐÐ¼ìÑé£¬Èç¹û¸ÃÑù±¾¼¯ºÏµÄÑù±¾ÊýÁ¿ÒÑÐ¡ÓÚÊÂÏÈÖ¸¶¨µÄ×îÐ¡ÔÊÐíÖµ£¬ÄÇÃ´Í£Ö¹¸Ã½áµãµÄÉú³¤£¬²¢½«¸Ã½áµã±äÎªÒ¶×Ó½áµã¡£
2. ºó¼ôÖ¦
ºó¼ôÖ¦ÊÇÔÚ¾ö²ßÊ÷Éú³¤Íê³ÉÖ®ºó½øÐÐ¼ôÖ¦£¬´Ó¶øµÃµ½¼ò»¯°æµÄ¾ö²ßÊ÷¡£¼ôÖ¦µÄ¹ý³ÌÊÇ¶ÔÓµÓÐÍ¬Ñù¸¸½áµãµÄÒ»×é½áµã½øÐÐ¼ì²é£¬ÅÐ¶ÏÈç¹û½«ÆäºÏ²¢£¬ìØµÄÔö¼ÓÁ¿ÊÇ·ñÐ¡ÓÚÄ³Ò»ãÐÖµ¡£Èç¹ûÐ¡ÓÚÖ¸¶¨ãÐÖµ£¬ÔòÕâÒ»×é½áµã¿ÉÒÔºÏ²¢ÎªÒ»¸ö½áµã¡£ºó¼ôÖ¦ÊÇÄ¿Ç°¸üÎªÆÕ±éÊ¹ÓÃµÄ¼ôÖ¦·½·¨¡£Ä¿Ç°³£¼ûµÄÁ½ÖÖºó¼ôÖ¦¼¼ÊõÈçÏÂËùÊ¾¡£
1) ´íÎóÂÊ½µµÍ¼ôÖ¦(Reducedª²Error Pruning£¬REP)
¸Ã¼ôÖ¦·½·¨¸ù¾Ý´íÎóÂÊ½øÐÐ¼ôÖ¦£¬Èç¹û¾ö²ßÊ÷ÐÞ¼ôÇ°ºó×ÓÊ÷µÄ´íÎóÂÊÃ»ÓÐÏÂ½µ£¬¾Í¿ÉÒÔÈÏÎª¸Ã×ÓÊ÷ÊÇ¿ÉÒÔ±»ÐÞ¼ôµÄ¡£
¶ÔÓÚÍêÈ«¾ö²ßÊ÷ÖÐµÄÃ¿Ò»¸ö·ÇÒ¶×Ó½áµãµÄ×ÓÊ÷£¬³¢ÊÔ×Å°ÑËüÌæ»»³ÉÒ»¸öÒ¶×Ó½áµã£¬¸ÃÒ¶×Ó½áµãµÄÀà±ðÓÃ×ÓÊ÷Ëù¸²¸ÇÑµÁ·Ñù±¾ÖÐ´æÔÚ×î¶àµÄÄÇ¸öÀàÀ´´úÌæ£¬ÕâÑù¾Í²úÉúÁËÒ»¸ö¼ò»¯¾ö²ßÊ÷£¬È»ºó±È½ÏÕâÁ½¸ö¾ö²ßÊ÷ÔÚ²âÊÔÊý¾Ý¼¯ÖÐµÄ±íÏÖ£¬Èç¹û¼ò»¯¾ö²ßÊ÷ÔÚ²âÊÔÊý¾Ý¼¯ÖÐµÄ´íÎó±È½ÏÉÙ£¬ÄÇÃ´¸Ã×ÓÊ÷¾Í¿ÉÒÔÌæ»»³ÉÒ¶×Ó½áµã¡£¸ÃËã·¨ÒÔµ¹ÖÃµÄ·½Ê½±éÀúËùÓÐµÄ×ÓÊ÷£¬Ö±ÖÁÃ»ÓÐÈÎºÎ×ÓÊ÷¿ÉÒÔÌæ»»Ê¹µÃ²âÊÔÊý¾Ý¼¯µÄ±íÏÖµÃÒÔ¸Ä½øÊ±£¬Ëã·¨¾Í¿ÉÒÔÖÕÖ¹¡£
2) ±¯¹Û¼ôÖ¦(Pessimistic Error Pruning£¬PEP)
PEP¼ôÖ¦Ëã·¨ÊÇÔÚC4.5¾ö²ßÊ÷Ëã·¨ÖÐÌá³öµÄ£¬°ÑÒ»¿Å×ÓÊ÷(¾ßÓÐ¶à¸öÒ¶×Ó½áµã)ÓÃÒ»¸öÒ¶×Ó½áµãÀ´Ìæ´úµÄ»°£¬±ÈÆðREP¼ôÖ¦·¨£¬Ëü²»ÐèÒªÒ»¸öµ¥¶ÀµÄ²âÊÔÊý¾Ý¼¯¡£
ºó¼ôÖ¦²Ù×÷ÊÇÒ»¸ö±ßÐÞ¼ô±ß¼ìÑéµÄ¹ý³Ì£¬Ò»°ã¹æÔò±ê×¼ÊÇ£º ÔÚ¾ö²ßÊ÷µÄ²»¶Ï¼ôÖ¦²Ù×÷¹ý³ÌÖÐ£¬½«Ô­Ñù±¾¼¯ºÏ»òÐÂÊý¾Ý¼¯ºÏ×÷Îª²âÊÔÊý¾Ý£¬¼ìÑé¾ö²ßÊ÷¶Ô²âÊÔÊý¾ÝµÄÔ¤²â¾«¶È£¬²¢¼ÆËã³öÏàÓ¦µÄ´íÎóÂÊ£¬Èç¹û¼ôµôÄ³¸ö×ÓÊ÷ºóµÄ¾ö²ßÊ÷¶Ô²âÊÔÊý¾ÝµÄÔ¤²â¾«¶È»òÆäËû²â¶È²»½µµÍ£¬ÄÇÃ´¼ôµô¸Ã×ÓÊ÷¡£
3.6±¾ ÕÂ Ð¡ ½á
¾ö²ßÊ÷Ëã·¨¾ÍÏñ´øÓÐÖÕÖ¹¿éµÄÁ÷³ÌÍ¼£¬Á÷³ÌÍ¼ÖÐµÄÖÕÖ¹¿é¶ÔÓ¦ÓÚ¾ö²ßÊ÷ÖÐµÄÒ¶×Ó½áµã£¬Í¨¹ý¼ÆËãÊý¾Ý¼¯ÖÐÊý¾ÝµÄìØÑ°ÕÒ×îÓÅ·ÖÀà·½°¸¡£Í¨¹ýMatplotlib¹¤¾ß°üµÄ×¢½â¹¦ÄÜ£¬¿ÉÒÔ½«Ê÷½á¹¹×ª±ä³É¸ü¼ÓÖ±¹ÛµÄÊ÷Í¼Ä£Ê½£¬·½±ã¶Ô¾ö²ß¹ý³ÌµÄÀí½â¡£
¾ö²ßÊ÷Ëã·¨ÊÇ»úÆ÷Ñ§Ï°ÖÐ×î¼òµ¥µÄÒ»ÖÖ·ÖÀàËã·¨£¬Ñ§Ï°¾ö²ßÊ÷Ëã·¨¿ÉÒÔÎªÕÆÎÕÆäËûËã·¨×öÆÌµæ¡£
3.7Ï°Ìâ
1. Ìî¿ÕÌâ
(1) ¾ö²ßÊ÷Í¨³£ÓÃÒ»¿ÃµÄÊ÷½á¹¹À´±íÊ¾Êý¾Ý¼äµÄÂß¼­¹ØÏµ£¬»ùÓÚ½øÐÐÅÐ¶Ï£¬½ø¶øµÃµ½·ÖÀà»ò»Ø¹é½á¹û¡£
(2) ÓëK½üÁÚËã·¨Ïà±È£¬¾ö²ßÊ÷Ëã·¨ÖÐµÄÊ¹µÃÊý¾ÝÐÎÊ½·Ç³£ÈÝÒ×Àí½â¡£
(3) ×ÔÐÅÏ¢ÊÇÐÅÏ¢µÄ¶ÈÁ¿µ¥Î»£¬ÓÃÀ´ºâÁ¿µ¥Ò»ÊÂ¼þ·¢ÉúÊ±Ëù°üº¬µÄÐÅÏ¢Á¿¶à¹Ñ£¬ËüµÄµ¥Î»ÊÇ¡£
(4) ÐÅÏ¢ÔöÒæÊÇÖ¸ÒÔÄ³ÌØÕ÷»®·ÖÊý¾Ý¼¯Ç°ºóµÄµÄ²îÖµ¡£
2. Ñ¡ÔñÌâ
(1) ÒÔÏÂÑ¡Ïî²»ÊôÓÚ¾ö²ßÊ÷Ëã·¨µÄÌØµãµÄÊÇ()¡£

A. ÉÆÓÚ´¦ÀíÊýÖµÐÍºÍ±ê³ÆÐÍÊý¾ÝB. ÉÆÓÚ½â¾ö·ÖÀàÎÊÌâ
C. ÉÆÓÚ´¦Àí¾ßÓÐ²»Ïà¹ØÌØÕ÷µÄÊý¾ÝD. ÉÆÓÚ´¦ÀíÊý¾ÝÈ±Ê§µÄÊý¾Ý¼¯
(2) ¸ÅÂÊÔ½Ð¡µÄÊÂ¼þ·¢ÉúºóËù°üº¬µÄ×ÔÐÅÏ¢()£¬¸ÅÂÊÔ½´óµÄÊÂ¼þ·¢ÉúºóËù°üº¬µÄ×ÔÐÅÏ¢()¡£
A. Ô½ÉÙÔ½¶àB. Ô½¶àÔ½ÉÙ
C. Ô½ÉÙÔ½ÉÙD. ×ÔÐÅÏ¢ÓëÊÂ¼þ·¢ÉúµÄ¸ÅÂÊÎÞ¹Ø 
(3) ¸ù¾Ý±¾ÕÂËù½éÉÜµÄÖªÊ¶£¬ÔÚ¾ö²ßÊ÷Ëã·¨ÖÐ£¬¿ÉÒÔÍ¨¹ý()¼ÆËãÊý¾Ý¼¯»ìÂÒ³Ì¶È¡£
A. ×ÔÐÅÏ¢B. »ùÄáÖ¸Êý
C. ÐÅÏ¢ìØD. BºÍC¶¼¶Ô
3. Ë¼¿¼Ìâ
¼òÊö¼ÆËãÐÅÏ¢ÔöÒæÔÚ¾ö²ßÊ÷Ëã·¨ÖÐµÄÒâÒå¡£