µÚ5ÕÂÊý¾ÝÔ¤´¦Àí

¡¾Ñ§Ï°Ä¿±ê¡¿
Ñ§Íê±¾ÕÂÖ®ºó£¬¶ÁÕß½«ÕÆÎÕÒÔÏÂÄÚÈÝ¡£
¤r Êý¾ÝÔ¤´¦ÀíµÄ±ØÒªÐÔºÍÖ÷Òª²½Öè¡£
¤r »ùÓÚPythonµÄÖØ¸´Öµ¡¢È±Ê§ÖµºÍÔëÉùµÄ¼ì²âÓë´¦Àí¡£
¤r »ùÓÚPythonµÄÊý¾ÝÁÐÈßÓàÓëÊý¾ÝÖµ³åÍ»µÄÅÐ¶ÏÓë´¦Àí¡£
¤r »ùÓÚPythonµÄÊôÐÔ×Ó¼¯Ñ¡ÔñºÍ³éÑù·½·¨¡£
¤r »ùÓÚPythonµÄÊý¾ÝºÏ²¢¡¢³éÈ¡ºÍ¼ÆËãµÄÊý¾Ý±ä»»·½·¨¡£

5.1Êý¾ÝÔ¤´¦ÀíµÄ±ØÒªÐÔ
Êý¾Ý·ÖÎöÒÀÀµÓÚÊý¾ÝÖÊÁ¿¡£µÍÖÊÁ¿µÄÊý¾Ý½«µ¼ÖÂµÍÖÊÁ¿µÄ·ÖÎö½á¹û¡£È»¶ø£¬ÕæÊµÊÀ½çÖÐµÄÊý¾ÝÍ¨³£»á´æÔÚ´óÁ¿ÔàÊý¾Ý£¬¼´Êý¾ÝÍ¨³£²»ÍêÕû(ÈçÊôÐÔÖµ¿ÕÈ±µÈ)¡¢²»Ò»ÖÂ(ÈçÏàÍ¬Êý¾ÝÀàÐÍ»òÖµµÈ²»Ò»ÖÂµÈ)¡¢ÊÜÔëÉù(Èç´æÔÚÆ«ÀëÆÚÍûµÄ¹ÂÁ¢µã)ÇÖÈÅ¡£Êý¾ÝÔ¤´¦ÀíÊÇÊý¾Ý·ÖÎö¡¢ÖªÊ¶·¢ÏÖµÄÖØÒª¹ý³Ì¡£Êý¾ÝÔ¤´¦ÀíÊÇÖ¸ÔÚÖ÷ÒªµÄ´¦ÀíÒÔÇ°¶ÔÊý¾Ý½øÐÐµÄÒ»Ð©´¦Àí£¬½«Ô­Ê¼Êý¾Ý×ª»»Îª¿ÉÒÔÀí½â»òÕßÊÊºÏ·ÖÎöµÄÑùÊ½£¬¸Ä½øÊý¾ÝÖÊÁ¿£¬Ìá¸ß·ÖÎöµÄ¾«¶È£¬ÎªÊý¾Ý·ÖÎö×öÆÌµæ¡£
Êý¾ÝÖÊÁ¿Éæ¼°Ðí¶àÒòËØ£¬Èç×¼È·ÐÔ¡¢ÍêÕûÐÔºÍÒ»ÖÂÐÔÊÇÊý¾ÝÖÊÁ¿µÄÈý¸ö»ù±¾ÒªËØ¡£
µ¼ÖÂÊý¾Ý²»ÕýÈ·»ò²»×¼È·µÄÔ­ÒòÓÐ¶àÖÖ¡£ÊÕ¼¯Êý¾ÝµÄÉè±¸¿ÉÄÜ³ö¹ÊÕÏ£» ÔÚÊý¾ÝÊäÈëÊ±³öÏÖÈË»ò¼ÆËã»úµÄ´íÎó£» µ±ÓÃ»§²»Ï£ÍûÌá½»¸öÈËÐÅÏ¢Ê±£¬¿ÉÄÜ¹ÊÒâÏòÇ¿ÖÆÊäÈë×Ö¶ÎÊäÈë²»ÕýÈ·µÄÖµ¡£´íÎóÒ²¿ÉÄÜÔÚÊý¾Ý´«ÊäÖÐ³öÏÖ¡£²»ÕýÈ·µÄÊý¾Ý¿ÉÄÜÊÇÓÉÃüÃûÔ¼¶¨»òËùÓÃµÄÊý¾Ý´úÂë²»Ò»ÖÂ£¬»òÊäÈë×Ö¶ÎµÄ¸ñÊ½²»Ò»ÖÂ¶øµ¼ÖÂµÄ¡£ÀýÈç±í5ª²1£¬Í¬ÑùÊÇ 2021Äê1ÔÂ5ÈÕ, ¿ÉÒÔÓÐºÜ¶àÖÖÊ±¼ä¸ñÊ½¡£ÖØ¸´Ôª×éÒ²ÐèÒªÊý¾ÝÇåÀí¡£


±í5ª²1²»Í¬Ê±¼ä±íÊ¾¸ñÊ½



5th January,2021
2021ª²01ª²05
Jan 5, 2021
01/05/2021
2021.01.05
2021/01/05


µ¼ÖÂÊý¾Ý²»ÍêÕûµÄÔ­ÒòÒ²ÓÐ¶àÖÖ¡£ÓÐÐ©¸ÐÐËÈ¤µÄÊôÐÔ²¢·Ç×ÜÄÜµÃµ½£¬ÈçÑ§ÉúÔ­ÉúÌ¬¼ÒÍ¥µÄ¾«ÉñÇé¿ö»ò²¡Ê·£» ÊäÈëÊ±ÈÏÎªÐÅÏ¢²»ÖØÒª¶øÎ´ÊÕ¼¯£» ÓÉÓÚÀí½â´íÎó£¬»òÕßÒòÎªÉè±¸¹ÊÕÏ¶øµ¼ÖÂµÄÏà¹ØÊý¾ÝÃ»ÓÐ¼ÇÂ¼£» ÓÉÓÚÓëÆäËû¼ÇÂ¼²»Ò»ÖÂ£¬¶øÔì³ÉµÄÊý¾ÝÉ¾³ýµÈ¡£´ËÍâ£¬ÀúÊ·»òÐÞ¸ÄµÄÊý¾Ý¿ÉÄÜ±»ºöÂÔ¡£È±Ê§µÄÊý¾Ý£¬ÌØ±ðÊÇÄ³Ð©ÊôÐÔÁÐÉÏ¾ßÓÐÈ±Ê§ÖµµÄ¼ÇÂ¼£¬¿ÉÄÜÐèÒª½«ÆäÈ±Ê§ÖµÍÆµ¼³öÀ´²¢²¹Æë¡£




Êý¾Ý²»Ò»ÖÂÐÔ£¬ÊÇÖ¸¸÷ÀàÊý¾ÝµÄÃ¬¶ÜÐÔ¡¢²»ÏàÈÝÐÔ¡£Êý¾Ý²»Ò»ÖÂÐÔµÄÔ­ÒòÒ²ÓÐ¶àÖÖ¡£Êý¾ÝÈßÓà£¬ÖØ¸´´æ·ÅµÄÊý¾ÝÎ´ÄÜ½øÐÐÒ»ÖÂÐÔµØ¸üÐÂ¡£ÀýÈç£¬Ñ§ÉúÈëÎéÔì³ÉµÄÑ§Ï°×´Ì¬µ÷Õû£¬¼´Ñ§Éú´¦µÄÑ§Éú×´Ì¬ÒÑ¾­¸ÄÎªÐÝÑ§»òÍËÑ§£¬¶ø½ÌÎñ´¦Î´×öÏàÓ¦¸ü¸Ä£¬²úÉúÃ¬¶ÜµÄ¾Í¶Á×´Ì¬¡£´ËÍâ£¬Èç¹ûÈíÓ²¼þ³öÏÖ¹ÊÕÏ»òÕß²Ù×÷´íÎóµ¼ÖÂÊý¾Ý¶ªÊ§»òÊý¾ÝËð»µ£¬Ò²½«ÒýÆðÊý¾Ý²»Ò»ÖÂ¡£
³ýÁËÉÏÊöÈý¸ö»ù±¾ÒªËØÍâ£¬Êý¾ÝÊ±Ð§ÐÔ(Timeliness)¡¢¿ÉÐÅÐÔ(Believability)¡¢¿É½âÊÍÐÔ(Interpretability)Ò²Í¬ÑùÓ°ÏìÊý¾ÝÖÊÁ¿¡£
Ò»°ãÀ´Ëµ£¬Êý¾ÝÔ¤´¦ÀíµÄÖ÷Òª²½Öè°üÀ¨Êý¾ÝÇåÏ´¡¢Êý¾Ý¼¯³É¡¢Êý¾Ý¹æÔ¼ºÍÊý¾Ý±ä»»£¬ÈçÍ¼5ª²1ËùÊ¾¡£


Í¼5ª²1Êý¾ÝÔ¤´¦Àí²½Öè



¤r Êý¾ÝÇåÏ´Ö÷ÒªÌîÐ´È±Ê§Öµ£¬¹â»¬ÔëÉù£¬Ê¶±ðºÍ´¦ÀíÀëÈºµã£¬½â¾ö²»Ò»ÖÂÐÔÒÔ¡°ÇåÀíÊý¾Ý¡±¡£
¤r Êý¾Ý¼¯³ÉÊÇ°Ñ²»Í¬À´Ô´¡¢¸ñÊ½¡¢ÌØµãÐÔÖÊµÄÊý¾ÝÔÚÂß¼­ÉÏ»òÎïÀíÉÏÓÐ»úµØ¼¯ÖÐ£¬´Ó¶ø¸üÈÝÒ×½øÐÐÊý¾Ý·ÖÎö¡£
¤r Êý¾Ý¹éÔ¼ÊÇÖ¸ÔÚ¾¡¿ÉÄÜ±£³ÖÊý¾ÝÔ­Ã²µÄÇ°ÌáÏÂ£¬×î´óÏÞ¶ÈµØ¾«¼òÊý¾ÝÁ¿£¬ÓÃÌæ´úµÄ¡¢½ÏÐ¡µÄÊý¾Ý±íÊ¾ÐÎÊ½Ìæ»»Ô­Êý¾Ý£¬µÃµ½ÐÅÏ¢ÄÚÈÝµÄËðÊ§×îÐ¡»¯¡£
¤r Êý¾Ý±ä»»ÊÇ¶ÔÊý¾Ý½øÐÐ¹æ·¶»¯´¦Àí£¬½«Êý¾Ý×ª»»³É¡°ÊÊµ±µÄ¡±ÐÎÊ½£¬ÒÔÊÊÓÃ·ÖÎöÈÎÎñ¼°Ëã·¨µÄÐèÒª¡£
ÕâËÄ¸ö´ó²½ÖèÔÚ×öÊý¾ÝÔ¤´¦ÀíÊ±Î´±Ø¶¼ÒªÖ´ÐÐ£¬Ò²²»ÊÇ»¥³âµÄ¡£ÀýÈç£¬ÈßÓàÊý¾ÝµÄÉ¾³ý¼ÈÊÇÒ»ÖÖÊý¾ÝÇåÏ´ÐÎÊ½£¬Ò²ÊÇÒ»ÖÖÊý¾Ý¹éÔ¼¡£
5.2Êý¾ÝÇåÏ´
ÔÚÊý¾Ý·ÖÎöÊ±£¬º£Á¿µÄÔ­Ê¼Êý¾ÝÖÐ´æÔÚ´óÁ¿²»Ò»ÖÂ¡¢²»ÍêÕû¡¢ÓÐÔëÉùµÄÊý¾Ý£¬ÑÏÖØÓ°ÏìÊý¾Ý·ÖÎöµÄ½á¹û¡£ÔÚÔàÊý¾ÝÖ®ÉÏ¼´Ê¹Ê¹ÓÃ×îºÃµÄ·ÖÎö·½·¨£¬Ò²½«²úÉú´íÎó½á¹û£¬²¢Îóµ¼ÒµÎñ±¾Éí¡£Òò´ËÔÚÊý¾Ý·ÖÎö¹ý³ÌÖÐ£¬Êý¾ÝÇåÏ´ÓÈÎªÖØÒª²¢Õ¼¾ÝÁËºÜ´óµÄ¹¤×÷Á¿¡£Êý¾ÝÇåÏ´ÓÖ½ÐÊý¾ÝÇåÀí»òÊý¾Ý¾»»¯£¬ÊÇÊý¾Ý·ÖÎöµÄµÚÒ»²½¡£±¾½Ú½éÉÜµÄÖ÷ÒªÄÚÈÝ°üÀ¨ÖØ¸´Öµ¡¢È±Ê§ÖµºÍÔëÉù¼ì²âÓë´¦Àí¡£
5.2.1ÖØ¸´Öµ¼ì²âÓë´¦Àí
ÔÚÊµ¼ÊµÄÊý¾Ý²É¼¯¡¢´¦ÀíºÍ·ÖÎöÖÐ£¬¾­³£»áÓöµ½ÖØ¸´Êý¾Ý¡£ÖØ¸´Êý¾ÝµÄ²úÉú¿ÉÄÜÊÇÓÉÓÚ¼ÇÂ¼Ê±µÄ´íÎó²Ù×÷£¬Ò²¿ÉÄÜÊÇÕæÊµ´æÔÚµÄÖØ¸´¼ÇÂ¼¡£ÖØ¸´Êý¾ÝÔÚ½øÐÐÊý¾Ý·ÖÎöµÄ¹ý³ÌÖÐ£¬¶ÔÊä³ö½á¹ûÓÐÖØÒªµÄÓ°Ïì¡£ÀýÈç£¬ÔÚÂß¼­»Ø¹é·ÖÎöÖÐ£¬ÖØ¸´Êý¾Ý»áÓ°ÏìÄ£ÐÍµÄÄâºÏÓÅ¶È¡£ÐèÒªËµÃ÷µÄÊÇ£¬ÖØ¸´Êý¾ÝµÄ´¦ÀíÒ²ÊÇÑ¡ÔñÐÔµÄ£¬²¢²»ÊÇËùÓÐÇé¿öÏÂ¶¼Òª×ö¡£
ÒÔÏÂÖ÷Òª½éÉÜ»ùÓÚpandas¿âÖÐµÄº¯Êý½øÐÐÖØ¸´ÖµµÄÊ¶±ðÓë´¦Àí¡£
1. ÖØ¸´Öµ¼ì²â
pandas¿âÖÐµÄduplicated()º¯Êý¿ÉÒÔÊµÏÖ²éÕÒ²¢ÏÔÊ¾Êý¾Ý±íÖÐµÄÖØ¸´Öµ¡£´Ëº¯Êý·µ»ØÒ»¸ö²¼¶ûÐÍµÄSeries£¬ÏÔÊ¾ÊÇ·ñÓÐÖØ¸´ÐÐ£¬Ã»ÓÐÖØ¸´µÄÐÐÏÔÊ¾ÎªFALSE¡£ÆäÓï·¨¸ñÊ½Îª£º 


duplicated(subset=None, keep=¡®first¡¯)



Æä²ÎÊýÃèÊöÈç±í5ª²2ËùÊ¾¡£


±í5ª²2duplicated()º¯ÊýÖ÷Òª²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

subset
ÁÐ±êÇ©»ò±êÇ©ÐòÁÐ£¬¿ÉÑ¡¡£½ö¶ÔÄ³Ð©ÁÐ½øÐÐÖØ¸´Ïî±êÊ¶£¬Ä¬ÈÏÇé¿öÏÂÊ¹ÓÃËùÓÐÁÐ

keep
²éÕÒÖØ¸´ÖµµÄÄ£Ê½¡£

ÓÐÈý¸ö²»Í¬µÄÖµ£¬Ä¬ÈÏÖµÎª¡°first¡±£º 

keep='first'£º ³ýÁËµÚÒ»´Î³öÏÖÍâ£¬ÆäÓàÏàÍ¬µÄÊý¾Ý±»±ê¼ÇÎªÖØ¸´£¬Ä¬ÈÏÖµ¡£

keep='last'£º ³ýÁË×îºóÒ»´Î³öÏÖÍâ£¬ÆäÓàÏàÍ¬µÄÊý¾Ý±»±ê¼ÇÎªÖØ¸´¡£

keep=False£º ËùÓÐÏàÍ¬µÄÊý¾Ý¶¼±»±ê¼ÇÎªÖØ¸´


Ö¸¶¨subset²ÎÊý¿É¿ØÖÆ¼ì²âÖØ¸´ÐÐµÄÁ£¶È¡£µ±subset²»Ö¸¶¨Ê±£¬¼ì²âÊý¾Ý±íÖÐ¼ÇÂ¼ÐÐÊÇ·ñÖØ¸´£¬¼´µ±Á½Ìõ¼ÇÂ¼ÖÐËùÓÐÁÐÊý¾Ý¶¼ÏàµÈÊ±²ÅÅÐ¶ÏÎªÖØ¸´ÐÐ£» µ±subsetÖ¸¶¨ÁËÁÐ±êÇ©»òÁÐ±êÇ©ÐòÁÐÊ±£¬ÔòÖ»ÔÚÖ¸¶¨ÁÐ»òÁÐµÄ×éºÏÉÏµÄËùÓÐÊý¾ÝÖØ¸´²Å±»ÅÐ¶ÏÎªÖØ¸´ÐÐ£¬ÆäÓàÎ´Ö¸¶¨ÁÐ²»¼ì²â¡£
2. É¾³ýÖØ¸´Öµ
Ê¹ÓÃdrop_duplicates()º¯Êý¿ÉÊµÏÖÖØ¸´ÖµÉ¾³ý¡£´Ëº¯Êý·µ»ØÒ»¸öÒÆ³ýÁËÖØ¸´ÐÐµÄÊý¾Ý¿ò¶ÔÏóDataFrame¡£ÆäÓï·¨¸ñÊ½Îª£º 


drop_duplicates (subset=None, keep='first', inplace=False, ignore_index= False)



ÆäÖÐ²ÎÊýÃèÊöÈç±í5ª²3ËùÊ¾¡£


±í5ª²3drop_duplicates()º¯ÊýµÄÖ÷Òª²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

subset
ÁÐ±êÇ©£¬Ä¬ÈÏÎªNone£¬È¥³ýÖØ¸´ÏîÊ±Òª¿¼ÂÇµÄ±êÇ©¡£µ±subset=NoneÊ±ËùÓÐÁÐ¶¼ÏàÍ¬²ÅÈÏÎªÊÇÖØ¸´Ïî

keep
±íÊ¾ÊÇ·ñ±£Áô¡£Ä¬ÈÏÎª¡°first¡±¡£

keep='first'£º È¥ÖØÊ±Ã¿×éÖØ¸´Êý¾Ý±£ÁôµÚÒ»ÌõÊý¾Ý£¬ÆäÓàÊý¾Ý¶ªÆú¡£

keep='last'£º È¥ÖØÊ±Ã¿×éÖØ¸´Êý¾Ý±£Áô×îºóÒ»ÌõÊý¾Ý£¬ÆäÓàÊý¾Ý¶ªÆú¡£

keep=False£º È¥ÖØÊ±Ã¿×éÖØ¸´Êý¾ÝÈ«²¿¶ªÆú£¬²»±£Áô

inplace
²¼¶ûÖµ£¬±íÊ¾Ö±½ÓÔÚÔ­À´Êý¾ÝÉÏÐÞ¸Ä»¹ÊÇ±£ÁôÒ»¸ö¸±±¾£¬Ä¬ÈÏÎªFalse¡£

inplace=False£º È¥ÖØÖ®ºó²»¸²¸ÇÔ­±í¸ñÊý¾Ý¡£

inplace =True£º È¥ÖØÖ®ºóÔ­±í¸ñÊý¾Ý±»¸²¸Ç


Àý5.1Ñ§ÉúÐÅÏ¢Êý¾Ý¡°Ñ§ÉúÊý¾Ý.xlsx¡±ÖÐÓÐËÄÁÐÐÅÏ¢£¬¼´ÐÕÃû£¬ÐÔ±ð£¬³öÉúÈÕÆÚ£¬Ñ§ºÅ£¬ÆäÊý¾ÝÏÔÊ¾ÈçÍ¼5ª²2ËùÊ¾¡£¼ì²éÊÇ·ñ´æÔÚÑ§ÉúÐÅÏ¢ÖØ¸´Â¼ÈëµÄÇé¿ö¡£Èô´æÔÚ£¬Ôò½«ÖØ¸´ÐÅÏ¢É¾³ý¡£



Í¼5ª²2Ñ§ÉúÊý¾ÝÏÔÊ¾





1:from pandas import read_excel

2:df=read_excel(r'C:/case/Ñ§ÉúÊý¾Ý.xlsx') 

3:print('Êý¾Ý¼¯ÊÇ·ñ´æÔÚÖØ¸´¹Û²â: ', df.duplicated())





4:newdf=df.drop_duplicates()

5:print(newdf)





¡¾ÀýÌâ½âÎö¡¿
ÉÏÊö´úÂëÊÇ¶ÔÖØ¸´Öµ½øÐÐÊ¶±ðÓëÉ¾³ý¡£
µÚ1ÐÐ´Ópandas¿âÖÐµ¼Èëread_excel()º¯Êý¡£µÚ2ÐÐÍ¨¹ýread_excel()º¯Êý½«Ñ§ÉúÐÅÏ¢Êý¾Ý¶ÁÈëÊý¾Ý¿òdf¡£µÚ3ÐÐÊ¹ÓÃduplicated()º¯Êý¼ì²âÊý¾ÝÖÐÊÇ·ñ´æÔÚÖØ¸´Öµ£¬Ä¬ÈÏkeep=¡®First¡¯¡£Òò´Ë£¬Êý¾ÝÔÚµÚÒ»´Î³öÏÖÊ±(¼´µÚ0~5ÐÐ)ÏÔÊ¾ÎªFalse£¬µ«ÊÇÔÚµÚ6ÐÐºÍµÚ7ÐÐÔÙ´Î³öÏÖÊ±£¬±»±ê¼ÇÎªÁËTrue£¬¼´ÖØ¸´ÐÐ¡£µÚ4ÐÐÊ¹ÓÃdrop_duplicates()º¯Êý½«³öÏÖÖØ¸´ÖµµÄÐÐÉ¾³ý²¢¸³Öµ¸øÐÂµÄÊý¾Ý¿ò¶ÔÏónewdf¡£µÚ5ÐÐ´òÓ¡²¢ÏÔÊ¾newdfÖÐÊý¾Ý¡£
¡¾ÔËÐÐ½á¹û¡¿
µÚ3ÐÐµÄÊä³ö½á¹û£º 
Êý¾Ý¼¯ÊÇ·ñ´æÔÚÖØ¸´¹Û²â£º 0False
1False
2False
3False
4False
5False
6True
7True
dtype£º bool
µÚ5ÐÐµÄÊä³ö½á¹û£º namegenderbirthnumber
0ÕÅÈýÅ®1993.4.1220161601
1ÀîËÄÄÐ1992.2.15 20161602
2 ÀîÃ÷ÄÐ1994.3.21 20161603
3ÍõÃ·Å®1994.5.24 20161604
4ÕÅÇ¿ÄÐ1996.3.23 20161605
5ÖÜÐÇÐÇÄÐ1998.3.24 20161606
5.2.2È±Ê§Öµ¼ì²âÓë´¦Àí
³ýÁËÖØ¸´ÖµÖ®Íâ£¬ÕæÊµÊÀ½çÖÐµÄÊý¾ÝÒ²´æÔÚÆÕ±éµÄÊý¾ÝÈ±Ê§ÏÖÏó¡£Êý¾Ý¾ßÓÐÈ±Ê§Öµ£¬²¢²»ÒâÎ¶×ÅÊý¾ÝÓÐ´íÎó¡£Êý¾ÝÈ±Ê§µÄÔ­ÒòÓÐºÜ¶à£¬ÀýÈç£¬ÓÉÓÚ¹¤×÷ÈËÔ±µÄÊèºö£¬Ôì³ÉÎÞÒâµÄÊý¾ÝÈ±Ê§£» »òÕßÓÉÓÚÊý¾Ý²É¼¯Æ÷¹ÊÕÏµÈÔ­ÒòÔì³ÉµÄÈ±Ê§£» ±¾ÉíÊý¾Ý²»´æÔÚÔì³ÉµÄÊý¾ÝÈ±Ê§£¬±ÈÈçÒ»¸öÎ´»éÕßµÄÅäÅ¼Ãû×Ö¡¢º¢×ÓµÄÊÕÈë×´¿öµÈ¡£Ã÷È·ÁËÈ±Ê§ÖµÀ´Ô´£¬²ÅÄÜ¶ÔÖ¢ÏÂÒ©¡£
È±Ê§ÖµµÄ¼ì²â¿ÉÒÔÊ¹ÓÃisnull()ÅÐ¶¨¡£isnull()º¯ÊýÎÞ²Î£¬·µ»ØÒ»¸ö²¼¶ûÖµ£¬Èô¸Ã´¦ÖµÈ±Ê§£¬·µ»ØTrue£¬·ñÔò·µ»ØFalse¡£
³£¼ûµÄÈ±Ê§Öµ´¦Àí·½·¨ÓÐÖ±½ÓÉ¾³ý£¬Êý¾ÝÌî²¹ÒÔ¼°²»½øÐÐÈÎºÎ´¦Àí¡£
1. É¾³ýº¬ÓÐÈ±Ê§ÖµµÄÐÐ»òÁÐ
dropna()º¯Êý¿ÉÈ¥³ýÊý¾ÝÖÐÖµÎª¿ÕµÄÊý¾ÝÐÐ»òÁÐ,ÆäÓï·¨¸ñÊ½Îª£º 


dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)


ÆäÖÐÖ÷Òª²ÎÊýÃèÊöÈç±í5ª²4ËùÊ¾¡£


±í5ª²4dropna()º¯ÊýÖ÷Òª²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

axis
axis=0(Ä¬ÈÏÖµ)£º É¾³ý°üº¬È±Ê§Öµ(NaN)µÄÐÐ¡£

axis=1£º É¾³ý°üº¬È±Ê§Öµ(NaN)µÄÁÐ
how
how=¡®any¡¯(Ä¬ÈÏÖµ)£º ÓÐÈ±Ê§Öµ(NaN)¼´É¾³ý¡£

how=¡®all¡¯£º ËùÓÐµÄÖµ¶¼È±Ê§(NaN)²ÅÉ¾³ý
thresh
Èç¹û·ÇÈ±Ê§Öµ(NaN)µÄÊýÁ¿´óÓÚthreshÔò±£Áô
subset
¶¨ÒåÒªÔÚÄÄÐ©ÁÐÖÐ²éÕÒÈ±Ê§Öµ
inplace
ÊÇ·ñÖ±½ÓÔÚÔ­DataFrameÉÏÐÞ¸Ä

Àý5.2ÈçÍ¼5ª²3µÄÑ§Éú³É¼¨¼ÇÂ¼Êý¾Ý°üº¬¾ÅÁÐ£¬·Ö±ðÎª£º Ñ§Äê£¬Ñ§ÆÚ£¬¿¼ÊÔ¿ÆÄ¿£¬¿¼ÊÔÐÔÖÊ£¬Ñ§·Ö£¬³É¼¨£¬°àºÅ£¬Ñ§ºÅ£¬±¸×¢¡£ÆäÖÐ¡°±¸×¢¡±ÊÇÎª¼ÇÂ¼Ñ§ÉúÒì³£×´Ì¬µÄÔ¤ÁôÁÐ£¬Èç¡°ÐÝÑ§¡±¡¢¡°ÍËÑ§¡±µÈ¡£Çë¼ì²éÊý¾Ý¼¯ÖÐÊÇ·ñ´æÔÚÈ±Ê§£¬ÈôÁÐÖÐÈ±Ê§Öµ´óÓÚ100£¬Ö±½Ó½«´ËÁÐÉ¾³ý£» Èô´æÔÚ¿ÕÐÐÒ²½øÐÐÏàÓ¦É¾³ý¡£



Í¼5ª²3Ñ§Éú³É¼¨¼ÇÂ¼.xlsx²¿·ÖÎÄ¼þÏÔÊ¾





1:from openpyxl import load_workbook

2:import pandas as pd

3:records=load_workbook(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼.xlsx')

4:ws = records.active

5:all_value = £Û£Ý

6:for row in ws.values:

7:all_value.append(row)

8:records_1=pd.DataFrame(all_value)

9:records_2= records_1.dropna(axis=1,thresh=100) 

10:print(records_2)

11:records_3=records_1.dropna(how="all")

12:print(records_3)

13:records_3.to_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx',header=False, index=False)


¡¾ÀýÌâ½âÎö¡¿
µÚ1~7ÐÐÊ¹ÓÃÀý4.12ÖÐµÄload_workbook ()º¯Êý¶ÁÈ¡Êý¾Ý¡£µÚ8ÐÐ½«Êý¾Ý´æÈëDataFrame£¬²¢¸³Öµ¸ørecords_1¡£µÚ9ÐÐÀûÓÃdropna()º¯Êý¼ì²âÔÚÁÐµÄ·½ÏòÉÏÈô³öÏÖ100¸öÒÔÉÏNaNÔò½«´ËÁÐÉ¾³ý£¬²¢½«É¾³ýºóµÄÊý¾Ý¸³Öµ¸ørecords_2¡£ÆäÖÐ£¬axis=1±íÊ¾¼ì²éÁÐÖµ£¬thresh=100¶¨Òå½«È±Ê§Öµ³¬¹ý100ÔòÉ¾³ý¡£µÚ10ÐÐÊä³örecords_2¡£Òò´Ë£¬ÔÚÔËÐÐ½á¹ûÖÐ£¬µÚ10ÐÐÊä³ö½á¹ûÉ¾³ýÁË¡°±¸×¢¡±ÁÐ¡£
µÚ11ÐÐdropna()º¯ÊýÉ¾³ýÐÐÈ«¿ÕµÄÖµ£¬¼´ÔÚÐÐµÄ·½ÏòÉÏËùÓÐÖµ¾ùÈ±Ê§(NaN)Ôò½«´ËÐÐÉ¾³ý¡£É¾³ý³öÏÖ¿ÕÖµµÄÐÐ²¢½«Æä½á¹û¸³Öµ¸ørecords_3¡£µÚ12ÐÐÊä³ö´Ë²Ù×÷½á¹û¡£Òò´Ë£¬ÔËÐÐ½á¹ûÖÐÔÚrecords_2µÄ»ù´¡ÉÏÉ¾³ý¿ÕÐÐÊ£Óà7923ÐÐ¡£µÚ13ÐÐ½«ÐÞ¸ÄºóµÄÊý¾Ý´æÈëÑ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsxÖÐ¡£
¡¾ÔËÐÐ½á¹û¡¿
µÚ10ÐÐÊä³ö½á¹û(½ØÈ¡Ò»²¿·ÖÏÔÊ¾)£º
0 1234 5 6 7
0 Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊÑ§·Ö³É¼¨°à¼¶Ñ§ºÅ
1 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 185 B1520151803
2 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 170 B1520151795
3 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 180 B1520151819
4 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 170 B1520151809
 ... ... ... ... ... ... ... ...
79212023 ´º±ÏÒµÊµÏ°Õý³£¿¼ÊÔ 6 100 B1920192365
79222023 ´º±ÏÒµÉè¼ÆÕý³£¿¼ÊÔ1179.9 B1920192365
7923NoneNoneNoneNoneNoneNoneNoneNone
7924NoneNoneNoneNoneNoneNoneNoneNone
7925NoneNoneNoneNoneNoneNoneNoneNone
£Û7926 rows x 8 columns£Ý
µÚ12ÐÐÊä³ö½á¹û(½ØÈ¡Ò»²¿·ÖÏÔÊ¾)£º
 0 1 2 3 4 56 7
0 Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊÑ§·Ö³É¼¨ °à¼¶Ñ§ºÅ
1 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 185B1520151803
2 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 170B1520151795
3 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 180B1520151819
4 2015 Çï ÌåÓý¢ñÕý³£¿¼ÊÔ 170B1520151809
 ...... ... ...... ...... ...
79182023 ´º±ÏÒµÊµÏ°Õý³£¿¼ÊÔ 689.9B1920192341
79192023 ´º±ÏÒµÉè¼ÆÕý³£¿¼ÊÔ1179.9B1920192371
79202023 ´º±ÏÒµÊµÏ°Õý³£¿¼ÊÔ 679.9B1920192371
79212023 ´º±ÏÒµÊµÏ°Õý³£¿¼ÊÔ 6 100B1920192365
79222023 ´º±ÏÒµÉè¼ÆÕý³£¿¼ÊÔ1179.9B1920192365
£Û7923 rows x 8 columns£Ý
½«°üº¬È±Ê§ÖµµÄ¼ÇÂ¼Ö±½ÓÉ¾³ýµÄ·½·¨¼òµ¥£¬ÔÚÊý¾ÝÁ¿·Ç³£´óÇÒÈ±Ê§Öµ²»¶àµÄÇé¿öÏÂÓÐÐ§¡£È»¶ø£¬ÕâÖÖÍ¨¹ý¼õÉÙÀúÊ·Êý¾Ý»»È¡ÍêÕûÐÅÏ¢µÄ·½Ê½£¬¿ÉÄÜÔì³ÉºÜ¶àÒþ²ØµÄÖØÒªÐÅÏ¢¶ªÊ§£» µ±È±Ê§Êý¾Ý±ÈÀý½Ï´ó£¬ÌØ±ðÊÇÈ±Ê§Êý¾Ý·ÇËæ»ú·Ö²¼Ê±£¬Ö±½ÓÉ¾³ý¿ÉÄÜ»áµ¼ÖÂÊý¾Ý·Ö²¼ÌØÕ÷µÄÆ«Àë¡£ÌØ±ðµØ£¬µ±Ñù±¾Á¿±¾Éí²»´óÇÒÈ±Ê§ºÜ¶àÊ±£¬²»½¨ÒéÊ¹ÓÃÖ±½ÓÉ¾³ý¡£
2. Êý¾ÝÌî²¹
³£ÓÃµÄÈ±Ê§ÖµÌî²¹·½·¨°üÀ¨ËÄÖÖ¡£
µÚÒ»ÖÖ£¬ÈË¹¤ÌîÐ´¡£Ò»°ãÀ´Ëµ£¬ÕâÖÖ·½·¨·Ç³£·ÑÊ±¡£µ±Êý¾Ý¼¯ºÜ´ó¡¢È±ÉÙÖµºÜ¶àÊ±£¬¸Ã·½·¨¿ÉÄÜÐÐ²»Í¨¡£
µÚ¶þÖÖ£¬Ê¹ÓÃÒ»¸öÈ«¾Ö³£Á¿Ìî³ä¡£½«¿ÕÈ±µÄÊôÐÔÖµÓÃÒ»¸ö³£ÊýÌæ»»£¬¾¡¹Ü¸Ã·½·¨¼òµ¥£¬µ«ÊÇÈÝÒ×ÈÃ·ÖÎö¹ý³ÌÎóÒÔÎªÐÎ³ÉÁËÒ»¸öÓÐÈ¤µÄ¸ÅÄîºÍÄ£Ê½£¬Òò´Ë²¢²»ÍÆ¼öÊ¹ÓÃ¡£
µÚÈýÖÖ£¬Ê¹ÓÃÊý¾ÝÁÐµÄÖÐÐÄ¶ÈÁ¿(Èç¾ùÖµ¡¢ÖÐÎ»Êý»òÖÚÊý)Ìî³ä¡£¶ÔÓÚ·ÇÊýÖµÊý¾Ý£¬Ê¹ÓÃÖÚÊý(mode)»òÖÐÎ»ÊýÌî²¹£» ¶ÔÓÚÊýÖµÐÍÊý¾Ý£¬Ê¹ÓÃÆ½¾ùÊý(mean)»òÖÐÎ»Êý(median)Ìî²¹¡£Ò»°ãµØ£¬Èç¹ûÌØÕ÷·Ö²¼ÎªÕýÌ¬·Ö²¼Ê±£¬Ê¹ÓÃÆ½¾ùÖµÐ§¹û±È½ÏºÃ£¬¶øµ±·Ö²¼ÓÉÓÚÒì³£Öµ´æÔÚ¶ø²»ÊÇÕýÌ¬·Ö²¼µÄÇé¿öÏÂ£¬Ê¹ÓÃÖÐÎ»ÊýÐ§¹û±È½ÏºÃ¡£
µÚËÄÖÖ£¬Ê¹ÓÃ×îÓÅ¿ÉÄÜµÄÖµÌî³ä¡£¿ÉÒÔÓÃ»Ø¹é¡¢±´Ò¶Ë¹ÐÎÊ½»¯·½·¨µÈ»ùÓÚÍÆÀíµÄ¹¤¾ß»ò¾ö²ßÊ÷¹éÄÉÈ·¶¨¡£
pandas¿âÌá¹©ÁËfillna()º¯ÊýÊµÏÖÊý¾ÝµÄÌî³ä¡£ÆäÓï·¨¸ñÊ½Îª£º 


df.fillna(value=None,method=None,axis=None,inplace=False,limit=None, **kwargs)



ÆäÖÐµÄ³£ÓÃ²ÎÊýÃèÊöÈç±í5ª²5ËùÊ¾¡£


±í5ª²5fillna()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

value
ÓÃÓÚÌî³äÈ±Ê§Öµ£¬»òÕßÖ¸¶¨ÎªÃ¿¸öË÷Òý»òÁÐÊ¹ÓÃSerise/DataFrameµÄÖµ
inplace
inplace=True£º Ö±½ÓÐÞ¸ÄÔ­¶ÔÏó¡£

inplace=False£º ´´½¨Ò»¸ö¸±±¾£¬ÐÞ¸Ä¸±±¾£¬Ô­¶ÔÏó²»±ä(Ä¬ÈÏ)
 method
method=pad/ffill£º ÓÃÇ°Ò»¸ö·ÇÈ±Ê§ÖµÈ¥Ìî³ä¸ÃÈ±Ê§Öµ¡£

method=backfill/bfill£º ÓÃºóÒ»¸ö·ÇÈ±Ê§ÖµÌî³ä¸ÃÈ±Ê§Öµ¡£

Method=None£º Ö¸¶¨Ò»¸öÖµÈ¥Ìæ»»È±Ê§Öµ(Ä¬ÈÏÎªÕâÖÖ·½Ê½)
limit
ÏÞÖÆÌî³ä¸öÊý
axis
ÐÞ¸ÄÌî³ä·½Ïò£¬0´ú±íÐÐ£¬1´ú±íÁÐ

Àý5.3½ÓÀý5.2ÖÐÃûÎª¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±µÄÊý¾Ý¡£ÌáÈ¡¿¼ÊÔ¿ÆÄ¿Îª¡°ÌåÓý¢ò¡±µÄÊý¾Ý£¬½«Æä³É¼¨Ê¹ÓÃ´ËÀà¿Î³Ì³É¼¨µÄÆ½¾ùÊýÌî³äÈ±Ê§Öµ¡£



1:import pandas as pd

2:records= pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:records_2=records£Ûrecords£Û'¿¼ÊÔ¿ÆÄ¿'£Ý=="ÌåÓý¢ò"£Ý





4:records_2£Û'³É¼¨'£Ý= records_2£Û'³É¼¨'£Ý.astype(float).fillna(records_2£Û'³É¼¨'£Ý.mean())

5:print(records_2)

6:records_2.to_excel(r'C:/case/ÌåÓý³É¼¨¼ÇÂ¼(ÌîÈ±Ê§Öµ).xlsx',index=False)


¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐÊ¹ÓÃread_excel()º¯Êý¶ÁÈ¡Ñ§Éú³É¼¨¼ÇÂ¼Êý¾Ý£¬À¨ºÅÄÚÎªÎÄ¼þÂ·¾¶¡£µÚ3ÐÐÌáÈ¡¿¼ÊÔ¿ÆÄ¿Îª¡°ÌåÓý¢ò¡±µÄÊý¾Ý£¬ÃüÃûÎªrecords_2¡£µÚ4ÐÐÏÈ½«Êý¾Ý³É¼¨Ò»ÁÐµÄÊý¾ÝÀàÐÍ×ª»»ÎªfloatÐÍ£¬È»ºó½«³É¼¨ÁÐÖÐ¿ÕÖµÊ¹ÓÃ´ËÁÐµÄÆ½¾ùÊý½øÐÐÌî³ä¡£µÚ5ÐÐ´òÓ¡Ìî³äºóµÄÊý¾ÝÖµ¡£µÚ6ÐÐ½«ÐÞ¸ÄºóµÄÊý¾Ý´æÈëÌåÓý³É¼¨¼ÇÂ¼(ÌîÈ±Ê§Öµ).xlsxÖÐ¡£
¡¾ÔËÐÐ½á¹û¡¿
Ñ§Äê Ñ§ÆÚ ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊ Ñ§·Ö³É¼¨ °à¼¶Ñ§ºÅ
467 2016´ºÌåÓý¢òÕý³£¿¼ÊÔ1.096.0B1520151819
469 2016´ºÌåÓý¢òÕý³£¿¼ÊÔ1.091.0B1520151825
470 2016´ºÌåÓý¢òÕý³£¿¼ÊÔ1.093.0B1520151823
473 2016´ºÌåÓý¢òÕý³£¿¼ÊÔ1.080.0B1520151837
476 2016´ºÌåÓý¢òÕý³£¿¼ÊÔ1.090.0B1520151845
 ... ...... ...... ...... ...
63562020´ºÌåÓý¢òÕý³£¿¼ÊÔ1.069.0B1920192371
63662020´ºÌåÓý¢òÕý³£¿¼ÊÔ1.071.0B1920192391
63762020´ºÌåÓý¢òÕý³£¿¼ÊÔ1.067.0B1920192389
63912020´ºÌåÓý¢òÕý³£¿¼ÊÔ1.083.0B1920192341
64262020´ºÌåÓý¢òÕý³£¿¼ÊÔ1.073.0B1920192365
£Û111 rows x 8 columns£Ý
3. ²»´¦Àí
¿ÕÖµÌî²¹ÊÇÓÃ¹À¼ÆÖµÌî²¹Î´ÖªÖµ£¬²»Ò»¶¨ÍêÈ«·ûºÏ¿Í¹ÛÊÂÊµ¡£ÔÚ¶Ô²»Íê±¸ÐÅÏ¢½øÐÐ²¹Æë´¦ÀíµÄÍ¬Ê±£¬»ò¶à»òÉÙµØ½«¸Ä±äÔ­Ê¼ÐÅÏ¢¡£¶Ô¿ÕÖµ²»ÕýÈ·µÄÌî³äÒ²¿ÉÄÜÒýÈëÐÂµÄÔëÉù£¬Îª·ÖÎö´øÀ´´íÎóµÄ½á¹û¡£Òò´Ë£¬ÔÚÄ³Ð©Çé¿öÏÂ£¬Ï£ÍûÔÚ±£³ÖÔ­Ê¼ÐÅÏ¢²»·¢Éú±ä»¯µÄÇ°ÌáÏÂ¶ÔÊý¾Ý½øÐÐ´¦Àí¡£
5.2.3ÔëÉù¼ì²âÓë´¦Àí
ÔëÉù(Noise)ÊÇÊý¾Ý¼¯ÖÐµÄ¸ÉÈÅÊý¾Ý(¶Ô³¡¾°ÃèÊö²»×¼È·µÄÊý¾Ý)£¬¼´±»²âÁ¿±äÁ¿µÄËæ»úÎó²î»ò·½²î¡£ÔëÉùÊý¾ÝÖÐ´æÔÚ×Å´íÎó»òÒì³££¬Õâ½«¶ÔÊý¾Ý·ÖÎöÔì³É¸ÉÈÅ¡£Ò»°ã¶øÑÔ£¬¹Û²âÖµÊÇÊý¾ÝÕæÊµÖµÓëÔëÉùµÄµþ¼Ó£¬Òò´ËÔëÉùÔÚÊý¾Ý¼¯ÖÐºÜ³£¼û¡£ÔëÉùÔÚÊý¾Ý·ÖÎö(°üÀ¨ÀëÈºµã·ÖÎö)ÖÐ²»ÊÇÁîÈË¸ÐÐËÈ¤µÄ£¬ÐèÒªÔÚÊý¾ÝÔ¤´¦ÀíÖÐÌÞ³ý£¬¼õÉÙ¶ÔºóÐøÄ£ÐÍÔ¤¹ÀµÄÓ°Ïì¡£
³£ÓÃµÄÊý¾ÝÆ½»¬È¥ÔëµÄ¼¼ÊõÓÐ·ÖÏä(Binning)¡¢»Ø¹é(Regression)ºÍÀëÈºµã·ÖÎö(Outlier analysis)¡£
1. ·ÖÏä
·ÖÏä·½·¨Í¨¹ý¿¼²ìÊý¾ÝµÄ½üÁÚ(¼´ÖÜÎ§µÄÖµ)À´¹â»¬ÓÐÐòÊý¾ÝÖµ¡£ÕâÐ©ÓÐÐòµÄÖµ±»·Ö²¼µ½Ò»Ð©Í°»òÏäÖÐ¡£ÓÉÓÚ·ÖÏä·½·¨¿¼²ì½üÁÚµÄÖµ£¬Òò´ËÊÇÊý¾ÝµÄ¾Ö²¿¹â»¬¡£³£ÓÃ·½·¨ÓÐ3ÖÖ£¬¼´°´Ïä¾ùÖµÆ½»¬¡¢°´ÖÐÖµÆ½»¬ºÍ°´±ß½çÖµÆ½»¬£¬ÈçÍ¼5ª²4±íÊ¾¡£
°´Ïä¾ùÖµÆ½»¬ÊÇÓÃÏäÖÐµÄ¾ùÖµÌæ»»ÏäÖÐÃ¿Ò»¸öÖµ¡£ÔÚÍ¼5ª²4µÄÀý×ÓÖÐ£¬ÓÐ9¸ö³É¼¨Öµ£¬Ê×ÏÈ½«³É¼¨°´´óÐ¡ÅÅÐò£¬È»ºó±»»®·Öµ½´óÐ¡Îª3µÄµÈÆµÏäÖÐ(¼´Ã¿¸öÏä°üº¬3¸ö)¡£ÏäÖÐµÄÖµ±»´ËÏäÖÐµÄ¾ùÖµÌæ´ú¡£ÀàËÆµØ£¬°´ÖÐÖµÆ½»¬¼´ÏäÖÐµÄÃ¿Ò»¸öÖµ¶¼±»Ìæ»»Îª¸ÃÏäµÄÖÐÎ»Êý¡£¶ÔÓÚ°´±ß½çÖµÆ½»¬£¬¸ø¶¨ÏäÖÐµÄ×î´óÖµºÍ×îÐ¡ÖµÍ¬Ñù±»ÊÓÎªÏä±ß½ç£¬¶øÏäÖÐµÄÃ¿Ò»¸öÖµ¶¼±»Ìæ»»Îª×î½üµÄ±ß½çÖµ¡£ÀýÈç£¬ÔÚÍ¼5ª²4ÖÐµÄÏä±ß½ç¹â»¬£¬ÒÔÏä1ÎªÀý£¬±ß½çÖµÎª60¡¢77£¬¶ø61¾àÀë60¸ü½ü£¬ÔòÊ¹ÓÃ60´úÌæ¡£Ò»°ã¶øÑÔ£¬¿í¶ÈÔ½´ó£¬¹â»¬Ð§¹ûÔ½Ã÷ÏÔ¡£·ÖÏäÒ²¿ÉÒÔ×÷ÎªÒ»ÖÖÀëÉ¢»¯¼¼ÊõÊ¹ÓÃ¡£


Í¼5ª²4Êý¾Ý¹â»¬µÄ·ÖÏä·½·¨


Àý5.4½ÓÀý5.2ÖÐµÄ¡°ÌåÓý³É¼¨¼ÇÂ¼(ÌîÈ±Ê§Öµ).xlsx¡±µÄÊý¾Ý¡£½«³É¼¨·ÖÎª10¸öÏä£¬²¢¶Ô³É¼¨½øÐÐÏä¾ùÖµ¹â»¬ºÍÏä±ß½ç¹â»¬´¦Àí¡£



1:import pandas as pd

2:import numpy as np

3:def binning(filename,box_num):

4:my_list1=£Û£Ý

5:noise_data = pd.read_excel(filename) 

6:my_list1=sorted(noise_data£Û'³É¼¨'£Ý)

7:box_list=£Û£Ý

8: len_box=int(np.ceil(len(my_list1)/float(box_num)))

9: for i in range(0,10):

10: each_box=my_list1£Ûi*len_box:(i+1)*len_box£Ý

11: box_list.append(each_box)





12: return box_list

13:def box_mean_smooth(box_list):

14: for i in range(0,len(box_list)):

15: box_avg=int(np.average(box_list£Ûi£Ý))

16: for j in range(0,len(box_list£Ûi£Ý)):

17: box_list£Ûi£Ý£Ûj£Ý=box_avg

18:return box_list

19:def box_boundary_smooth(box_list):

20: for i in range(0,len(box_list)):

21: left_bdy=box_list£Ûi£Ý£Û0£Ý

22: right_bdy=box_list£Ûi£Ý£Û-1£Ý

23: for j in range(0,len(box_list£Ûi£Ý)):

24: if abs(box_list£Ûi£Ý£Ûj£Ý-left_bdy)<abs(box_list£Ûi£Ý£Ûj£Ý-right_bdy):

25: box_list£Ûi£Ý£Ûj£Ý=left_bdy

26: else:

27: box_list£Ûi£Ý£Ûj£Ý=right_bdy

28: return box_list

29:filename=''r'C:/case/ÌåÓý³É¼¨¼ÇÂ¼(ÌîÈ±Ê§Öµ).xlsx'''

30:box_list=binning(filename,10)

31:print (box_list)

32:print (box_mean_smooth(box_list))

33:print (box_boundary_smooth(box_list))


¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐ±íÊ¾ÒýÈëpandas¿â£» µÚ2ÐÐÒýÈënumpy¿â¡£
µÚ3~12ÐÐ¶¨ÒåÁËµÈÆµ·ÖÏäº¯Êý£¬ÆäÖÐ²ÎÊýfilename±íÊ¾¶ÁÈ¡ÎÄ¼þÃû£¬²ÎÊýbox_numÊÇ·ÖÏä¸öÊý¡£µÈÆµ·ÖÏäº¯ÊýµÄ»ù±¾Ë¼Â·ÊÇ£º ÏÈ¶ÁÈ¡Êý¾Ý£¬²¢¸ù¾Ý³É¼¨ÁÐ½øÐÐÅÅÐò(µÚ5~6ÐÐ)£» È»ºó·ÖÏä£¬Ã¿ÏäµÄ³¤¶ÈÎª×ÜÌåÊý¾Ý³¤¶È¡ÂÏäÊý£¬¸ù¾ÝÃ¿ÏäµÄ³¤¶È¶ÔÅÅÐòºóµÄÊý¾ÝÇÐ·Ö(µÚ8~12ÐÐ)¡£ÅÅÐòºóµÄ·ÖÏä³É¼¨·ÅÈëbox_listÖÐ·µ»Ø¡£
µÚ13~18ÐÐ¶¨ÒåÏä¾ùÖµ¹â»¬º¯Êý£¬²ÎÊýbox_listÁÐ±í´æ·Å·ÖÏäÊýÖµ¡£¶¨ÒåÏä¾ùÖµ¹â»¬º¯ÊýµÄ»ù±¾Ë¼Â·ÊÇ£º ¶ÔÓÚbox_listÖÐÃ¿·ÖÏäÊý¾Ýbox_list£Ûi£ÝÀûÓÃnp.averageº¯ÊýÇó¾ùÖµ(µÚ14~15ÐÐ)£» È»ºó£¬½«Ã¿·ÖÏäbox_list£Ûi£ÝÖÐÊý¾ÝÓÃ¸ÃÏä¾ùÖµÌæ´ú¡£Õë¶Ô·ÖÏäÖÐµÄÃ¿Ò»¸ö·ÖÏäÊý¾Ýbox_list£Ûi£Ý£¬²ÉÓÃnp.averageº¯ÊýÇó³ö¸Ã·ÖÏä¾ùÖµ²¢¸³Öµ¸øbox_avg(µÚ16~17ÐÐ)¡£
µÚ19~28ÐÐ¶¨ÒåÏä±ß½ç¹â»¬º¯Êý£¬²ÎÊýbox_listÁÐ±í´æ·Å·ÖÏäÊýÖµ¡£¶¨ÒåÏä±ß½ç¹â»¬º¯ÊýÊÇ»ù±¾Ë¼Â·ÊÇ£º Ê×ÏÈ£¬ÕÒµ½Ã¿¸ö·ÖÏäÊý¾Ýbox_list£Ûi£ÝµÄ±ß½çÖµ(µÚ20~22ÐÐ)£¬¼´×î´óÖµright_bdyºÍ×îÐ¡Öµleft_bdy£» È»ºó£¬¼ÆËãÏäÖÐµÄÃ¿¸öÊýÖµ¾àÀëÄÄ¸ö±ß½çÖµ½Ï½ü£¬ÔòÊ¹ÓÃ½Ï½üµÄ±ß½çÖµÌæ´ú(µÚ23~27ÐÐ)¡£
µÚ30~33ÐÐµ÷ÓÃ·ÖÏäº¯Êý¶ÔÊý¾Ý½øÐÐ·ÖÏä´¦Àí£¬´òÓ¡½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
£Û£Û0.0, 49.0, 50.0, 50.0, 50.0, 50.0, 52.0, 60.0, 60.0, 60.0, 60.0, 60.0£Ý,¡­,£Û95.0, 96.0, 96.0£Ý£Ý
£Û£Û50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50£Ý, ¡­ , £Û95, 95, 95£Ý£Ý
£Û£Û50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50, 50£Ý, ¡­ , £Û95, 95, 95£Ý£Ý
2. »Ø¹é
Ò²¿ÉÒÔÓÃÒ»¸öº¯ÊýÄâºÏÊý¾ÝÀ´¹â»¬Êý¾Ý£¬ÕâÖÖ¼¼Êõ³ÆÎª»Ø¹é¡£ÏßÐÔ»Ø¹éÉæ¼°ÕÒ³öÄâºÏÁ½¸öÊôÐÔ(»ò±äÁ¿)µÄ×î¼ÑÖ±Ïß£¬Ê¹µÃÒ»¸öÊôÐÔ¿ÉÒÔÓÃÀ´Ô¤²âÁíÒ»¸ö¡£¶àÔªÏßÐÔ»Ø¹éÊÇÏßÐÔ»Ø¹éµÄÀ©³ä£¬ÆäÖÐÉæ¼°µÄÊôÐÔ¶àÓÚÁ½¸ö£¬²¢ÇÒÊý¾ÝÄâºÏµ½Ò»¸ö¶àÎ¬ÇúÃæ¡£»Ø¹é½«ÔÚµÚ6ÕÂ½øÒ»²½ÌÖÂÛ¡£
3. ÀëÈºµã·ÖÎö
ÓëÔëÉùÈÝÒ×»ìÏýµÄ¸ÅÄîÊÇÀëÈºµã¡£ÀëÈºµãÒ²³ÆÎªÒì³£Öµ£¬ÊÇÄÇÐ©Ô¶Àë¾ø´ó¶àÊýÑù±¾µãµÄÌØÊâÈºÌå¡£ÀëÈºµã¸úÔëÉùÊý¾Ý²»Ò»Ñù¡£ÀëÈºµã±¾ÉíÊôÓÚ¹Û²âÊý¾Ý£¬Í¨³£ÕâÑùµÄÊý¾ÝµãÔÚÊý¾Ý¼¯ÖÐ±íÏÖ³ö²»ºÏÀíµÄÌØÐÔ£¬ÀëÈºµãÏà¶ÔÔëÉùÀ´½²±È½Ïº±¼û¡£
ÀëÈºµãÓÐ¿ÉÄÜÓ°ÏìÊý¾Ý·ÖÎöµÄ½á¹ûºÍ½áÂÛ¡£Òò´Ë£¬ÔÚÊý¾ÝµÄÌ½Ë÷¹ý³ÌÖÐ£¬³£³£ÐèÒª½øÐÐÀëÈºµã·ÖÎö£¬»òÕßÐèÒªÔÚ±¨¸æ½áÂÛÖÐ¶ÔÀëÈºµã½øÐÐÌØ±ðÌÖÂÛ¡£³£ÓÃµÄÀëÈºµã¼ì²âÖ÷ÒªÓÐ3¦ÒÔ­ÔòºÍ»­Í¼·ÖÎö(ÀýÈç£¬ÏäÏßÍ¼»òÉ¢µãÍ¼)£¬Ò²¿ÉÒÔÍ¨¹ýÈç¾ÛÀàÀ´¼ì²âÀëÈºµã¡£
ÕâÀïÖ÷Òª½éÉÜ3¦ÒÔ­Ôò¡£3¦ÒÔ­Ôò£¬ÓÖ½ÐÀ­ÒÀ´ïÔ­Ôò£¬ÊÇÖ¸¼ÙÉèÒ»×é¼ì²âÊý¾ÝÖÐÖ»º¬ÓÐËæ»úÎó²î£¬ÐèÒª¶ÔÆä½øÐÐ¼ÆËãµÃµ½±ê×¼Æ«²î£¬°´Ò»¶¨¸ÅÂÊÈ·¶¨Ò»¸öÇø¼ä£¬¶ÔÓÚ³¬¹ýÕâ¸öÇø¼äµÄÎó²î£¬¾Í²»ÊôÓÚËæ»úÎó²î£¬ÐèÒª½«º¬ÓÐ¸ÃÎó²îµÄÊý¾Ý½øÐÐÌÞ³ý¡£3¦ÒÔ­ÔòÏÂÊý¾ÝµÄÊýÖµ·Ö²¼¼¸ºõÈ«²¿¼¯ÖÐÔÚÇø¼ä(¦Ì-3¦Ò,¦Ì+3¦Ò)ÄÚ£¬³¬³öÕâ¸ö·¶Î§µÄÊý¾Ý½öÕ¼²»µ½0.3%¡£¹Ê¸ù¾ÝÐ¡¸ÅÂÊÔ­Àí£¬¿ÉÒÔÈÏÎª³¬³ö3¦ÒµÄ²¿·ÖÊý¾ÝÎªÒì³£Êý¾Ý¡£
Àý5.5ÀûÓÃ3¦ÒÔ­Ôò£¬¼ì²é¡°Ñ§Éú³É¼¨¼ÇÂ¼.xlsx¡±Êý¾ÝÖÐÊÇ·ñ´æÔÚÒì³£Öµ²¢´òÓ¡¡£



1:import pandas as pd

2:import numpy as np

3:from pandas import read_excel

4:import matplotlib.pyplot as plt 

5:df=read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼.xlsx')

6:ymean=np.mean(df£Û'³É¼¨'£Ý)

7:ystd=np.std(df£Û'³É¼¨'£Ý)

8:threshold1 = ymean - 3* ystd 

9:threshold2 = ymean + 3* ystd

10:outlier = £Û£Ý 

11:for i in range(0, len(df£Û'³É¼¨'£Ý)):

12:if (df.³É¼¨£Ûi£Ý < threshold1)|(df.³É¼¨£Ûi£Ý > threshold2):

13:outlier.append(df.³É¼¨£Ûi£Ý)

14:else:

15:continue

16:print(outlier)





¡¾ÀýÌâ½âÎö¡¿
µÚ1~4ÐÐÒýÈëpandas¿â¡¢numpy¿âºÍread_excelº¯Êý¡£
µÚ5~9ÐÐ¼ÆËã»ñµÃ(¦Ì-3¦Ò,¦Ì+3¦Ò)µÄÇø¼ä¡£ÆäÖÐ£¬µÚ5ÐÐ¶ÁÈëÊý¾Ý¡£µÚ6ÐÐÇó³ö³É¼¨µÄÆ½¾ùÖµ¡£µÚ7ÐÐÇó³ö³É¼¨Êý¾ÝÖµµÄ±ê×¼²î£¬µÚ8ÐÐºÍµÚ9ÐÐ·Ö±ð¼ÆËã¦Ì-3¦ÒºÍ¦Ì+3¦Ò¡£
µÚ10~16ÐÐÊÇ½«Òì³£Öµ±£´æÔÚoutlierÖÐ£¬ÆäÖÐ£¬µÚ10ÐÐ¶¨ÒåÁÐ±íÒâÔÚ½«Òì³£Öµ·ÅÈë¡£µÚ11~15ÐÐ¼ì²â³É¼¨ÁÐÖÐÊýÖµÔÚ(¦Ì-3¦Ò,¦Ì+3¦Ò)Ö®ÍâµÄ³É¼¨Öµ£¬·ÅÈëoutlier¡£µÚ16ÐÐ½«Òì³£Öµ´òÓ¡¡£
´Ó½á¹û·¢ÏÖ£¬Òì³£Öµ°üÀ¨Á½ÖÖ¡£Ò»ÖÖÊÇÈç1000ÕâÑùµÄ³¬¸ßÖµ£¬³É¼¨×î¸ßÎª100£¬ÏÔÈ»1000³¬¹ýÁË³É¼¨µÄ·¶Î§£¬ÁíÒ»ÖÖÊÇÆ«µÍµÄÊýÖµ£¬¼´29ÒÔÏÂµÄ³É¼¨£¬´ËÀàÑ§ÉúÆ«ÀëÆ½¾ùË®Æ½½ÏÔ¶£¬½¨Òé²ÉÈ¡È¡Ïû²¹¿¼×Ê¸ñÖ±½ÓÖØÐÞ¡£

¡¾ÔËÐÐ½á¹û¡¿
£Û22.0,1108.0,19.0,13.0,20.0,0.0,0.0,0.0,11.0,12.0,11.0,0.0,0.0,6.0,¡­,9.0,12.0,21.0,22.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0£Ý
5.3Êý¾Ý¼¯³É
ÔÚºÜ¶àÓ¦ÓÃ³¡ºÏ£¬·ÖÎöÐèÒªºÏ²¢À´×Ô¶à¸ö²»Í¬À´Ô´µÄÊý¾Ý¡£ÓÉÓÚ²»Í¬µÄÊý¾ÝÔ´¶¨Òå±íÃûºÍÁÐÃûÊ±ÃüÃû¹æÔò²»Í¬£¬´æÈëµÄÊý¾Ý¸ñÊ½¡¢È¡Öµ·½Ê½¡¢µ¥Î»¶¼»áÓÐ²»Í¬¡£Òò´Ë£¬Ð¡ÐÄ¼¯³ÉÓÐÖúÓÚ¼õÉÙ½á¹ûÊý¾Ý¼¯µÄÈßÓàºÍ²»Ò»ÖÂ£¬Ìá¸ß·ÖÎö×¼È·ÐÔ¡£Êý¾Ý¼¯³ÉµÄ±¾ÖÊÊÇÕûºÏÊý¾ÝÔ´£¬Òò´Ë¶à¸öÊý¾ÝÔ´ÖÐ×Ö¶ÎµÄÓïÒå²îÒì¡¢½á¹¹²îÒì¡¢×Ö¶Î¼äµÄ¹ØÁª¹ØÏµ£¬ÒÔ¼°Êý¾ÝµÄÈßÓàÖØ¸´£¬¶¼ÊÇÊý¾Ý¼¯³ÉÃæÁÙµÄÎÊÌâ¡£
5.3.1ÊµÌåÊ¶±ðÎÊÌâ
Êý¾Ý¼¯³É½«¶à¸öÊý¾ÝÔ´ÖÐµÄÊý¾ÝºÏ²¢£¬´æ·ÅÔÚÒ»¸öÒ»ÖÂµÄÊý¾Ý´æ´¢ÖÐ¡£ÕâÐ©Êý¾ÝÔ´¿ÉÄÜ°üÀ¨¶à¸öÊý¾Ý¿â»òÒ»°ãÎÄ¼þ¡£ÔÚÊý¾Ý¼¯³ÉÊ±£¬ÓÐÐí¶àÎÊÌâÐèÒª¿¼ÂÇ£¬ÈçÄ£Ê½¼¯³ÉºÍ¶ÔÏóÆ¥Åä¡£À´×Ô¶à¸öÐÅÏ¢Ô´µÄÏÖÊµÊÀ½çµÄµÈ¼ÛÊµÌåÈçºÎ²ÅÄÜ¡°Æ¥Åä¡±£¿ÕâÉæ¼°ÊµÌåÊ¶±ðÎÊÌâ¡£ÀýÈç£¬Êý¾Ý·ÖÎöÕßÒªÈ·¶¨Ò»¸öÊý¾Ý¿âÖÐµÄstudent_idÓëÁíÒ»Êý¾Ý¿âÖÐµÄstud_numberÊÇÍ¬Ò»¸öÊôÐÔ¡¢Ö¸Í¬Ò»¸öÊµÌå¡£
¼¯³ÉÊ±ÐèÒª×¢ÒâÃ¿¸öÊý¾ÝÁÐµÄÔªÊý¾Ý°üÀ¨Ãû×Ö¡¢º¬Òå¡¢Êý¾ÝÀàÐÍºÍÊôÐÔµÄÔÊÐíÈ¡Öµ·¶Î§£¬ÒÔ¼°´¦Àí¿Õ°×¡¢Áã»ò¿ÕÖµ¹æÔòµÈ¡£ÔÚÕûºÏÊý¾ÝÔ´µÄ¹ý³ÌÖÐ,¿ÉÄÜ³öÏÖ£º 
¤r Í¬ÁÐÃûµ«²»Í¬ÓïÒåµÄÇé¿ö£¬ÈçÁ½¸öÊý¾ÝÔ´ÖÐ¶¼ÓÐÒ»¸öÁÐÃû×Ö½Ð¡°³É¼¨¡±,µ«ÆäÊµÒ»¸öÊý¾ÝÔ´ÖÐ¼ÇÂ¼µÄÊÇÎ´¼ÓÆ½Ê±³É¼¨µÄ¿¼ÊÔ³É¼¨,ÁíÒ»¸öÊý¾ÝÔ´ÖÐÊÇ¼ÓÆ½Ê±³É¼¨¡¢¿ÎÌÃ±íÏÖµÈºóµÄ×ÛºÏ³É¼¨¡£
¤r ²»Í¬ÁÐÃûµ«Í¬ÓïÒåµÄÇé¿ö£¬ÈçÁ½¸öÊý¾ÝÔ´¶¼ÓÐÊý¾ÝÁÐ¼ÇÂ¼¼ÓÆ½¾ù³É¼¨ºóµÄ³É¼¨,µ«ÊÇÒ»¸öÊý¾ÝÔ´ÖÐÁÐÃûÎªscore,ÁíÒ»¸öÊý¾ÝÔ´ÖÐÁÐÃûÎªgrade¡£
¤r Í¬ÁÐÃûÍ¬ÓïÒåµ«²»Í¬×Ö¶Î½á¹¹µÄÇé¿ö£¬Í¬Ñù´æ´¢Ñ§Éú³É¼¨×Ö¶Î£¬Ò»¸öÊý¾ÝÔ´´æÎªint£¬ÁíÒ»¸öÊý¾ÝÔ´ÖÐ´æÎªchar¡£
¤r ×Ö¶ÎÈ¡Öµ·¶Î§²»Í¬£¬ÈçÑ§Éú³É¼¨×Ö¶Î£¬Ò»¸öÊý¾ÝÔ´ÖÐÊÇ°Ù·ÖÖÆ£¬ÁíÒ»¸öÊý¾ÝÔ´ÖÐÊÇÊ®·ÖÖÆµÈ¡£
ÎªÁË½â¾öÉÏÊöÎÊÌâ,ÐèÒªÔÚÊý¾Ý¼¯³ÉÇ°,½øÐÐÒµÎñµ÷ÑÐ,È·ÈÏÃ¿¸ö×Ö¶ÎµÄÊµ¼ÊÒâÒå,²»±»Îóµ¼¡£ÁíÍâ£¬ÔÚ¼¯³ÉÆÚ¼ä£¬µ±Ò»¸öÊý¾Ý¼¯µÄÊý¾ÝÁÐÓëÁíÒ»¸öÊý¾Ý¼¯µÄÊý¾ÝÁÐÆ¥ÅäÊ±£¬±ØÐëÌØ±ð×¢ÒâÔ´ÏµÍ³ÖÐµÄº¯ÊýÒÀÀµºÍ²ÎÕÕÔ¼ÊøÓëÄ¿±êÏµÍ³ÖÐµÄÆ¥Åä¡£
5.3.2Êý¾ÝÁÐÈßÓàÎÊÌâ
ÈßÓàÊÇÊý¾Ý¼¯³ÉµÄÁíÒ»¸öÖØÒªÎÊÌâ¡£Ò»¸öÊý¾ÝÁÐ(ÀýÈç£¬ÄêÊÕÈë)Èç¹ûÄÜÓÉÁíÒ»¸ö»òÁíÒ»×éÊý¾ÝÁÐ¡°µ¼³ö¡±£¬ÔòÕâ¸öÊý¾ÝÁÐ¿ÉÄÜÊÇÈßÓàµÄ¡£ÓÐÐ©ÈßÓà¿ÉÒÔ±»Ïà¹Ø·ÖÎö¼ì²âµ½¡£
¸ø¶¨Á½¸öÊý¾ÝÁÐ£¬¸ù¾Ý¿ÉÓÃÊý¾Ý¶ÈÁ¿Ò»¸öÁÐÄÜÔÚ¶à´ó³Ì¶ÈÉÏÔÌº¬ÁíÒ»¸ö¡£¶ÔÓÚÀà±ðÊý¾Ý£¬¿ÉÒÔÊ¹ÓÃ¦Ö2(¿¨·½)¼ìÑé¡£¶ÔÓÚÊýÖµÐÍÊý¾ÝÁÐ£¬Ê¹ÓÃÏà¹ØÏµÊý(Correlation Goefficient)ºÍÐ­·½²î(Govariance)¡£
1. Àà±ðÊý¾ÝµÄ¦Ö2(¿¨·½)¼ìÑé
¶ÔÓÚÀà±ðÊý¾Ý£¬Á½¸öÊý¾ÝÁÐAºÍBÖ®¼äµÄÏà¹ØÁªÏµ¿ÉÒÔÍ¨¹ý¿¨·½¼ìÑé·¢ÏÖ¡£¼ÙÉèAÓÐc¸ö²»Í¬Öµa1,a2,¡­,ac£¬BÓÐr¸ö²»Í¬Öµb1,b2,¡­,br¡£ÓÃAºÍBÃèÊöµÄÊý¾Ý¿ÉÒÔÓÃÒ»¸öÏàÒÀ±íÏÔÊ¾£¬ÆäÖÐAµÄc¸öÖµ¹¹³ÉÁÐ£¬BµÄr¸öÖµ¹¹³ÉÐÐ¡£Áí(Ai, Bj)±íÊ¾ÁÐAÈ¡Öµai¡¢ÁÐBÈ¡ÖµbjµÄÁªºÏÊÂ¼þ£¬¼´(A=ai, B=bj)¡£Ã¿¸ö¿ÉÄÜµÄ(Ai, Bj)ÁªºÏÊÂ¼þ¶¼ÔÚ±íÖÐÓÐ×Ô¼ºµÄµ¥Ôª¡£¦Ö2Öµ(ÓÖ³ÆPearson ¦Ö2Í³¼ÆÁ¿)£¬¿ÉÒÔÓÃ¹«Ê½(5ª²1)¼ÆËã£º 


¦Ö2=¡Æci=1¡Ærj=1(oij-eij)2eij (5ª²1)


ÆäÖÐ£¬oijÊÇÁªºÏÊÂ¼þ(Ai, Bj)µÄ¹Û²âÆµ¶È(¼´Êµ¼Ê¼ÆÊý)£¬¶øeijÊÇ(Ai,Bj)µÄÆÚÍûÆµ¶È£¬¿ÉÒÔÓÃ¹«Ê½(5ª²2)¼ÆËã£º 


eij=count(A=ai)¡Ácount(B=bj)n (5ª²2)


ÆäÖÐ£¬nÊÇÊý¾Ý¼¯´óÐ¡£¬count(A=ai)ÊÇAÉÏ¾ßÓÐÖµaiµÄ¸öÊý£¬¶øcount(B=bj)ÊÇBÉÏ¾ßÓÐÖµbjµÄ¸öÊý¡£Ê½(5ª²1)ÖÐµÄºÍÔÚËùÓÐr¡Ác¸öµ¥ÔªÉÏ¼ÆËã¡£×¢Òâ£¬¶Ô¦Ö2Öµ¹±Ï××î´óµÄµ¥ÔªÊÇÆäÊµ¼Ê¼ÆÊýÓëÆÚÍû¼ÆÊýºÜ²»ÏàÍ¬µÄµ¥Ôª¡£
¦Ö2Í³¼Æ¼ìÑé¼ÙÉèAºÍBÊÇ¶ÀÁ¢µÄ¡£¼ìÑé»ùÓÚÏÔÖøË®Æ½£¬¾ßÓÐ×ÔÓÉ¶È(r-1)¡Á(c-1)¡£Èç¹û¿ÉÒÔ¾Ü¾ø¸Ã¼ÙÉè£¬ÔòËµÃ÷AºÍBÊÇÍ³¼ÆÏà¹ØµÄ¡£
PythonµÄScipy¿âÖÐ°üº¬ÖÚ¶à½øÐÐ¿ÆÑ§¼ÆËã¡¢Í³¼Æ·ÖÎöµÄº¯Êý¡£ScipyÊÇÊÀ½çÉÏÖøÃûµÄPython¿ªÔ´¿ÆÑ§¼ÆËã¿â£¬½¨Á¢ÔÚNumPyÖ®ÉÏ¡£¿ÉÍ¨¹ýScipy¿âÖÐµÄchi2_contingency()º¯Êý½øÐÐ¿¨·½¼ìÑé£¬ÆäÓï·¨¸ñÊ½Îª£º 


chi2_contingency(observed, correction=True, lambda_=None)



ÆäÖÐ³£ÓÃ²ÎÊýÃèÊöÈç±í5ª²6ËùÊ¾£¬·µ»ØÖµÈç±í5ª²7ËùÊ¾¡£


±í5ª²6chi2_contingency()º¯Êý³£ÓÃ²ÎÊýÃèÊö




²ÎÊý
ÃèÊö

observed
ÁÐÁª±í£¬±í°üº¬Ã¿¸öÀà±ðÖÐ¹Û²ìµ½µÄÆµÂÊ(¼´·¢Éú´ÎÊý)¡£ÔÚ¶þÎ¬Çé¿öÏÂ£¬±íÍ¨³£±»ÃèÊöÎª¡°R¡ÁC±í¡±
correction
Èç¹ûÎªTrue£¬²¢ÇÒ×ÔÓÉ¶ÈÎª1£¬ÔòÓ¦ÓÃYatesÐ£ÕýÒÔ±£³ÖÁ¬ÐøÐÔ¡£Ð£ÕýµÄÐ§¹ûÊÇ½«Ã¿¸ö¹Û²ìÖµÏòÏàÓ¦µÄÆÚÍûÖµµ÷Õû0.5
lambda_
float»òstr£¬¿ÉÑ¡¡£Ä¬ÈÏÇé¿öÏÂ£¬´Ë²âÊÔÖÐ¼ÆËãµÄÍ³¼ÆÁ¿ÊÇPearsonµÄ¿¨·½Í³¼ÆÁ¿




±í5ª²7chi2_contingency()º¯Êý·µ»ØÖµÃèÊö



²ÎÊý
ÃèÊö

chi2
float£¬¿¨·½Öµ
p
float£¬pÖµ
dof
int£¬×ÔÓÉ¶È
expected
ndarray£¬Ô¤ÆÚÆµÂÊ£¬»ùÓÚ±íµÄ±ß¼Ê×ÜºÍ


Àý5.6¼ÙÉè´æÔÚÈç±í5ª²8ËùÊ¾ÄÐÅ®Ëù¶ÁÊéÄ¿µÄÀàÐÍÍ³¼Æ¡£¼ìÑéÐÔ±ðÓëÔÄ¶ÁÀà±ðÊÇ·ñÓÐ¹Ø£» ÉèH0£º ÐÔ±ðÓëÔÄ¶ÁÀà±ðÎÞ¹Ø£¬H1£º ÐÔ±ðÓëÔÄ¶ÁÀà±ðÓÐ¹Ø¡£


±í5ª²8ÄÐÅ®ÔÄ¶ÁÖÖÀàÊý¾Ý



ÄÐ
Å®ÄÐ
Å®

Ð¡Ëµ
250
200
·ÇÐ¡Ëµ
50
1000





1:from scipy.stats import chi2_contingency

2:import numpy as np

3:kf_data = np.array(£Û£Û250,200£Ý,£Û50,1000£Ý£Ý)

4:kf = chi2_contingency(kf_data)

5:print('chisq-statistic=%.4f, p-value=%.4f, df=%i expected_frep=%s'%kf)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëscipy.stats¿âµÄchi2_contingency()º¯Êý¡£µÚ2ÐÐÒýÈëNumPy¿â¡£
µÚ3ÐÐÒÔÊý×éµÄÐÎÊ½Ð´ÈëÊý¾Ý£¬ÆäÖÐ£¬±í5ª²8ÖÐµÄÊý¾ÝÒÔÁÐ(»òÐÐ£¬ÎÞÓ°Ïì)Îªµ¥Î»´æÈëÁ½¸öÁÐ±íÖÐ¡£µÚ4ÐÐÊ¹ÓÃchi2_contingency()º¯Êý¶ÔÊý×éÊý¾Ý½øÐÐ¿¨·½¼ìÑé¡£µÚ5ÐÐÊä³ö¿¨·½Öµ£¬pÖµ£¬×ÔÓÉ¶ÈÒÔ¼°ÉÏÊöÊý×éË³ÐòµÄÆÚÍûÖµ¡£
ÒòÎªÆäpª²value½üËÆÓÚ0£¬Òò´Ë¾Ü¾øÁ½Õß¶ÀÁ¢µÄ¼ÙÉè£¬¼´ÐÔ±ðÓëÔÄ¶ÁÀà±ðÏÔÖøÏà¹Ø¡£
¡¾ÔËÐÐ½á¹û¡¿
chisqª²statistic=504.7669, pª²value=0.0000, df=1 expected_frep=£Û£Û 90. 360.£Ý £Û210. 840.£Ý£Ý

2. ÊýÖµÊý¾ÝµÄÏà¹ØÏµÊý
¶ÔÓÚÊýÖµÊý¾Ý£¬¿ÉÒÔÍ¨¹ý¼ÆËãÊý¾ÝÁÐAºÍBµÄÏà¹ØÏµÊý(ÓÖ³ÆPearson»ý¾ØÏµÊý£¬Pearson¡¯s Product Moment Coefficient)£¬¹À¼ÆÕâÁ½¸öÊý¾ÝÁÐµÄÏà¹Ø¶ÈrA,B£¬


rA,B=¡Æni=1(ai-)(bi-)n¦ÒA¦ÒB=¡Æni=1(aibi)-nn¦ÒA¦ÒB (5ª²3)


ÆäÖÐ£¬nÊÇÊý¾Ý¼¯´óÐ¡£¬aiºÍbi·Ö±ðÊÇµÚiÐÐÊý¾ÝÔÚÁÐAºÍÁÐBÉÏµÄÖµ£¬ºÍ·Ö±ðÊÇAºÍBµÄ¾ùÖµ£¬¦ÒAºÍ¦ÒB·Ö±ðÊÇAºÍBµÄ±ê×¼²î£¬¡Æni=1(aibi)ÊÇAB²æ»ýºÍ(¼´ÁÐAÃ¿Ò»¸öÖµ³ËÒÔÁÐB¶ÔÓ¦Î»ÖÃµÄÖµ)¡£ÑÏ¸ñµØËµ£¬PearsonµÄÏà¹ØÐÔÒªÇóÃ¿¸öÊý¾Ý¼¯ÕýÌ¬·Ö²¼¡£ÓëÆäËûÏà¹ØÏµÊýÒ»Ñù£¬´ËÏµÊýÔÚ -1 ºÍ +1 Ö®¼ä±ä»¯(-1¡ÜrA,B¡Ü+1)£¬0±íÊ¾Ã»ÓÐÏà¹ØÐÔ¡£
Èç¹ûrA,B´óÓÚ0£¬ÔòAºÍBÕýÏà¹Ø£¬ÕâÒâÎ¶×ÅAÖµËæ×ÅBÖµµÄÔö¼Ó¶øÔö¼Ó¡£¸ÃÖµÔ½´ó£¬Ïà¹ØÐÔÔ½Ç¿(¼´Ã¿¸öÊôÐÔÔÌº¬ÁíÒ»¸ö¿ÉÄÜÐÔÔ½´ó)¡£Òò´Ë£¬Ò»¸ö½Ï¸ßµÄrA,BÖµ±íÃ÷A(»òB)¿ÉÒÔ×÷ÎªÈßÓàÁÐ¡£Èç¹û¸Ã½á¹ûÖµµÈÓÚ0£¬ÔòAºÍBÊÇ¶ÀÁ¢µÄ£¬²¢ÇÒËüÃÇÖ®¼ä²»´æÔÚÏà¹ØÐÔ¡£Èç¹û¸Ã½á¹ûÖµÐ¡ÓÚ0£¬ÔòAºÍBÊÇ¸ºÏà¹ØµÄ£¬Ò»¸öÖµËæ×ÅÁíÒ»¸ö¼õÉÙ¶øÔö¼Ó¡£ÕâÒâÎ¶×ÅÃ¿Ò»¸öÊôÐÔÁÐ¶¼×èÖ¹ÁíÒ»¸ö³öÏÖ¡£É¢µãÍ¼Ò²¿ÉÒÔÓÃÀ´¹Û²ìÊôÐÔÖ®¼äµÄÏà¹ØÐÔ¡£
StatsÄ£¿éÊÇScipyµÄÍ³¼ÆÄ£¿é£¬ÆäÖÐ°üº¬ºÜ¶àÓÃÓÚÍ³¼Æ¼ìÑéµÄº¯Êý¡£Ê¹ÓÃStatsÄ£¿éµÄpearsonr()º¯Êý¿É¼ÆËãÆ¤¶ûÑ·Ïà¹ØÏµÊýºÍ²âÊÔ·ÇÏà¹ØÐÔµÄpÖµ£¬ÆäÓï·¨¸ñÊ½Îª£º


scipy.stats.pearsonr(x,y)



ÆäÖÐ£¬x¡¢yÎªÊäÈë±äÁ¿µÄÊý×é£¬·µ»ØÆ¤¶ûÑ·Ïà¹ØÏµÊýºÍ²âÊÔ·ÇÏà¹ØÐÔµÄpÖµ¡£
Àý5.7Í¼5ª²5ÖÐ¼ÇÂ¼ÁËÁ½¸ö¹«Ë¾(ALLElectºÍHightech)²»Í¬Ê±¿ÌµÄÃ¿Ö§¹ÉÆ±ÐÅÏ¢µÄµ¥¼ÛÐÅÏ¢£¬ÅÐ¶ÏÁ½Ö§¹ÉÆ±µÄÏà¹ØÐÔ¡£



Í¼5ª²5¹ÉÆ±.xlsx²¿·ÖÊý¾ÝÏÔÊ¾





1:import pandas as pd

2:import scipy.stats as stats

3:df=pd.read_excel(r'C:/case/¹ÉÆ±.xlsx')

4:print(stats.pearsonr(df£Û"ALLElect"£Ý,df£Û"Hightech"£Ý))





¡¾ÀýÌâ½âÎö¡¿
µÚ1~2ÐÐÒýÈëpandas¿âÓëScipy¿âµÄStatsÄ£¿é¡£µÚ3ÐÐ¶ÁÈ¡Êý¾Ý¡£µÚ4ÐÐ´òÓ¡Êý¾ÝÖÐÁ½ÁÐµÄÏà¹ØÏµÊýÒÔ¼°pÖµ¡£
ÒòÎª½á¹ûÖÐALLElect ÓëHightechÁ½ÁÐµÄÏà¹ØÏµÊýÎª0.867£¬p=0.057¡£Òò´Ë£¬ÔÚ90%µÄÖÃÐÅË®Æ½ÉÏ¾Ü¾øÔ­¼ÙÉè£¬¼´Á½¸ö¹«Ë¾¹ÉÆ±³ÊÏÖÏÔÖøÐÔÏà¹Ø¡£
¡¾ÔËÐÐ½á¹û¡¿
(0.8674427949190671, 0.05676876648986295)
3. ÊýÖµÊý¾ÝµÄÐ­·½²î
ÔÚ¸ÅÂÊÂÛºÍÍ³¼ÆÑ§ÖÐ£¬Ð­·½²îºÍ·½²îÊÇÁ½¸öÀàËÆµÄ¶ÈÁ¿£¬ÆÀ¹ÀÁ½¸öÊý¾ÝÁÐÈçºÎÒ»Æð±ä»¯¡£¿¼ÂÇÁ½¸öÊýÖµÁÐA¡¢BºÍn´Î¹Û²âµÄ¼¯ºÏ{(a1,b1),¡­,(an,bn)}¡£AºÍBµÄ¾ùÖµÓÖ·Ö±ð³ÆÎªAºÍBµÄÆÚÍû£¬¼´


E£¨A£©==¡Æni=1ain


ÇÒ


E£¨B£©==¡Æni=1biin


AºÍBµÄÐ­·½²î(covariance)¶¨ÒåÎª


con(A,B)=E((A£­)(B£­))=¡Æni=1(ai£­)(bi£­)n(5ª²4)


Èç¹û°Ñ¹«Ê½(5ª²3)ºÍ¹«Ê½(5ª²4)Ïà±È½Ï£¬Ôò¿ÉÒÔ¿´µ½


rA,B=cov(A,B)¦ÒA¦ÒB(5ª²5)


ÆäÖÐ,¦ÒAºÍ¦ÒB·Ö±ðÊÇAºÍBµÄ±ê×¼²î¡£¿ÉÒÔÖ¤Ã÷


cov(A,B)=E(A¡¤B)£­(5ª²6)


¶ÔÓÚÁ½¸öÇ÷ÏòÓÚÒ»Æð¸Ä±äµÄÊôÐÔÁÐAºÍB£¬Èç¹ûA´óÓÚ£¬ÔòBºÜ¿ÉÄÜ´óÓÚ¡£Òò´Ë£¬AºÍBµÄÐ­·½²îÎªÕý¡£ÁíÍâ£¬Èç¹ûµ±Ò»¸öÊôÐÔÐ¡ÓÚËüµÄÆÚÍûÖµÊ±£¬ÁíÒ»¸öÊôÐÔÇ÷ÏòÓÚ´óÓÚËüµÄÆÚÍûÖµ£¬ÔòAºÍBµÄÐ­·½²îÎª¸º¡£
Èç¹ûAºÍBÊÇ¶ÀÁ¢µÄ(¼´ËüÃÇ²»¾ßÓÐÏà¹ØÐÔ)£¬ÔòE£¨A¡¤B£©=E(A)¡¤E(B)¡£Òò´Ë£¬Ð­·½²îcov£¨A,B£©=E£¨A¡¤B£©-=E£¨A£©¡¤E£¨B£©-=0¡£È»¶ø£¬ÆäÄæ²»³ÉÁ¢¡£Ä³Ð©Ëæ»ú±äÁ¿¶Ô(ÊôÐÔ¶Ô)¿ÉÄÜ¾ßÓÐÐ­·½²î0£¬µ«²»ÊÇ¶ÀÁ¢µÄ¡£½öÔÚÄ³ÖÖ¸½¼ÓµÄ¼ÙÉèÏÂ(ÈçÊý¾Ý×ñÊØ¶àÔªÕýÌ¬·Ö²¼)£¬Ð­·½²î0ÔÌº¬¶ÀÁ¢ÐÔ¡£
PythonÖÐÊ¹ÓÃDataFrame.cov()º¯Êý¼ÆËãÐ­·½²î£¬ÆäÓï·¨¸ñÊ½Îª


DataFrame.cov(£Ûmin_periods£Ý)



¸Ãº¯Êý¼ÆËãÁÐµÄ³É¶ÔÐ­·½²î£¬²»°üÀ¨NA/nullÖµ£¬ÆäÖÐ£¬²ÎÊýmin_periods±íÊ¾Ñù±¾×îÉÙµÄÊý¾ÝÁ¿£¬·µ»ØÖµÎª±íÊ¾Ð­·½²îµÄDataFrame¶ÔÏó¡£
5.3.3Êý¾ÝÖµ³åÍ»ÎÊÌâ
Êý¾Ý¼¯³É»¹Éæ¼°Êý¾ÝÖµ³åÍ»µÄ¼ì²âÓë´¦Àí¡£ÀýÈç£¬¶ÔÓÚÏÖÊµÊÀ½çµÄÍ¬Ò»¶ÔÏó£¬À´×Ô²»Í¬Êý¾ÝÔ´µÄÖµ¿ÉÄÜ²»Í¬¡£Õâ¿ÉÄÜÊÇÒòÎª±íÊ¾¡¢³ß¶È»ò±àÂë²»Í¬¡£ÀýÈç£¬Í¬ÑùÊÇÑ§Éú½ÉÄÉµÄÑ§·ÑÁÐ£¬Êý¾ÝÀàÐÍ¾ùÎªÊýÖµÐÍ£¬µ«ÊÇÒ»¸öÊý¾ÝÔ´ÖÐÊ¹ÓÃ¶ººÅ·Ö¸ô£¬ÁíÒ»¸öÊý¾ÝÔ´ÖÐÓÃ¿ÆÑ§¼ÇÊý·¨¡£ÖØÁ¿ÊôÐÔ¿ÉÄÜÔÚÒ»¸öÏµÍ³ÖÐÒÔ¹«ÖÆµ¥Î»´æ·Å£¬¶øÔÚÁíÒ»¸öÏµÍ³ÖÐÒÔÓ¢ÖÆµ¥Î»´æ·Å¡£²»Í¬Ñ§Ð£½»»»ÐÅÏ¢Ê±£¬Ã¿¸öÑ§Ð£¿ÉÄÜ¶¼ÓÐ×Ô¼ºµÄ¿Î³Ì¼Æ»®ºÍÆÀ·Ö·½°¸¡£Ò»Ëù´óÑ§¿ÉÄÜ²ÉÈ¡Ñ§¼¾ÖÆ£¬¿ªÉè3ÃÅÊý¾Ý¿âÏµÍ³¿Î³Ì£¬ÓÃA+¡«FÆÀ·Ö£» ¶øÁíÒ»Ëù´óÑ§¿ÉÄÜ²ÉÈ¡Ñ§ÆÚÖÆ£¬¿ªÉèÁ½ÃÅÊý¾Ý¿â¿Î³Ì£¬ÓÃ1¡«10ÆÀ·Ö¡£ºÜÄÑÔÚÕâÁ½Ëù´óÑ§Ö®¼äÖ¸¶¨×¼È·µÄ¿Î³Ì³É¼¨±ä»¯¹æÔò£¬ÕâÊ¹µÃÐÅÏ¢½»»»·Ç³£À§ÄÑ¡£
ÁÐÒ²¿ÉÄÜÔÚ²»Í¬µÄ³éÏó²ã£¬ÆäÖÐÁÐÔÚÒ»¸öÏµÍ³ÖÐ¼ÇÂ¼µÄ³éÏó²ã¿ÉÄÜ±ÈÁíÒ»¸öÏµÍ³ÖÐ¡°ÏàÍ¬µÄ¡±ÊôÐÔµÍ¡£ÀýÈç£¬¡°¼®¹á¡±ÔÚÒ»¸öÊý¾Ý¿âÖÐ¿ÉÄÜÌîÐ´µÄÊÇ³ÇÊÐ£¬¶øÁíÒ»¸öÊý¾Ý¿âÖÐÏàÍ¬Ãû×ÖµÄÁÐ¿ÉÄÜ±íÊ¾µÄÊÇÏØ»òÕßÊ¡·ÝµÈ¡£
¶Ô´ýÕâÖÖÎÊÌâ,ÐèÒª¶ÔÊµ¼ÊÒµÎñÖªÊ¶ÓÐÒ»¶¨µÄÀí½â¡£Í¬Ê±,¶ÔÊý¾Ý½øÐÐµ÷ÑÐ,¾¡Á¿Ã÷È·Ôì³É³åÍ»µÄÔ­Òò£¬Èç¹ûÊý¾ÝµÄ³åÍ»ÊµÔÚÎÞ·¨±ÜÃâ,¾ÍÒª¿¼ÂÇ³åÍ»Êý¾ÝÊÇ·ñ¶¼Òª±£Áô,ÊÇ·ñÒª½øÐÐÈ¡Éá,ÈçºÎÈ¡ÉáµÈÎÊÌâ¡£
5.4Êý¾Ý¹æÔ¼
5.4.1²ßÂÔ¸ÅÊö

ÓÃÓÚÊý¾Ý·ÖÎöµÄÊý¾Ý¼¯¿ÉÄÜ·Ç³£´ó¡£µ«ÊÇ£¬ÔÚº£Á¿Êý¾Ý¼¯ÉÏ½øÐÐ¸´ÔÓµÄÊý¾Ý·ÖÎö¿ÉÄÜÐèÒªºÜ³¤µÄÊ±¼ä¡£Êý¾Ý¹æÔ¼²úÉú¸üÐ¡µ«±£³ÖÔ­Êý¾ÝÍêÕûÐÔµÄÊý¾Ý¼¯¡£ÔÚ¹æÔ¼ºóµÄÊý¾Ý¼¯ÉÏ½øÐÐ·ÖÎöºÍÍÚ¾ò½«¸üÓÐÐ§ÂÊ¡£
Êý¾Ý¹æÔ¼²ßÂÔ°üÀ¨Î¬¹æÔ¼¡¢ÊýÁ¿¹æÔ¼ºÍÊý¾ÝÑ¹Ëõ¡£
Î¬¹æÔ¼(Dimensionality Reduction)¼õÉÙËù¿¼ÂÇµÄËæ»ú±äÁ¿»òÊôÐÔµÄ¸öÊý¡£Î¬¹æÔ¼·½·¨°üÀ¨Ð¡²¨±ä»»ºÍÖ÷³É·Ö·ÖÎö·¨£¬ËüÃÇ°ÑÔ­Êý¾Ý±ä»»»òÍ¶Ó°µ½½ÏÐ¡µÄ¿Õ¼ä¡£ÊôÐÔ×Ó¼¯Ñ¡ÔñÊÇÒ»ÖÖÎ¬¹æÔ¼·½·¨£¬ÆäÖÐ²»Ïà¹Ø¡¢ÈõÏà¹Ø»òÈßÓàµÄÊôÐÔ»òÎ¬±»¼ì²âºÍÉ¾³ý¡£
ÊýÁ¿¹æÔ¼(Numerosity Reduction)ÓÃÌæ´úµÄ¡¢½ÏÐ¡µÄÊý¾Ý±íÊ¾ÐÎÊ½Ìæ»»Ô­Êý¾Ý¡£ÕâÐ©¼¼Êõ¿ÉÒÔÊÇ²ÎÊýµÄ»ò·Ç²ÎÊýµÄ¡£¶ÔÓÚ²ÎÊý·½·¨¶øÑÔ£¬Ê¹ÓÃÄ£ÐÍ¹À¼ÆÊý¾Ý£¬Ê¹µÃÒ»°ãÖ»ÐèÒª´æ·ÅÄ£ÐÍ²ÎÊý£¬¶ø²»ÊÇÊµ¼ÊÊý¾Ý(ÀëÈºµã¿ÉÄÜÒ²Òª´æ·Å)¡£»Ø¹éºÍ¶ÔÊýª²ÏßÐÔÄ£ÐÍ¾ÍÊÇÀý×Ó¡£´æ·ÅÊý¾Ý¹æÔ¼±íÊ¾µÄ·Ç²ÎÊý·½·¨°üÀ¨Ö±·½Í¼¡¢¾ÛÀà¡¢³éÑùºÍÊý¾ÝÁ¢·½Ìå¾Û¼¯¡£
Êý¾ÝÑ¹Ëõ(Data Compression)Ê¹ÓÃ±ä»»£¬ÒÔ±ãµÃµ½Ô­Êý¾ÝµÄ¹æÔ¼»ò¡°Ñ¹Ëõ¡±±íÊ¾¡£Èç¹ûÔ­Êý¾ÝÄÜ¹»´ÓÑ¹ËõºóµÄÊý¾ÝÖØ¹¹£¬¶ø²»ËðÊ§ÐÅÏ¢£¬Ôò¸ÃÊý¾Ý¹æÔ¼³ÆÎªÎÞËðµÄ¡£Èç¹ûÖ»ÄÜ½üËÆÖØ¹¹Ô­Êý¾Ý£¬Ôò¸ÃÊý¾Ý¹æÔ¼³ÆÎªÓÐËðµÄ¡£¶ÔÓÚ´®Ñ¹Ëõ£¬ÓÐÒ»Ð©ÎÞËðÑ¹ËõËã·¨¡£È»¶ø£¬ËüÃÇÒ»°ãÖ»ÔÊÐíÓÐÏÞµÄÊý¾Ý²Ù×÷¡£Î¬¹æÔ¼ºÍÊýÁ¿¹æÔ¼Ò²¿ÉÒÔÊÓÎªÄ³ÖÖÐÎÊ½µÄÊý¾ÝÑ¹Ëõ¡£
5.4.2ÊôÐÔ×Ó¼¯Ñ¡Ôñ
ÊôÐÔ×Ó¼¯Ñ¡ÔñÊôÓÚÎ¬¹æÔ¼·½·¨ÖÐµÄÒ»ÖÖ¡£ÓÃÓÚ·ÖÎöµÄÊý¾Ý¼¯¿ÉÄÜ°üº¬ÊýÒÔ°Ù¼ÆµÄÊôÐÔ£¬ÆäÖÐ´ó²¿·ÖÊôÐÔ¿ÉÄÜÓë·ÖÎöÈÎÎñ²»Ïà¹Ø£¬»òÕßÊÇÈßÓàµÄ¡£ÀýÈç£¬Èç¹û·ÖÎöÈÎÎñÊÇ¡°Ñ§ÉúÑ¡Ôñ¡®PythonÊý¾Ý·ÖÎö¡¯ÕâÃÅ¿Î³ÌµÄÓ°ÏìÒòËØ·ÖÎö¡±£¬Óë¡°×¨Òµ¡±ºÍ¡°Ñ¡ÐÞ¿Î¡±²»Í¬£¬ÖîÈçÑ§ÉúµÄµç»°ºÅÂëµÈÊôÐÔ¶à°ëÊÇ²»Ïà¹ØµÄ¡£¾¡¹ÜÁìÓò×¨¼Ò¿ÉÒÔÌôÑ¡³öÓÐÓÃµÄÊôÐÔ£¬µ«Õâ¿ÉÄÜÊÇÒ»ÏîÀ§ÄÑ¶ø·ÑÊ±µÄÈÎÎñ£¬ÌØ±ðÊÇµ±Êý¾ÝµÄÐÐÎª²»ÊÇÊ®·ÖÇå³þµÄÊ±ºò¸üÊÇÈç´Ë¡£ÒÅÂ©Ïà¹ØÊôÐÔ»òÁôÏÂ²»Ïà¹ØÊôÐÔ¶¼¿ÉÄÜÊÇÓÐº¦µÄ£¬»áµ¼ÖÂËùÓÃµÄ·ÖÎöºÍÍÚ¾ò·½·¨ÎÞËùÊÊ´Ó¡£Õâ¿ÉÄÜµ¼ÖÂ·¢ÏÖÖÊÁ¿ºÜ²îµÄÄ£Ê½¡£´ËÍâ£¬²»Ïà¹Ø»òÈßÓàµÄÊôÐÔÔö¼ÓÁËÊý¾ÝÁ¿£¬¿ÉÄÜ»á¼õÂý·ÖÎö½ø³Ì¡£
ÊôÐÔ×Ó¼¯Ñ¡ÔñÍ¨¹ýÉ¾³ý²»Ïà¹Ø»òÈßÓàµÄÊôÐÔ(»òÎ¬)¼õÉÙÊý¾ÝÁ¿¡£ÊôÐÔ×Ó¼¯Ñ¡ÔñµÄÄ¿±êÊÇÕÒ³öÊôÐÔ×îÐ¡ÊôÐÔ¼¯£¬Ê¹µÃÊý¾ÝÄÚµÄ¸ÅÂÊ·Ö²¼¾¡¿ÉÄÜµØ½Ó½üÊ¹ÓÃËùÓÐÊôÐÔµÃµ½µÄÔ­·Ö²¼¡£ÔÚËõÐ¡µÄÊôÐÔ¼¯ÉÏ·ÖÎöºÍÍÚ¾ò»¹ÓÐÆäËûµÄÓÅµã£º Ëü¼õÉÙÁË³öÏÖÔÚ·¢ÏÖÄ£Ê½ÉÏµÄÊôÐÔÊýÄ¿£¬Ê¹µÃÄ£Ê½¸üÈÝÒ×Àí½â¡£
ÈçºÎÕÒ³öÔ­ÊôÐÔµÄÒ»¸ö¡°ºÃµÄ¡±×Ó¼¯£¿¶ÔÓÚn¸öÊôÐÔ£¬ÓÐ2n¸ö¿ÉÄÜµÄ×Ó¼¯¡£Çî¾ÙËÑË÷ÕÒ³öÊôÐÔµÄ×î¼Ñ×Ó¼¯¿ÉÄÜÊÇ²»ÏÖÊµµÄ£¬ÌØ±ðÊÇµ±nºÍÊý¾Ý¼¯µÄÊýÄ¿Ôö¼ÓÊ±¡£Òò´Ë£¬ÊôÐÔ×Ó¼¯Ñ¡ÔñÍ¨³£Ê¹ÓÃÑ¹ËõËÑË÷¿Õ¼äµÄÆô·¢Ê½Ëã·¨¡£Í¨³££¬ÕâÐ©·½·¨ÊÇµäÐÍµÄÌ°ÐÄËã·¨£¬ÔÚËÑË÷ÊôÐÔ¿Õ¼äÊ±£¬×ÜÊÇ×ö¿´ÉÏÈ¥×î¼ÑµÄÑ¡Ôñ¡£ËûÃÇµÄ²ßÂÔÊÇ×ö¾Ö²¿×îÓÅÑ¡Ôñ£¬ÆÚÍûÓÉ´Ëµ¼ÖÂÈ«¾Ö×îÓÅ½â¡£ÔÚÊµ¼ùÖÐ£¬ÕâÖÖÌ°ÐÄ·½·¨ÊÇÓÐÐ§µÄ£¬²¢¿ÉÒÔ±Æ½ü×îÓÅ½â¡£
¡°×îºÃµÄ¡±(ºÍ¡°×î²îµÄ¡±)ÊôÐÔÍ¨³£Ê¹ÓÃÍ³¼ÆÏÔÖøÐÔ¼ìÑéÀ´È·¶¨¡£ÕâÖÖ¼ìÑé¼Ù¶¨ÊôÐÔÊÇÏà»¥¶ÀÁ¢µÄ¡£Ò²¿ÉÒÔÊ¹ÓÃÒ»Ð©ÆäËûÊôÐÔÆÀ¹À¶ÈÁ¿£¬Èç½¨Á¢·ÖÀà¾ö²ßÊ÷Ê¹ÓÃµÄÐÅÏ¢ÔöÒæ¶ÈÁ¿¡£ÊôÐÔ×Ó¼¯Ñ¡ÔñµÄ»ù±¾Æô·¢Ê½·½·¨°üÀ¨ÒÔÏÂ¼¼Êõ£¬ÈçÍ¼5ª²6ËùÊ¾¡£


Í¼5ª²6ÊôÐÔ×Ó¼¯Ñ¡ÔñµÄÌ°ÐÄ(Æô·¢Ê½)·½·¨



(1) Öð²½ÏòÇ°Ñ¡Ôñ£º ¸Ã¹ý³ÌÓÉ¿ÕÊôÐÔ¼¯×÷Îª¹éÔ¼¼¯¿ªÊ¼£¬È·¶¨Ô­ÊôÐÔ¼¯ÖÐ×îºÃµÄÊôÐÔ£¬²¢½«ËüÌí¼Óµ½¹éÔ¼¼¯ÖÐ¡£ÔÚÆäºóµÄÃ¿Ò»´Îµü´ú£¬½«Ê£ÏÂµÄÔ­ÊôÐÔ¼¯ÖÐµÄ×îºÃÊôÐÔÌí¼Óµ½¸Ã¼¯ºÏÖÐ¡£
(2) Öð²½ÏòºóÉ¾³ý£º ¸Ã¹ý³ÌÓÉÕû¸öÊôÐÔ¼¯¿ªÊ¼¡£ÔÚÃ¿Ò»²½ÖÐ£¬É¾³ýÉÐÔÚÊôÐÔ¼¯ÖÐ×î²îµÄÊôÐÔ¡£
(3) Öð²½ÏòÇ°Ñ¡ÔñºÍÖð²½ÏòºóÉ¾³ýµÄ×éºÏ£º ¿ÉÒÔ½«Öð²½ÏòÇ°Ñ¡ÔñºÍÖð²½ÏòºóÉ¾³ý·½·¨½áºÏÔÚÒ»Æð£¬Ã¿Ò»²½Ñ¡ÔñÒ»¸ö×îºÃµÄÊôÐÔ£¬²¢ÔÚÊ£ÓàÊôÐÔÖÐÉ¾³ýÒ»¸ö×î²îµÄÊôÐÔ¡£
(4) ¾ö²ßÊ÷¹éÄÉ£º ¾ö²ßÊ÷Ëã·¨(ÀýÈçID3¡¢C4.5ºÍCART)×î³õÊÇÓÃÓÚ·ÖÀàµÄ¡£¾ö²ßÊ÷¹éÄÉ¹¹ÔìÒ»¸öÀàËÆÓÚÁ÷³ÌÍ¼µÄ½á¹¹£¬ÆäÖÐÃ¿¸öÄÚ²¿(·ÇÊ÷Ò¶)½áµã±íÊ¾Ò»¸öÊôÐÔÉÏµÄ²âÊÔ£¬Ã¿¸ö·ÖÖ¦¶ÔÓ¦ÓÚ²âÊÔµÄÒ»¸ö½á¹û£» Ã¿¸öÍâ²¿(Ê÷Ò¶)½áµã±íÊ¾Ò»¸öÀàÔ¤²â¡£ÔÚÃ¿¸ö½áµãÉÏ£¬Ëã·¨Ñ¡Ôñ¡°×îºÃ¡±µÄÊôÐÔ£¬½«Êý¾Ý»®·Ö³ÉÀà¡£
µ±¾ö²ßÊ÷¹éÄÉÓÃÓÚÊôÐÔ×Ó¼¯Ñ¡ÔñÊ±£¬ÓÉ¸ø¶¨µÄÊý¾Ý¹¹Ôì¾ö²ßÊ÷¡£²»³öÏÖÔÚÊ÷ÖÐµÄËùÓÐÊôÐÔ¼Ù¶¨ÊÇ²»Ïà¹ØµÄ¡£³öÏÖÔÚÊ÷ÖÐµÄÊôÐÔÐÎ³É¹éÔ¼ºóµÄÊôÐÔ×Ó¼¯¡£

ÕâÐ©·½·¨µÄ½áÊøÌõ¼þ¿ÉÒÔ²»Í¬¡£¸Ã¹ý³Ì¿ÉÒÔÊ¹ÓÃÒ»¸ö¶ÈÁ¿ãÐÖµÀ´¾ö¶¨ºÎÊ±Í£Ö¹ÊôÐÔÑ¡Ôñ¹ý³Ì¡£
5.4.3³éÑù
³éÑù¿ÉÒÔ×÷ÎªÒ»ÖÖÊý¾Ý¹éÔ¼¼¼ÊõÊ¹ÓÃ£¬ÒòÎªËüÔÊÐíÓÃ±ÈÊý¾ÝÐ¡µÃ¶àµÄËæ»úÑù±¾(×Ó¼¯)±íÊ¾´óÐÍÊý¾Ý¼¯¡£¼Ù¶¨´óÐÍÊý¾Ý¼¯D°üº¬N¸öÔª×é¡£¿ÉÒÔÓÃÓÚÊý¾Ý¹éÔ¼µÄ¡¢×î³£ÓÃµÄ¶ÔDµÄ³éÑù·½·¨°üÀ¨£º 
s¸öÑù±¾µÄÎÞ·Å»Ø¼òµ¥Ëæ»ú³éÑù£º ´ÓDÖÐ³éÈ¡s¸öÑù±¾£¬¶øÇÒÃ¿´Î³éÈ¡Ò»¸öÑù±¾£¬²»·Å»ØÊý¾Ý¼¯DÖÐ¡£
s¸öÑù±¾µÄÓÐ·Å»Ø¼òµ¥Ëæ»ú³éÑù£º ¸Ã·½·¨ÀàËÆÓÚÎÞ·Å»Ø¼òµ¥Ëæ»ú³éÑù£¬²»Í¬Ö®´¦ÔÚÓÚµ±Ò»¸öÑù±¾´ÓDÖÐ³éÈ¡ºó£¬¼ÇÂ¼Ëü£¬È»ºó·Å»ØÔ­´¦¡£Ò²¾ÍÊÇËµ£¬Ò»¸öÑù±¾±»³éÈ¡ºó£¬ËüÓÖ±»·Å»ØD£¬ÒÔ±ãËü¿ÉÒÔ±»ÔÙ´Î³éÈ¡¡£
´Ø³éÑù£º Èç¹ûDÖÐµÄÑù±¾±»·Ö×é£¬·ÅÈëM¸ö»¥²»Ïà½»µÄ¡°´Ø¡±£¬Ôò¿ÉÒÔµÃµ½s¸ö´ØµÄ¼òµ¥Ëæ»ú³éÑù(SRS)£¬ÆäÖÐs<M¡£ÀýÈç£¬ÔÚ¿Õ¼äÊý¾Ý¿âÖÐ£¬¿ÉÒÔ»ùÓÚ²»Í¬ÇøÓòÎ»ÖÃÉÏµÄÁÚ½ü³Ì¶È¶¨Òå´Ø¡£
·Ö²ã³éÑù£º Èç¹ûD±»»®·Ö³É»¥²»Ïà½»µÄ²¿·Ö£¬³Æ×÷¡°²ã¡±£¬ÔòÍ¨¹ý¶ÔÃ¿Ò»²ãµÄSRS¾Í¿ÉÒÔµÃµ½DµÄ·Ö²ã³éÑù¡£ÌØ±ðÊÇµ±Êý¾ÝÇãÐ±Ê±£¬Õâ¿ÉÒÔ°ïÖúÈ·±£Ñù±¾µÄ´ú±íÐÔ¡£ÀýÈç£¬¿ÉÒÔµÃµ½¹ØÓÚ¹Ë¿ÍÊý¾ÝµÄÒ»¸ö·Ö²ã³éÑù£¬ÆäÖÐ£¬·Ö²ã¶Ô¹Ë¿ÍµÄÃ¿¸öÄêÁä×é´´½¨¡£ÕâÑù£¬¾ßÓÐµÄ¹Ë¿ÍÈËÊý×îÉÙµÄÄêÁä×é¿Ï¶¨ÄÜ¹»±»´ú±í¡£
´Ø³éÑùÓë·Ö²ã³éÑùµÄÇø±ðÊÇ£º ·Ö²ãÊÇÎªÁË±£Ö¤µÃµ½µÄÑù±¾¿ÉÒÔ´ú±í×ÜÌåÖÐµÄ²»Í¬ÈºÌå£¬²¢ÇÒÃ¿²ãÖÐµÄÑù±¾¶¼ÊÇËæ»ú³éÈ¡µÄ£¬ÕâÑù¾Í½µµÍÁËÑù±¾Ö®¼äµÄ±äÒìÐÔ¡£²ãÄÚµÄ¸öÌåÊÇÍ¬ÖÊµÄ£¬µ«²ãÓë²ãÖ®¼äÊÇ»¥²»ÏàÍ¬µÄ¡£¶ø´Ø³éÑùÖÐµÄ´Ø×ÜÊÇ»ò¶à»òÉÙµØÏàËÆ£¬µ«Ã¿¸ö´Ø¶¼ÊÇÒìÖÊµÄ¡£±»Ñ¡ÔñµÄ´Ø¡°È«²¿¡±ÌáÈ¡¡£
²ÉÓÃ³éÑù½øÐÐÊý¾Ý¹æÔ¼µÄÓÅµãÊÇ£¬µÃµ½µÄÑù±¾»¨·ÑÕý±ÈÀýÓÚÑù±¾¼¯µÄ´óÐ¡s£¬¶ø²»ÊÇÊý¾Ý¼¯µÄ´óÐ¡N¡£ÓÃÓÚÊý¾Ý¹æÔ¼Ê±£¬³éÑù×î³£ÓÃÀ´¹À¼Æ¾Û¼¯²éÑ¯µÄ»Ø´ð¡£ÔÚÖ¸¶¨µÄÎó²î·¶Î§ÄÚ£¬¿ÉÒÔÈ·¶¨(Ê¹ÓÃÖÐÐÄ¼«ÏÞ¶¨Àí)¹À¼ÆÒ»¸ö¸ø¶¨µÄº¯ÊýËùÐèµÄÑù±¾´óÐ¡¡£Ñù±¾µÄ´óÐ¡sÏà¶ÔÓÚN¿ÉÄÜ·Ç³£Ð¡¡£¶ÔÓÚ¹æÔ¼Êý¾ÝµÄÖð²½Çó¾«£¬³éÑùÊÇÒ»ÖÖ×ÔÈ»Ñ¡Ôñ¡£Í¨¹ý¼òµ¥µØÔö¼ÓÑù±¾´óÐ¡£¬ÕâÑùµÄ¼¯ºÏ¿ÉÒÔ½øÒ»²½Çó¾«¡£
ÔÚPythonÖÐ¿ÉÒÔÊ¹ÓÃDataFrame.sample()Ëæ»ú³éÑù,ÓÃÓÚ´ÓDataFrameÖÐËæ»úÑ¡ÔñÐÐºÍÁÐ¡£²ÎÊýreplace¿ØÖÆÊÇÓÐ·Å»Ø³éÑù£¬»¹ÊÇÎÞ·Å»Ø³éÑù¡£ÆäÓï·¨¸ñÊ½Îª£º 


DataFrame.sample(n=None,frac=None,replace=False,weights=None,random_state=None,axis=None)


¸Ãº¯ÊýÊµÏÖ´Ó¶ÔÏóÖá·µ»ØÒ»¸öËæ»úÑù±¾¡£²ÎÊýÃèÊöÈç±í5ª²9ËùÊ¾¡£


±í5ª²9DataFrame.sample()µÄ²ÎÊýÃèÊö




²ÎÊý
ÃèÊö

n
int£¬¿ÉÑ¡²ÎÊý,±íÊ¾³éÈ¡µÄÐÐÊý
frac
float£¬¿ÉÑ¡²ÎÊý£¬±íÊ¾³éÈ¡µÄ±ÈÀý£¬ÐèÎªÐ¡ÊýÖµ¡£ÀýÈç£¬Ëæ»ú³éÈ¡30%µÄÊý¾Ý£¬ÔòÉèÖÃfrac=0.3¡£²»ÄÜÓënÒ»ÆðÊ¹ÓÃ
replace
bool£¬Ä¬ÈÏÎª False¡£±íÊ¾ÔÊÐí»ò²»ÔÊÐí¶à´Î²ÉÑùÍ¬Ò»ÐÐ¡£False±íÊ¾²»ÔÊÐí¶à´Î²ÉÑùÍ¬Ò»ÐÐ¡£¼´False±íÊ¾ÎÞ·Å»ØÈ¡Ñù£¬True±íÊ¾ÓÐ·Å»ØÈ¡Ñù
weights
str»òndarrayª²like£¬¿ÉÑ¡²ÎÊý¡£Ä¬ÈÏÎªNone¼´µÈ¸ÅÂÊ¼ÓÈ¨
random_state
int, arrayª²like, BitGenerator, np.random.RandomState,¿ÉÑ¡²ÎÊý£¬Ëæ»úÖÖ×Ó£¬±¾ÖÊÊÇÒ»¸ö¿ØÖÆÆ÷£¬ÉèÖÃ´ËÖµÎªÈÎÒâÊµÊý£¬ÔòÃ¿´ÎËæ»úµÄ½á¹ûÊÇÒ»ÑùµÄ
axis
0»ò ¡®index¡¯, 1»ò ¡®columns¡¯, None, Ä¬ÈÏÎª None¡£±íÊ¾³éÈ¡Êý¾ÝµÄÐÐ»¹ÊÇÁÐ£¬axis=0Ê±ÊÇ³éÈ¡ÐÐ£¬axis=1Ê±ÊÇ³éÈ¡ÁÐ


Àý5.8´Ó¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±µÄÊý¾ÝËæ»úÎÞ·Å»Ø³éÈ¡10ÌõÊý¾Ý¡£



1: import pandas as pd

2:df= pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:print(pd.DataFrame.sample(df,n=10,replace=False,axis=0))





¡¾ÀýÌâ½âÎö¡¿
´ËÀýÌâÏÔÊ¾ÁËÎÞ·Å»ØËæ»ú³éÑùµÄÊ¹ÓÃ¡£
µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡Ñ§Éú³É¼¨¼ÇÂ¼ÎÄ¼þ¡£µÚ3ÐÐ´òÓ¡Ê¹ÓÃDataFrame.sample()º¯ÊýËæ»ú³éÈ¡µÄÊý¾Ý¡£ÆäÖÐ£¬DataFrame.sample()º¯ÊýÄÚdf±íÊ¾Êý¾Ý¼¯£¬n=10´ú±í³éÈ¡10ÌõÊý¾Ý£¬replace=False±íÊ¾ÎÞ·Å»Ø³éÑù£¬ÒòÎªÄ¬ÈÏ¼´ÎªFalse¹Ê´Ë²ÎÊý¿ÉÒÔ²»Ð´£¬axis=0±íÊ¾ÔÚÐÐÉÏ½øÐÐ³éÑù¡£
¡¾ÔËÐÐ½á¹û¡¿
Ñ§ÄêÑ§ÆÚ         ¿¼ÊÔ¿ÆÄ¿  ¿¼ÊÔÐÔÖÊ  Ñ§·Ö  ³É¼¨ °à¼¶Ñ§ºÅ
5153  2020  ´º     WebÓ¦ÓÃÏµÍ³¿ª·¢  Õý³£¿¼ÊÔ   3.0  92.0  B17  20171993
6993  2021  ´º      Êý¾Ý¿â¼¼Êõ¼°Ó¦ÓÃ  Õý³£¿¼ÊÔ   4.0  76.0  B19  20192337
1944  2018  Çï     WebÓ¦ÓÃÏµÍ³¿ª·¢  Õý³£¿¼ÊÔ   3.0  74.0  B15  20151837
6836  2021  Çï        ¾ö²ßÖ§³ÖÏµÍ³  Õý³£¿¼ÊÔ   2.0  79.0  B18  20182099
2787  2018  Çï   C++ÃæÏò¶ÔÏó³ÌÐòÉè¼Æ  Õý³£¿¼ÊÔ   4.0  98.0  B17  20171993
4167  2019  ´º      ÖÐ¹ú½üÏÖ´úÊ·¸ÙÒª  Õý³£¿¼ÊÔ   2.0  80.0  B18  20182149
7172  2021  Çï  Î÷·½¾­¼ÃÑ§£¨ºê¹Û£©£¨B£©  Õý³£¿¼ÊÔ   2.0  93.0  B19  20192379
3045  2018  Çï         ´óÑ§Ó¢Óï¢ñ  Õý³£¿¼ÊÔ   4.0  84.0  B18  20182123
6783  2021  Çï        ITÏîÄ¿¹ÜÀí  Õý³£¿¼ÊÔ   3.0  87.0  B18  20182085
6473  2021  ´º          ±ÏÒµÉè¼Æ  Õý³£¿¼ÊÔ  11.0  89.9  B17  20172047
Àý5.9´Ó²»Í¬¿Î³ÌµÄÑ§Éú³É¼¨¼ÇÂ¼ÖÐËæ»ú³éÈ¡Á½¸öÑ§Éú¡£



1:import random

2:import pandas as pd

3:def get_sample(df, k=1, stratified_col=None):

4:grouped = df.groupby(by=stratified_col)£Ûstratified_col£Û0£Ý£Ý.count()





5:group_k = grouped.map(lambda x:k)

6:res_df = pd.DataFrame(columns=df.columns)

7:for df_idx in group_k.index:

8:df1=df

9:df1=df1£Ûdf1£Ûstratified_col£Û0£Ý£Ý==df_idx£Ý

10:idx = random.sample(range(len(df1)), group_k£Ûdf_idx£Ý)

11:group_df = df1.iloc£Ûidx,:£Ý.copy()

12:res_df = res_df.append(group_df)

13: return res_df

14:if __name__ == '__main__':

15: df=pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx') 

16: a=get_sample(df=df, k=2,stratified_col=£Û'¿Î³ÌÃû³Æ'£Ý)

17: print(a)





¡¾ÀýÌâ½âÎö¡¿
´Ó²»Í¬µÄ¿Î³Ì½øÐÐ³éÑù£¬¼´·Ö²ã³éÑù¡£¸ÃÀýÖ¼ÔÚÑÝÊ¾ÈçºÎ½øÐÐ·Ö²ã³éÑù¡£
µÚ1~2ÐÐÒýÈërandom¡¢pandas¿â¡£
µÚ3~13ÐÐ¶¨Òå·Ö²ã³éÑùº¯Êý¡£²ÎÊýdfÊÇ³éÑù¶ÔÏó£¬kÎªÃ¿Ò»¸ö²ã³éÑùµÄ¸öÊý£¬stratified_col±íÊ¾·Ö²ãÒÀ¾Ý¡£ÕâÀïµÄ»ù±¾Ë¼Â·ÊÇ£¬ÏÈ¶ÔÕûÌåÊý¾Ý½øÐÐ·Ö²ã´¦Àí£¬È»ºóËæ»ú´ÓÃ¿²ãÖÐ³éÈ¡Ö¸¶¨ÊýÁ¿µÄÑù±¾¡£
¾ßÌåÀ´½²£¬µÚ4ÐÐÊ¹ÓÃgroupby¸ù¾Ý·Ö²ãÒÀ¾Ýstratified_col½øÐÐ·Ö×é£¬È·¶¨Ã¿²ãµÄÊý¾ÝÁ¿¡£µÚ5ÐÐÈ·¶¨Ã¿²ãÖÐ³éÑùµÄ¸öÊý¡£µÚ6ÐÐ´´½¨ÐÂµÄÊý¾Ý¿ò£¬ÆäÁÐÃûÓëÔ­Êý¾ÝÁÐÃûÒ»ÖÂ£¬ÒâÓû´æ·ÅÑù±¾Êý¾Ý¡£µÚ7~12ÐÐ£¬Í¨¹ýÑ­»·Óï¾ä¶ÔÊý¾Ý½øÐÐ·Ö²ã³éÑù£¬³éÈ¡µÄÊý¾Ý´æ½øres_df¡£µÚ13ÐÐ·µ»Ø±£´æµÄres_df³éÑù½á¹û¡£
µÚ14~17ÐÐÎª³ÌÐòÖ÷Ìå¡£ÆäÖÐ£¬µÚ15ÐÐµ¼ÈëÊý¾Ý£¬À¨ºÅÄÚÎªÎÄ¼þÂ·¾¶¡£µÚ16ÐÐÊ¹ÓÃ×Ô¶¨ÒåµÄ·Ö²ã³éÑùº¯Êý¶ÔdfÊý¾ÝÒÀ¾Ý¿Î³ÌÃû³Æ½øÐÐ³éÑù¡£Ã¿²ã³éÑùÊýÄ¿Îª2¡£µÚ17ÐÐ´òÓ¡³éÑù½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
 Ñ§Äê Ñ§ÆÚ             ¿¼ÊÔ¿ÆÄ¿  ¿¼ÊÔÐÔÖÊ   Ñ§·Ö    ³É¼¨   °à¼¶        Ñ§ºÅ
1020  2017 ´º          Êý¾Ý¿â¿ª·¢¹¤¾ß  Õý³£¿¼ÊÔ  4.0  71.0  B15  20151837
313   2016  ´º  VisualBasic³ÌÐòÉè¼Æ  Õý³£¿¼ÊÔ  3.0  80.0  B15  20151823
3236  2019  ´º        ÐÅÏ¢ÏµÍ³°²È«Óë±£ÃÜ  Õý³£¿¼ÊÔ  2.0  84.0  B16  20162119
2328  2018  ÏÄ             Éç»áÊµ¼ù  Õý³£¿¼ÊÔ  1.0  89.9  B16  20162089
2959  2018  ´º          CÓïÑÔ³ÌÐòÉè¼Æ    ²¹¿¼  3.5  31.0  B17  20172003
2922  2018  ´º     Âí¿ËË¼Ö÷ÒåÕþÖÎ
¾­¼ÃÑ§Ô­Àí  Õý³£¿¼ÊÔ  2.0  70.0  B17  20172043
6521  2021  ´º            Ó¢ÓïÌýËµ¢ò  Õý³£¿¼ÊÔ  1.5  83.0  B18  20182099
4115  2019  Çï           ÖÐ¹úÎÄ»¯¸ÅÂÛ  Õý³£¿¼ÊÔ  2.0   NaN  B18  20182147
7109  2021  ´º          ÐÅÏ¢´æ´¢Óë¼ìË÷  Õý³£¿¼ÊÔ  2.0  65.0  B19  20192351
7094  2021  ´º           ÈËÁ¦×ÊÔ´¹ÜÀí  Õý³£¿¼ÊÔ  2.0  80.0  B19  20192351
5.5Êý¾Ý±ä»»
Êý¾Ý±ä»»¼´¶ÔÊý¾Ý½øÐÐ¹æ·¶»¯´¦Àí£¬½«Êý¾Ý×ª»»³É¡°ÊÊµ±µÄ¡±ÐÎÊ½£¬ÒÔ±ãÓÚºóÐøµÄ·ÖÎöºÍÍÚ¾ò¡£±¾½Ú½«´ÓÊý¾ÝºÏ²¢¡¢Êý¾Ý³éÈ¡ºÍÊý¾Ý¼ÆËãÈý·½Ãæ½éÉÜ¡£
5.5.1Êý¾ÝºÏ²¢
¼ÇÂ¼ºÏ²¢Ö¸°ÑÁ½¸öÊý¾Ý±íºÏ²¢³ÉÒ»¸öÊý¾Ý±í¡£ÀýÈç£¬ÓÐÁ½ÕÅ³É¼¨±íµÄÊý¾ÝÀàÐÍ¡¢¸ñÊ½µÈ¾ùÒ»ÖÂ£¬ÐèÒª°ÑÁ½ÕÅ±íºÏµ½Ò»Æð£¬ÒÔ±ãºóÐø·ÖÎöÊ¹ÓÃ¡£ÔÚPythonÖÐ±íÏÖÎª°ÑÁ½¸öÊý¾Ý¿òºÏ²¢³ÉÒ»¸öÊý¾Ý¿ò¡£
1. concat()º¯Êý
concat()º¯ÊýµÄÓï·¨¸ñÊ½Îª£º 


concat(objs,axis=0,join='outer',join_axes=None,keys=None,verify_integrity=False,copy=True,ignore_index=False)



·µ»ØÖµÎªDataFrame¡£Æä¹¦ÄÜÊÇÊµÏÖ½«Êý¾Ý¸ù¾ÝÖ¸¶¨Öá½øÐÐÆ´½Ó¡£concat()º¯ÊýÖÐµÄ³£ÓÃ²ÎÊý¼°ÆäÃèÊöÈç±í5ª²10ËùÊ¾¡£


±í5ª²10concat()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

objs
²ÎÓëÁ¬½ÓµÄpandas¶ÔÏóµÄÁÐ±í»ò×Öµä
axis
Ö¸Ã÷Á¬½ÓµÄÖáÏò£¬Ä¬ÈÏÎª0¼´ºáÖá
join
½ÓÊÕinner»òouter£¬Ä¬ÈÏouter
join_axes
Ö¸¶¨¸ù¾ÝÄÄ¸öÖáÀ´¶ÔÆëÊý¾Ý
keys
ÓëÁ¬½Ó¶ÔÏóÓÐ¹ØµÄÖµ£¬ÓÃÓÚÐÎ³ÉÁ¬½ÓÖáÏòÉÏµÄ²ã´Î»¯Ë÷Òý¡£¿ÉÒÔÊÇÈÎÒâÖµµÄÁÐ±í»òÊý×é¡¢Ôª×éÊý×é¡¢Êý×éÁÐ±í(Èç¹û½«levelsÉèÖÃ³É¶à¼¶Êý×é)
verify_integrity
¼ì²é½á¹û¶ÔÏóÐÂÖáÉÏµÄÖØ¸´Çé¿ö£¬Èç¹û·¢ÏÖÔòÒý·¢Òì³£¡£Ä¬ÈÏ(False)ÔÊÐíÖØ¸´
copy
ÊÇ·ñ¸´ÖÆÊý¾Ý¡£Ä¬ÈÏÎªTrue
ignore_index
²»±£ÁôÁ¬½ÓÖáÉÏµÄË÷Òý£¬²úÉúÒ»×éÐÂË÷Òýrange(total_length)


2. merge()º¯Êý
merge()º¯ÊýÁ¬½ÓÁ½¸öÊý¾Ý¿ò¶ÔÏóDataFrame²¢·µ»ØÁ¬½ÓÖ®ºóµÄÊý¾Ý¿ò¶ÔÏóDataFrame£¬ÓëSQLÖÐµÄ join ÓÃ·¨ÀàËÆ¡£ÆäÓï·¨¸ñÊ½Îª£º 


merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True)



ÆäÖÐ²ÎÊýÃèÊöÈç±í5ª²11ËùÊ¾¡£


±í5ª²11merge()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

left
²ÎÓëºÏ²¢µÄ×ó²àDataFrame
right
²ÎÓëºÏ²¢µÄÓÒ²àDataFrame
how
Á¬½Ó·½Ê½£º ¡®inner¡¯(Ä¬ÈÏ)¡¢¡®outer¡¯¡¢¡®left¡¯¡¢¡®right¡¯
on
ÓÃÓÚÁ¬½ÓµÄÁÐÃû£¬±ØÐëÍ¬Ê±´æÔÚÓÚ×óÓÒÁ½¸öDataFrame¶ÔÏóÖÐ£¬Èç¹ûÎ´Ö¸¶¨£¬ÔòÒÔleftºÍrightÁÐÃûµÄ½»¼¯×÷ÎªÁ¬½Ó¼ü
left_on
×ó²àDataFarmeÖÐÓÃ×÷Á¬½Ó¼üµÄÁÐ
right_on
ÓÒ²àDataFarmeÖÐÓÃ×÷Á¬½Ó¼üµÄÁÐ
left_index
½«×ó²àµÄÐÐË÷ÒýÓÃ×÷ÆäÁ¬½Ó¼ü
right_index
½«ÓÒ²àµÄÐÐË÷ÒýÓÃ×÷ÆäÁ¬½Ó¼ü
sort
¸ù¾ÝÁ¬½Ó¼ü¶ÔºÏ²¢ºóµÄÊý¾Ý½øÐÐÅÅÐò£¬Ä¬ÈÏÎªTrue¡£ÓÐÊ±ÔÚ´¦Àí´óÊý¾Ý¼¯Ê±£¬½ûÓÃ¸ÃÑ¡Ïî¿É»ñµÃ¸üºÃµÄÐÔÄÜ
suffixes
×Ö·û´®ÖµÔª×é£¬ÓÃÓÚ×·¼Óµ½ÖØµþÁÐÃûµÄÄ©Î²£¬Ä¬ÈÏÎª(¡®_x¡¯,¡®_y¡¯)¡£ÀýÈç£¬×óÓÒÁ½¸öDataFrame¶ÔÏó¶¼ÓÐ¡®data¡¯£¬Ôò½á¹ûÖÐ¾Í»á³öÏÖ¡®data_x¡¯£¬¡®data_y¡¯
copy
ÉèÖÃÎªFalse£¬¿ÉÒÔÔÚÄ³Ð©ÌØÊâÇé¿öÏÂ±ÜÃâ½«Êý¾Ý¸´ÖÆµ½½á¹ûÊý¾Ý½á¹¹ÖÐ¡£Ä¬ÈÏ×ÜÊÇ¸´ÖÆ


Àý5.10ÉèÓÐ´û¿î×´Ì¬±íloan_statsºÍÓÃ»§µÈ¼¶±ímember_grade£¬ÈçÍ¼5ª²7ËùÊ¾¡£²éÑ¯²»Í¬µÈ¼¶»áÔ±µÄ´û¿î×´Ì¬°üÀ¨Êý¶î¡¢ÄêÏÞµÈÐÅÏ¢¡£



Í¼5ª²7Àý5.10Êý¾Ý±í





1:import pandas as pd

2:loanstats=pd.DataFrame(pd.read_excel(r'C:/case/loan_stats.xlsx'))






3:member_grade=pd.DataFrame(pd.read_excel(r'C:/case/member_grade.xlsx'))

4:loan_inner=pd.merge(loanstats,member_grade,how='inner')

5:print(loan_inner)





¡¾ÀýÌâ½âÎö¡¿
´û¿î×´Ì¬loan_stats±íÖÐÓÐ´û¿î×´Ì¬µÄ¸÷ÖÖÐÅÏ¢£¬µ«È±ÉÙÓÃ»§µÈ¼¶£» ¶ømember_grade±íÖÐÓÐÓÃ»§µÈ¼¶£¬µ«È±ÉÙ´û¿îµÄ¸÷ÖÖ×´Ì¬¡£½«Á½ÕÅ±íÍ¨¹ýmember_idÁ¬½ÓÆðÀ´£¬¼´¿É»ñµÃ²»Í¬µÈ¼¶»áÔ±µÄ´û¿î×´Ì¬ÐÅÏ¢¡£
Òò´Ë£¬µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2~3ÐÐÊ¹ÓÃread_excelº¯Êý·Ö±ð¶ÁÈ¡loan_statsÓëmember_gradeÖÐÊý¾Ý¡£µÚ4ÐÐÊ¹ÓÃmerge()º¯ÊýÖÐµÄinner·½Ê½Á¬½ÓÁ½ÕÅ±í¡£inner·½Ê½ÊÇÍ¨¹ýÏàÍ¬ÁÐ(¼´member_id)£¬½«¾ßÓÐÏàÍ¬member_idµÄÐÐÆ´½ÓÆðÀ´£¬²¢½öÁôÒ»¸ömember_idÁÐ¡£
¡¾ÔËÐÐ½á¹û¡¿
ÔËÐÐ½á¹ûÈçÍ¼5ª²8ËùÊ¾¡£



Í¼5ª²8innerÁ¬½Ó±í½á¹û



3. join()º¯Êý
join()º¯ÊýÊÇ½«Á½¸ö²»Í¬ÁÐË÷ÒýµÄÊý¾Ý¿òDataFrame×éºÏ³Éµ¥Ò»DataFrameµÄ·½·¨£¬Ä¬ÈÏÎª×óÍâÁ¬½Ó£¬ÆäÓï·¨¸ñÊ½Îª£º 


join(other,on=None,how='left',sort=False)


Æä²ÎÊýÃèÊöÈç±í5ª²12ËùÊ¾¡£


±í5ª²12join()º¯Êý²ÎÊýËµÃ÷



²ÎÊý
ËµÃ÷

other
DataFrame¡¢series»òÕßDataFrame×é³ÉµÄlist
on
ÁÐÃû£¬°üº¬ÁÐÃûµÄlist»òtuple£¬»ò¾ØÕóÑù×ÓµÄÁÐ£¬¸úÉÏÃæµÄ¼¸ÖÖº¯ÊýÒ»Ñù£¬ÓÃÀ´Ö¸Ã÷ÒÀ¾ÝÄÄÒ»ÁÐ½øÐÐºÏ²¢¡£Èç¹ûÃ»ÓÐ¸³Öµ£¬ÔòÒÀ¾ÝÁ½¸öÊý¾Ý¿òµÄindexºÏ²¢
how
Á¬½Ó·½Ê½£º inner¡¢outer¡¢left(Ä¬ÈÏ)¡¢right
sort
sort£º ²¼¶ûÐÍ£¬Ä¬ÈÏÎªFalse¡£Èç¹ûÎªTrue£¬½«Á´½Ó¼ü(onµÄÄÇÁÐ)°´×ÖÄ¸ÅÅÐò

4.  append()º¯Êý
append()º¯ÊýÓÃÓÚÏòDataFrame¶ÔÏóÖÐÌí¼ÓÐÂµÄÐÐ£¬Èç¹ûÌí¼ÓµÄÁÐÃû²»ÔÚDataFrame¶ÔÏóÖÐ£¬½«»á±»µ±×÷ÐÂµÄÁÐ½øÐÐÌí¼Ó¡£ÆäÓï·¨Îª£º 


DataFrame.append(other,ignore_index=False,verify_integrity=False,sort=None)


Æä²ÎÊýµÄÒâÒåÈç±í5ª²13ËùÊ¾¡£


±í5ª²13append()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

other
DataFrame¡¢series¡¢dict»òlist£¬±íÊ¾Òª×·¼ÓµÄÊý¾Ý
ignore_index
bool£¬Ä¬ÈÏÎªFalse¡£Èç¹ûÎªTrue£¬Ôò²»ÒªÊ¹ÓÃË÷Òý±êÇ©
verify_integrity
bool£¬Ä¬ÈÏÎªFalse¡£Èç¹ûÎªTrue£¬ÔÚ´´½¨´øÓÐÖØ¸´ÏîµÄË÷ÒýÊ±Òý·¢ValueError
sort
bool£¬Ä¬ÈÏÎªNone¡£Èç¹ûselfºÍotherµÄÁÐÃ»ÓÐ¶ÔÆë£¬Ôò¶ÔÁÐ½øÐÐÅÅÐò


ÒÔÉÏÕâËÄÖÖº¯Êý¶Ô±ÈÈç±í5ª²14ËùÊ¾¡£


±í5ª²14concat()¡¢merge()¡¢join()ºÍappend()µÄÊÊÓÃÇéÐÎ



º¯Êý
Ê¹ ÓÃ ³¡ ¾°
µ÷ÓÃ·½·¨
±¸×¢

concat()
ÓÃÓÚÁ½¸ö»ò¶à¸ödf¼äÐÐ·½Ïò(Ôö¼ÓÐÐ)»òÁÐ·½Ïò(Ôö¼ÓÁÐ)½øÐÐÄÚÁ¬»òÍâÁ¬Æ´½Ó²Ù×÷£¬Ä¬ÈÏÐÐÆ´½Ó£¬È¡²¢¼¯result = pd.concat (£Ûdf1,df2£Ý, axis=1 )
Ìá¹©ÁË²ÎÊýaxisÉèÖÃÐÐ/ÁÐÆ´½ÓµÄ·½Ïò
merge()
¿ÉÓÃÓÚÁ½¸ödf¼äÐÐ·½Ïò(Ò»°ãÓÃjoin´úÌæ)»òÁÐ·½ÏòµÄÆ´½Ó²Ù×÷£¬Ä¬ÈÏÁÐÆ´½Ó£¬È¡½»¼¯(¼´´æÔÚÏàÍ¬Ö÷¼üµÄdf1ºÍdf2µÄÁÐÆ´½Ó)
result= pd.merge (df1,df2,how='left')
Ìá¹©ÁËÀàËÆÓÚSQLÊý¾Ý¿âÁ¬½Ó²Ù×÷µÄ¹¦ÄÜ£¬Ö§³Ö×óÁ¬¡¢ÓÒÁ¬¡¢ÄÚÁ¬ºÍÍâÁ¬µÈÈ«²¿ËÄÖÖSQLÁ¬½Ó²Ù×÷ÀàÐÍ
join()
¿ÉÓÃÓÚdfi¼äÁÐ·½ÏòµÄÆ´½Ó²Ù×÷£¬Ä¬ÈÏ×óÁÐÆ´½Ó£¬how='left'
df1.join(df2)
Ö§³Ö×óÁ¬¡¢ÓÒÁ¬¡¢ÄÚÁ¬ºÍÍâÁ¬ËÄÖÖ²Ù×÷ÀàÐÍ
append()
¿ÉÓÃÓÚdf¼äÐÐ·½ÏòµÄÆ´½Ó²Ù×÷£¬Ä¬ÈÏ

Àý5.112017Ñ§ÄêÑ§ÉúÑ¡¿ÎµÄ¼ÇÂ¼ÈçÍ¼5ª²9ËùÊ¾¡£Í¼5ª²10ÖÐÏÔÊ¾µÄÊÇ2018Ñ§ÄêÑ§ÉúµÄÑ¡¿Î¼ÇÂ¼ºÍ³É¼¨¡£2017Ñ§ÄêÑ§ÉúµÄ³É¼¨¡¢µÃ½±¼ÇÂ¼ºÍË«Ñ§Î»³É¼¨ÈçÍ¼5ª²11ËùÊ¾¡£



Í¼5ª²92017Ñ§ÄêÑ§ÉúÑ¡¿Î±í




Í¼5ª²102018Ñ§ÄêÑ§ÉúÑ¡¿Î³É¼¨±í




Í¼5ª²112017Ñ§ÄêÑ§Éú¿¼ÊÔ³É¼¨¡¢»ñ½±¼ÇÂ¼ºÍË«Ñ§Î»¿Î³ÌÐÅÏ¢±í





1:import pandas as pd

2:df1= pd.read_excel(r' C:/case/2017Ñ§ÉúÑ¡¿Î.xlsx')

3:df2= pd.read_excel(r' C:/case/2017Ñ§Éú³É¼¨.xlsx')

4:df3= pd.read_excel(r' C:/case/2018Ñ§Éú³É¼¨.xlsx')

5:df4= pd.read_excel(r' C:/case/2017Ñ§ÉúµÃ½±¼ÇÂ¼.xlsx')

6:df5= pd.read_excel(r' C:/case/2017Ñ§ÉúË«Ñ§Î».xlsx')

7:dfa=df1.join(df2)

8:print(dfa)

9:dfb=dfa.append(df3)

10:print(dfb)

11:dfc=pd.merge(dfb,df4)

12:print(dfc)

13:dfd=pd.concat(£Ûdfc,df5£Ý,axis=1,join='inner')

14:print(dfd)


¡¾ÀýÌâ½âÎö¡¿
´ËÀýÒâÔÚ½øÒ»²½ÁË½âËÄÖÖº¯ÊýµÄÇø±ð¡£
µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2~6ÐÐ·Ö±ðµ¼ÈëÏàÓ¦Êý¾Ý£» 
µÚ7~8ÐÐÊ¹ÓÃjoin()º¯ÊýÖÐÁ¬½Ódf1Óëdf2£¬Ä¬ÈÏ¸ù¾ÝÐÐ±êÇ©½øÐÐÁ¬½Ó£¬»ñµÃÁËÑ¡ÐÞ¿Î³Ì³É¼¨£¬ÃüÃûÎªdfa²¢´òÓ¡¡£µÚ9~10ÐÐÊ¹ÓÃappend()º¯ÊýÆ´½ÓdfaÓëdf3£¬ÃüÃûÎªdfb²¢´òÓ¡¡£Èç´Ë»ñµÃÁË2017Ñ§ÄêºÍ2018Ñ§ÄêÑ§ÉúµÄÑ¡¿Î¼ÇÂ¼ºÍ³É¼¨¡£
µÚ11~12ÐÐÊ¹ÓÃmerge()º¯ÊýÁ¬½ÓdfbÓëdf4£¬ÒÔÏàÍ¬µÄÁÐ¡°Ñ§ºÅ¡±×÷ÎªÁ¬½ÓÁÐÃû£¬È¡Á½¸öÊý¾Ý¿òÖÐÍ¬Ê±°üº¬µÄ¶ÔÏó£¬ÃüÃûÎªdfc²¢´òÓ¡¡£ÊµÏÖÁËÏÔÊ¾»ñ½±Í¬Ñ§µÄÌåÓý¿Î³É¼¨¡£µÚ13~14ÐÐÊ¹ÓÃconcat()º¯ÊýÁ¬½ÓdfcÓëdf5£¬axis=1±íÊ¾ÔÚÁÐµÄ·½ÏòÉÏ½øÐÐÁ¬½Ó£¬inner±íÊ¾È¡½»¼¯¡£ÔÚµÚ12ÐÐÔËÐÐ½á¹ûµÄ»ù´¡ÉÏ£¬½øÒ»²½ÏÔÊ¾»ñµÃÁË½±Àø²¢Í¬Ê±ÐÞ¶ÁË«Ñ§Î»µÄÍ¬Ñ§ÐÅÏ¢£¬ÃüÃûÎªdfd²¢´òÓ¡¡£
¡¾ÔËÐÐ½á¹û¡¿
µÚ8ÐÐÔËÐÐ½á¹û:
Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿ ¿¼ÊÔÐÔÖÊÑ§·Ö°à¼¶ Ñ§ºÅ³É¼¨
02017´º Ö¤È¯Í¶×ÊÑ§Õý³£¿¼ÊÔ 2.0 B152015180960.1
12017´º Ö¤È¯Í¶×ÊÑ§Õý³£¿¼ÊÔ 2.0 B152015184560.1
22017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ 1.5 B152015180176.0
32017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ 1.5 B152015185180.0
42017´º Ö¤È¯Í¶×ÊÑ§Õý³£¿¼ÊÔ 2.0 B152015180360.1
52017´º ¹ÜÀíÑ§Ô­ÀíÕý³£¿¼ÊÔ 1.5 B152015186385.0
62017´º »õ±ÒÒøÐÐÑ§(B)Õý³£¿¼ÊÔ 2.0B152015183160.1
72017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ 1.5 B152015183567.0
µÚ10ÐÐÔËÐÐ½á¹û:
 Ñ§Äê Ñ§ÆÚ¿¼ÊÔ¿ÆÄ¿ ¿¼ÊÔÐÔÖÊ Ñ§·Ö°à¼¶ Ñ§ºÅ³É¼¨
0 2017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ2.0 B152015180960.1
1 2017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ2.0 B152015184560.1
2 2017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ1.5 B152015180176.0
3 2017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ1.5 B152015185180.0
4 2017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ2.0 B152015180360.1
5 2017´º¹ÜÀíÑ§Ô­Àí Õý³£¿¼ÊÔ1.5 B152015186385.0
6 2017´º»õ±ÒÒøÐÐÑ§(B) Õý³£¿¼ÊÔ2.0B152015183160.1
7 2017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ1.5 B152015183567.0
0 2018ÇïÌåÓýÎèµ¸ Õý³£¿¼ÊÔ1.0 B152015186180.0
1 2018Çï¶àÃ½Ìå¼¼ÊõÓ¦ÓÃ»ù´¡ Õý³£¿¼ÊÔ3.0B152015180182.0
2 2018ÇïÒôÀÖÖªÊ¶Óë×÷Æ·¼øÉÍ Õý³£¿¼ÊÔ1.5B152015180183.0
3 2018ÇïÐÎÌåÓë½¡ÃÀ Õý³£¿¼ÊÔ1.0B1520151845 0.0
4 2018´ºVisualFoxPro³ÌÐòÉè¼ÆÕý³£¿¼ÊÔ3.5B152015181962.0
5 2018´ºJavaÓïÑÔ³ÌÐòÉè¼Æ  Õý³£¿¼ÊÔ3.0B152015180987.0
6 2018´ºUNIX/LINUX»ù´¡Õý³£¿¼ÊÔ2.0B152015180983.0
7 2018´º¾º¼¼ÌåÓý Õý³£¿¼ÊÔ1.0B152015182182.0
8 2018´º¾º¼¼ÌåÓý Õý³£¿¼ÊÔ1.0B152015182984.0
9 2018´ºÅ®ÐÔÑ§ Õý³£¿¼ÊÔ1.5B152015185755.0
102018´ºÖªÊ¶²úÈ¨·¨ Õý³£¿¼ÊÔ2.0B152015182581.0
112018´ºÅ®ÐÔÑ§ Õý³£¿¼ÊÔ1.5B152015186367.0
122018´ºÃæÏò¶ÔÏó³ÌÐòÉè¼Æ Õý³£¿¼ÊÔ4.0B152015180167.0
µÚ12ÐÐÔËÐÐ½á¹û:
Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿ ¿¼ÊÔÐÔÖÊ Ñ§·Ö°à¼¶Ñ§ºÅ³É¼¨µÃ½±ÐÅÏ¢
0 2017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ 2.0B152015180960.1Ò»µÈ½±
1 2018´ºJavaÓïÑÔ³ÌÐò
Éè¼Æ Õý³£¿¼ÊÔ 3.0B152015180987.0Ò»µÈ½±
2 2018´ºUNIX/LINUX
»ù´¡ Õý³£¿¼ÊÔ 2.0B152015180983.0Ò»µÈ½±
32017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ 2.0B152015184560.1¶þµÈ½±
4 2018ÇïÐÎÌåÓë½¡ÃÀ Õý³£¿¼ÊÔ 1.0B1520151845 0.0¶þµÈ½±
5 2017´ºÆóÒµ¹ÜÀí Õý³£¿¼ÊÔ 1.5B152015180176.0¶þµÈ½±
6 2018Çï¶àÃ½Ìå¼¼ÊõÓ¦
ÓÃ»ù´¡Õý³£¿¼ÊÔ3.0B152015180182.0¶þµÈ½±
7 2018ÇïÒôÀÖÖªÊ¶Óë×÷
Æ·¼øÉÍÕý³£¿¼ÊÔ 1.5B152015180183.0¶þµÈ½±
8 2018´ºÃæÏò¶ÔÏó³ÌÐò
Éè¼ÆÕý³£¿¼ÊÔ 4.0B152015180167.0¶þµÈ½±
9 2017´ºÆóÒµ¹ÜÀí  Õý³£¿¼ÊÔ 1.5B152015185180.0ÈýµÈ½±
10 2017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ 2.0B152015180360.1ÈýµÈ½±
11 2017´º¹ÜÀíÑ§Ô­Àí Õý³£¿¼ÊÔ 1.5B152015186385.0ÈýºÃÑ§Éú
12 2018´ºÅ®ÐÔÑ§ Õý³£¿¼ÊÔ 1.5B152015186367.0 ÈýºÃÑ§Éú
µÚ14ÐÐÔËÐÐ½á¹û:
Ñ§Äê Ñ§ÆÚ ¿¼ÊÔ¿ÆÄ¿ ¿¼ÊÔÐÔÖÊ Ñ§·Ö ... ³É¼¨ µÃ½±
ÐÅÏ¢ Ñ§ºÅ Ë«Ñ§Î»
¿Î³ÌË«Ñ§Î»
³É¼¨
0 2017´º Ö¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ 2.0...60.1 Ò»µÈ½± 20151809Ó¢Óï   79
1 2018´º JavaÓïÑÔ³ÌÐò
Éè¼Æ Õý³£¿¼ÊÔ 3.0 ... 87.0 Ò»µÈ½± 20151845Ó¢Óï  82
2 2018´º UNIX/LINUX
»ù´¡ Õý³£¿¼ÊÔ 2.0 ... 83.0 Ò»µÈ½± 20151801Âí¿ËË¼80
£Û3 rows x 12 columns£Ý
5.5.2Êý¾Ý³éÈ¡
Êý¾Ý³éÈ¡ÊÇ·ÖÎöÊ¦ÈÕ³£¹¤×÷ÖÐ¾­³£Óöµ½µÄÐèÇó¡£½«Êý¾Ý´ÓÔ´±íÖÐÔ­·â²»¶¯µØ³éÈ¡³öÀ´£¬²¢×ª»»³ÉÊý¾Ý·ÖÎöÐèÒªµÄ¸ñÊ½¡£´ÓÊý¾Ý³éÈ¡µÄ·½Ïò£¬¿ÉÒÔ·ÖÎª×ÝÏòÊý¾Ý³éÈ¡ºÍºáÏòÊý¾ÝÉ¸Ñ¡¡£
1. ×ÝÏòÊý¾Ý³éÈ¡
×ÝÏòÊý¾Ý³éÈ¡Ö÷ÒªÊÇÁ½¸ö²Ù×÷£¬¼´½«Ò»¸ö×Ö¶Î²ð·Ö³É¶à¸ö×Ö¶ÎºÍ´ÓÒ»¸ö×Ö¶ÎÖÐ³éÈ¡ÌØ¶¨Î»ÖÃµÄÊý¾ÝÐÎ³ÉÐÂµÄ×Ö¶Î¡£Ç°ÕßÊ¹ÓÃµÄÊÇsplit()º¯Êý£¬ºóÕß²ÉÓÃslice()º¯Êý¡£
1)split()º¯Êý
¸Ãº¯ÊýÍ¨³£ÓÃÓÚ½«×Ö·û´®ÇÐÆ¬²¢×ª»»ÎªÁÐ±í£¬·µ»Ø·Ö¸ôºóµÄ×Ö·û´®ÁÐ±í¡£ÆäÓï·¨¸ñÊ½Îª£º 


split (sep,n,expand=False)



ÆäÖÐ²ÎÊýÃèÊöÈç±í5ª²15ËùÊ¾¡£


±í5ª²15split()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

sep
ÓÃÓÚ·Ö¸ô×Ö·û´®µÄ·Ö¸ô·û
n
·Ö¸ôºóÐÂÔöµÄÁÐÊý(²»·Ö¸ôn=0,·Ö¸ôÎªÁ½ÁÐn=1,ÒÔ´ËÀàÍÆ)
expand
ÊÇ·ñÕ¹¿ªÎªÊý¾Ý¿ò£¬Ä¬ÈÏÎªFalse,Ò»°ã¶¼ÉèÖÃÎªTrue¡£

Èç¹ûexpandÎªTrue£¬Ôò·µ»ØDataFrame£» Èç¹ûexpandÎªFalse£¬Ôò·µ»ØSeries

Àý5.12¡°ÉÏÍø¼ÇÂ¼.xlsx¡±Êý¾ÝÈçÍ¼5ª²12ËùÊ¾£¬Êý¾ÝÁÐÎª£º Ñ§ºÅ¡¢ÊÖ»úºÅ¡¢IP¡£½«IPµØÖ·ÒÔ¡°.¡±Îª·Ö¸ô·û·ÖÎªËÄÁÐ£¬²¢´æÓÚÊý¾Ý¿òdf1¡£



Í¼5ª²12ÉÏÍø¼ÇÂ¼.xlsx





1:import pandas as pd

2:df= pd.read_excel(r'C:/case/ÉÏÍø¼ÇÂ¼.xlsx')

3:df1=df£Û"IP"£Ý.str.split(".",3,True)

4:print(df1)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡ÉÏÍø¼ÇÂ¼ÎÄ¼þ£¬À¨ºÅÖÐÎªÊý¾ÝÂ·¾¶¡£µÚ3ÐÐÏÈ½«IPÁÐ×ª»»ÎªstrÀàÐÍ£¬È»ºóÊ¹ÓÃsplit()º¯Êý½«ÆäÒÔ¡°.¡±Îª·Ö¸ô·û·Ö¿ª,·Ö¿ªºóÐÂÔöÈýÁÐ£¬¼´ÏÖÔÚÓÐËÄÁÐ£¬·µ»ØÊý¾Ý¿ò¡£µÚ4ÐÐ´òÓ¡½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
0123
022120598 55
1183184226205
22212059855
32223151200
2) slice()º¯Êý
´ÓÊý¾Ý±íÖÐ³é³öÌØ¶¨Î»ÖÃµÄÊý¾ÝÁÐ£¬×ö³ÉÐÂÁÐ£¬²ÉÓÃslice()º¯Êý½øÐÐ×Ö¶Î½ØÈ¡¡£slice()º¯ÊýµÄÖ÷Òª×÷ÓÃÊÇ»ñÈ¡¶ÔÏó(³£ÓÃÓÚÁÐ±í¡¢×Ö·û´®¡¢Ôª×éµÈ)µÄÇÐÆ¬¶ÔÏó¡£ÆäÓï·¨¸ñÊ½Îª£º 


slice(start,stop£¬step)


ÆäÖÐ²ÎÊýÃèÊöÈç±í5ª²16ËùÊ¾¡£


±í5ª²16slice()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö²ÎÊý
ÃèÊö

start
ÆðÊ¼Î»ÖÃ
step
¼ä¾à
stop
½áÊøÎ»ÖÃ


Àý5.13´ÓÀý5.12ÖÐµÄ¡°ÉÏÍø¼ÇÂ¼.xlsx¡±Êý¾ÝµÄµç»°ÁÐÖÐ·Ö±ðÈ¡³öÇ°ÈýÎ»¡¢ÖÐ¼äËÄÎ»ºÍºóËÄÎ»·Ö±ð±íÊ¾Æ·ÅÆ¡¢µØÇøºÍÊÖ»úºÅÂë¡£ÀýÈç£¬18603518513£¬Ç°ÈýÎ»186´ú±íÖÐ¹úÁªÍ¨£¬ÖÐ¼ä0351±íÊ¾Ì«Ô­£¬ºóËÄÎ»8513ÊÇÊÖ»úºÅÂë¡£



1:import pandas as pd

2:df  = pd.read_excel(r'C:/case/ÉÏÍø¼ÇÂ¼.xlsx')

3:df£Û'ÊÖ»úºÅ'£Ý=df£Û'ÊÖ»úºÅ'£Ý.astype(str)

4:df2=pd.DataFrame()

5:df2£Û'Æ·ÅÆ'£Ý=df£Û"ÊÖ»úºÅ"£Ý.str.slice(0,3)

6:df2£Û'µØÇø'£Ý=df£Û"ÊÖ»úºÅ"£Ý.str.slice(3,7)

7:df2£Û'ÊÖ»úºÅÂë'£Ý=df£Û"ÊÖ»úºÅ"£Ý.str.slice(7,11)

8:print(df2)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡ÉÏÍø¼ÇÂ¼ÎÄ¼þ¡£µÚ3ÐÐ½«ÊÖ»úºÅÁÐÇ¿ÖÆÀàÐÍ×ª»»ÎªstrÊý¾ÝÀàÐÍ¡£µÚ4ÐÐ¶¨ÒåÒ»¸ö¿ÕµÄÊý¾Ý¿ò´æ·ÅÆ·ÅÆ¡¢µØÇøºÍÊÖ»úºÅÂëÊý¾Ý¡£µÚ5~7ÐÐ·Ö±ð¶ÔÊÖ»úºÅÁÐ×ª»»ÎªstrÀàÐÍ²¢Ê¹ÓÃslice()º¯Êý½øÐÐ·Ö¸ô¡£µÚ8ÐÐ´òÓ¡½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
Æ·ÅÆµØÇøÊÖ»úºÅÂë
018603518513
115623462341
213876129892
315172923748
2. ºáÏòÊý¾Ý³éÈ¡
ºáÏòÊý¾Ý³éÈ¡ÊÇÖ¸´ÓÐÐµÄ½Ç¶È´ÓÊý¾Ý¼¯ÖÐÉ¸Ñ¡Âú×ãÒ»¶¨Ìõ¼þµÄ¼¯ºÏ¡£¿ÉÒÔ²ÉÓÃÊý¾Ý¿òµÄ²¼¶ûË÷ÒýÊµÏÖ£¬¼´dataframe£Ûcondition£Ý£¬ÆäÖÐ£¬condition±íÊ¾¹ýÂËÌõ¼þ£¬·µ»ØÖµÎªDataFrame¶ÔÏó¡£
Àý5.14ÔÚ¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±Êý¾ÝÖÐ£¬·Ö±ðÉ¸Ñ¡³ö³É¼¨Îª60£¬³É¼¨Îª90~100µÄÍ¬Ñ§µÄÏêÏ¸ÐÅÏ¢¡£



1:import pandas as pd

2:df=pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:print(df£Ûdf.³É¼¨==60£Ý)

4:print(df£Ûdf.³É¼¨.between(90,100)£Ý)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐµ¼Èëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡Ñ§Éú³É¼¨¼ÇÂ¼ÎÄ¼þ£¬À¨ºÅÖÐÎªÊý¾Ý´æ·ÅÂ·¾¶¡£
µÚ3ÐÐ´òÓ¡³É¼¨ÁÐÊýÖµÎª60µÄÊý¾ÝÐÅÏ¢£¬µÚ4ÐÐÉ¸Ñ¡³ö³É¼¨Îª90~100µÄÊý¾Ý¡£
¡¾ÔËÐÐ½á¹û¡¿
Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊÑ§·Ö    ³É¼¨   °à¼¶Ñ§ºÅ
4     2015  Çï        ÌåÓý¢ñ  Õý³£¿¼ÊÔ  1.0  60.0  B15  20151813
9     2015  Çï        ÌåÓý¢ñ  Õý³£¿¼ÊÔ  1.0  60.0  B15  20151823
58    2015  Çï      ´óÑ§Ó¢Óï¢ñ  Õý³£¿¼ÊÔ  4.0  60.0  B15  20151813
73    2015  Çï      ´óÑ§Ó¢Óï¢ñ  Õý³£¿¼ÊÔ  4.0  60.0  B15  20151809
76    2015  Çï        ÌåÓý¢ñ  Õý³£¿¼ÊÔ  1.0  60.0  B15  20151845
   ... ...        ...   ...  ...   ...  ...       ...
7424  2021  ´º    ¼ÆËã»úÍøÂç¼¼Êõ  Õý³£¿¼ÊÔ  3.0  60.0  B19  20192371
7534  2022  ´º        Å®ÐÔÑ§  Õý³£¿¼ÊÔ  1.5  60.0  B19  20192351
7544  2022  ´º  Éú»îÃÀÓïÓë±±ÃÀÎÄ»¯  Õý³£¿¼ÊÔ  1.5  60.0  B19  20192391
7546  2022  ´º       ÈÕÓï×¨Ìâ  Õý³£¿¼ÊÔ  2.0  60.0  B19  20192389
7621  2022  ´º  ÐÅÏ¢ÏµÍ³°²È«Óë±£ÃÜ  Õý³£¿¼ÊÔ  2.0  60.0  B19  20192405
£Û251 rows x 8 columns£Ý
        Ñ§Äê Ñ§ÆÚ       ¿¼ÊÔ¿ÆÄ¿  ¿¼ÊÔÐÔÖÊ   Ñ§·Ö     ³É¼¨   °à¼¶        Ñ§ºÅ
8     2015  Çï  Âí¿ËË¼Ö÷ÒåÕÜÑ§Ô­Àí  Õý³£¿¼ÊÔ  2.5   90.0  B15  20151853
16    2015  Çï   ¸ßµÈÊýÑ§£¨A£©¢ñ  Õý³£¿¼ÊÔ  4.0   90.0  B15  20151795
17    2015  Çï   ¸ßµÈÊýÑ§£¨A£©¢ñ  Õý³£¿¼ÊÔ  4.0   90.0  B15  20151803
21    2015  Çï   ¸ßµÈÊýÑ§£¨A£©¢ñ  Õý³£¿¼ÊÔ  4.0   98.0  B15  20151823
29    2015  Çï   ¸ßµÈÊýÑ§£¨A£©¢ñ  Õý³£¿¼ÊÔ  4.0   90.0  B15  20151853
   ... ...        ...   ...  ...   ...  ...       ...
7901  2023  ´º       ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ  6.0  100.0  B19  20192367
7904  2023  ´º       ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ  6.0  100.0  B19  20192399
7907  2023  ´º       ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ  6.0  100.0  B19  20192369
7909  2023  ´º       ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ  6.0  100.0  B19  20192393
7920  2023  ´º       ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ  6.0  100.0  B19  20192365
£Û809 rows x 8 columns£Ý
5.5.3Êý¾Ý¼ÆËã
±¾½Ú½«ÌÖÂÛÊý¾ÝµÄ¼òµ¥¼ÆËã¡¢Êý¾Ý¹æ·¶»¯ºÍÀëÉ¢»¯·½·¨¡£
1. ¼òµ¥¼ÆËã
Ò»¸öÊý¾Ý±íÖÐµÄ¸÷×Ö¶Î(»òÁÐ)¿ÉÒÔ½øÐÐ¼Ó¡¢¼õ¡¢³Ë¡¢³ýËÄÔòËãÊõÔËËã£¬½á¹û×÷ÎªÐÂµÄÊý¾ÝÁÐ¡£Á½¸ö²»Í¬Êý¾Ý±íÖÐµÄÊý¾Ý£¬¿ÉÒÔÊ¹ÓÃpandasÖÐÊý¾Ý¿ò(DataFrame)¶ÔÏó£¬ÔÚÔËËãÊ±Í¨¹ý¶ÔÏóË÷Òý×Ô¶¯¶ÔÆë½øÐÐÏàÓ¦ÁÐµÄ¼ÆËã£» Èç¹û²Î¼ÓÔËËãµÄÊý¾Ý¿òÖÐ´æÔÚ²»Í¬Ë÷Òý£¬Ôò½á¹ûË÷ÒýÊÇËùÓÐË÷ÒýµÄ²¢¼¯£¬¶ÔÓ¦²»Í¬Ë÷ÒýµÄÖµ±ê¼ÇÎªNaN¡£Ò²¿ÉÒÔÊ¹ÓÃadd(¼Ó)¡¢sub(¼õ)¡¢div(³ý)ºÍmul(³Ë)µÈ·½·¨£¬½«ÆäËûDataFrame¶ÔÏóµÄÖµ´«ÈëÖ¸¶¨DataFrame¶ÔÏó£¬ÊµÏÖÁ½¸ö²»Í¬Êý¾Ý±íÖÐÊý¾ÝµÄ¼òµ¥¼ÆËã¡£
Àý5.15ÔÚ¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±Êý¾ÝÖÐ£¬¸ù¾ÝÑ§·ÖÓë³É¼¨¼ÆËã±ê×¼³É¼¨£¬¼´Ñ§·Ö¡Á³É¼¨¡£



1:import pandas as pd

2:df=pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:df£Û'±ê×¼·ÖÊý'£Ý=df£Û'Ñ§·Ö'£Ý*df£Û'³É¼¨'£Ý

4:print(df)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡Ñ§Éú³É¼¨¼ÇÂ¼Êý¾Ý¡£µÚ3ÐÐÔö¼ÓÒ»ÁÐ¡°±ê×¼·ÖÊý¡±£¬ÖµÎªÑ§Éú³É¼¨¼ÇÂ¼ÖÐµÄ³É¼¨Ò»ÁÐ³ËÒÔ¶ÔÓ¦Ñ§·ÖÁÐ¡£µÚ4ÐÐ´òÓ¡½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
 Ñ§ÄêÑ§ÆÚ  ¿¼ÊÔ¿ÆÄ¿  ¿¼ÊÔÐÔÖÊ    Ñ§·Ö     ³É¼¨   °à¼¶        Ñ§ºÅ±ê×¼·ÖÊý
0     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   85.0  B15  20151803   85.0
1     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   70.0  B15  20151795   70.0
2     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   80.0  B15  20151819   80.0
3     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   70.0  B15  20151809   70.0
4     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   60.0  B15  20151813   60.0
   ... ...   ...   ...   ...    ...  ...       ...    ...
7917  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0   89.9  B19  20192341  539.4
7918  2023  ´º  ±ÏÒµÉè¼Æ  Õý³£¿¼ÊÔ  11.0   79.9  B19  20192371  878.9
7919  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0   79.9  B19  20192371  479.4
7920  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0  100.0  B19  20192365  600.0
7921  2023  ´º  ±ÏÒµÉè¼Æ  Õý³£¿¼ÊÔ  11.0   79.9  B19  20192365  878.9
£Û7922 rows x 9 columns£Ý
2. Êý¾Ý¹æ·¶»¯
ÔÚÊý¾ÝÎÄ¼þÖÐËùÓÃµÄ¶ÈÁ¿µ¥Î»¿ÉÄÜÓ°ÏìÊý¾Ý·ÖÎö¡£ÀýÈç£¬°ÑÉí¸ßµÄ¶ÈÁ¿µ¥Î»´ÓÃ×±ä³ÉÓ¢´ç£¬°ÑÌåÖØµÄ¶ÈÁ¿µ¥Î»´ÓÇ§¿Ë¸Ä³ÉÊÐ½ï£¬¿ÉÄÜµ¼ÖÂÍêÈ«²»Í¬µÄ½á¹û¡£ÎªÁË±ÜÃâ¶Ô¶ÈÁ¿µ¥Î»Ñ¡ÔñµÄÒÀÀµÐÔ£¬Êý¾ÝÓ¦¸Ã¹æ·¶»¯»ò±ê×¼»¯¡£ÕâÉæ¼°±ä»»Êý¾Ý£¬Ê¹Ö®ÂäÈë½ÏÐ¡µÄ¹²Í¬Çø¼ä£¬Èç£Û-1,1£Ý»ò£Û0.0,1.0£Ý¡£ÔÚÊý¾ÝÔ¤´¦ÀíÖÐ£¬ÊõÓï¡°¹æ·¶»¯¡±ºÍ¡°±ê×¼»¯¡±¿ÉÒÔ»¥»»Ê¹ÓÃ¡£
¹æ·¶»¯Êý¾ÝÊÔÍ¼¸³ÓèËùÓÐÊý¾ÝÁÐÏàµÈµÄÈ¨ÖØ¡£ÓÐÐí¶àÊý¾Ý¹æ·¶»¯µÄ·½·¨£¬±¾½ÚÖ÷Òª½éÉÜ×îÐ¡ª²×î´ó¹æ·¶»¯¡¢z·ÖÊý¹æ·¶»¯ºÍ°´Ð¡Êý¶¨±ê¹æ·¶»¯¡£ÔÚÒÔÏÂµÄÌÖÂÛÖÐ£¬ÁîAÊÇÊýÖµÊôÐÔÁÐ£¬¾ßÓÐn¸ö¹Û²âÖµv1£¬v2£¬¡­£¬vn¡£
1) ×îÐ¡ª²×î´ó¹æ·¶»¯
¶ÔÔ­Ê¼Êý¾Ý½øÐÐÏßÐÔ±ä»»¡£¼ÙÉèminAºÍmaxA·Ö±ðÎªÊý¾ÝÁÐAµÄ×îÐ¡ÖµºÍ×î´óÖµ¡£×îÐ¡ª²×î´ó¹æ·¶»¯Í¨¹ý¼ÆËã


v¡äi=vi£­minAmaxA£­minA(new_maxA£­new_minA)+new_minA(5ª²7)


°ÑAµÄÖµvÓ³Éäµ½Çø¼ä£Ûnew_minA£¬new_maxA£ÝÖÐµÄv¡äi¡£×îÐ¡ª²×î´ó¹æ·¶»¯±£³ÖÔ­Ê¼Êý¾ÝÖµÖ®¼äµÄÁªÏµ¡£Èç¹û½ñºóµÄÊäÈëÊµÀýÂäÔÚAµÄÔ­Êý¾ÝÖµÓòÖ®Íâ£¬Ôò¸Ã·½·¨½«ÃæÁÙ¡°Ô½½ç¡±´íÎó¡£
Àý5.16Ê¹ÓÃ×îÐ¡ª²×î´ó¹æ·¶»¯·½·¨£¬¶Ô¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±Êý¾ÝÖÐµÄ³É¼¨¹æ·¶µ½Çø¼ä£Û0£¬1£Ý¡£



1:import pandas as pd

2:df=pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:print((df£Û"³É¼¨"£Ý-df£Û"³É¼¨"£Ý.min())/(df£Û"³É¼¨"£Ý.max()-df£Û"³É¼¨"£Ý.min()))





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐµ¼ÈëÎÄ¼þ£¬À¨ºÅÖÐÎªÎÄ¼þÂ·¾¶¡£µÚ3ÐÐ´òÓ¡¶Ô³É¼¨×îÐ¡ª²×î´ó¹æ·¶»¯½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
00.076715
10.063177
20.072202
30.063177
40.054152
79170.081137
79180.072112
79190.072112
79200.090253
79210.072112
Name: ³É¼¨, Length: 7922, dtype: float64
2) Ð¡Êý¶¨±ê¹æ·¶»¯
Í¨¹ýÒÆ¶¯Êý¾ÝÁÐAÖµµÄÐ¡ÊýµãÎ»ÖÃ½øÐÐ¹æ·¶»¯¡£Ð¡ÊýµãµÄÒÆ¶¯Î»ÊýÒÀÀµÓÚAµÄ×î´ó¾ø¶ÔÖµ¡£AµÄÖµvi±»¹æ·¶»¯Îªv¡äi£¬ÓÉÊ½(5ª²8)¼ÆËã£º 


v¡äi=vi10j(5ª²8)


ÆäÖÐ£¬jÊÇÊ¹µÃmax (|v¡äi|) <1µÄ×îÐ¡ÕûÊý¡£
Àý5.17¶Ô¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±Êý¾ÝÊ¹ÓÃÐ¡Êý¶¨±ê¹æ·¶»¯¶Ô³É¼¨½øÐÐ¹æ·¶¡£



1:import pandas as pd

2:import numpy as np

3:df=pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

4:df=df£Û'³É¼¨'£Ý/10**np.ceil(np.log10(df£Û'³É¼¨'£Ý.abs().max())) 

5:print(df)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐÒýÈëNumPy¿â¡£
µÚ3ÐÐµ¼ÈëÎÄ¼þ£¬À¨ºÅÖÐÎªÎÄ¼þÂ·¾¶¡£µÚ4ÐÐÊ¹ÓÃÐ¡Êý¶¨±êµÄ¼ÆËã¹«Ê½¶Ô³É¼¨ÁÐ½øÐÐ¼ÆËã¡£µÚ5ÐÐ´òÓ¡ÄâºÏºóµÄ½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
00.00850
10.00700
20.00800
30.00700
40.00600
  
79170.00899
79180.00799
79190.00799
79200.01000
79210.00799
Name: ³É¼¨, Length: 7922, dtype: float64
3. Êý¾ÝÀëÉ¢»¯
ÀëÉ¢»¯ÊÇÖ¸½«Á¬ÐøÊý¾Ý¡¢ÌØÕ÷»ò±äÁ¿×ª»»»ò»®·ÖÎªÀëÉ¢»ò±ê³ÆÊôÐÔ/¼ä¸ôµÄ¹ý³Ì¡£ÏÂÃæ½éÉÜ»ùÓÚPythonµÄ±êÇ©»¯·½·¨ºÍ·ÖÏäÀëÉ¢»¯·½·¨¡£
1) ±êÇ©»¯
ÔÚ½øÐÐÊý¾Ý·ÖÎöÊ±£¬ÓÐÊ±ÐèÒª¶ÔÊý¾ÝÁÐ×ö±êÇ©»¯´¦Àí£¬±ãÓÚÀí½â»òºóÐø´¦Àí¡£ÀýÈç£¬ÔÚ½øÐÐÊý¾Ý¼ÇÂ¼Ê±£¬ÎªÁË·½±ã½«¿¼ÊÔÐÔÖÊÒÔ¡°0£¬1£¬2¡±´æ´¢£¬µ«ÊÇÕâÑù²»ÈÝÒ×Àí½â¡£´ËÊ±£¬¿É¶ÔÕâÐ©Öµ½øÐÐ±êÇ©»¯´¦Àí£¬½«Æä»Ö¸´ÎªÒ×ÓÚÀí½âµÄ¡°Õý³£¿¼ÊÔ¡¢²¹¿¼¡¢ÖØÐÞ¡±ÐÎÊ½¡£
Ê×ÏÈÊ¹ÓÃDataFrameµÄastype()º¯Êý½«Ô­Ê¼Êý¾Ý×ª»»ÎªcategoryÀàÐÍ¡£categoryÀàÐÍÔÚpandasÖÐÊÇºÍstring¡¢intµÈÀàÐÍ²¢ÁÐµÄÒ»ÖÖÊý¾ÝÀàÐÍ£¬ÖÐÎÄ·­Òë¿ÉÒÔÀí½âÎª·ÖÀà¡£categoryÀàÐÍ¿ÉÒÔÓÐÐ§µØ¶ÔÊý¾Ý½øÐÐ·Ö×é½øÐÐ»ã×ÜÍ³¼Æ¹¤×÷¡£È»ºó£¬ÀûÓÃcat.categories()ÎªÊý¾ÝÖµ¹Ò±êÇ©Ê±£¬¸³ÖµµÄÊ±ºòÊÇ°´ÕÕË³Ðò½øÐÐ¶ÔÓ¦µÄ¡£
Àý5.18¡°2017ÄêÑ§Éú³É¼¨¼ÇÂ¼½ÚÑ¡.xlsx¡±Êý¾ÝÈçÍ¼5ª²15ËùÊ¾¡£Êý¾ÝÁÐ·Ö±ðÎª¡°Ñ§Äê¡±¡°Ñ§ÆÚ¡±¡°¿¼ÊÔ¿ÆÄ¿¡±¡°¿¼ÊÔÐÔÖÊ¡±¡°Ñ§·Ö¡±¡°³É¼¨¡±¡°°à¼¶¡±¡°Ñ§ºÅ¡±¡£ÇëÎª¿¼ÊÔÐÔÖÊÉèÖÃ±êÇ©¡°0¡±(Õý³£¿¼ÊÔ)¡¢¡°1¡±(²¹¿¼)¡¢¡°2¡±(ÖØÐÞ)¡£



Í¼5ª²152017ÄêÑ§Éú³É¼¨¼ÇÂ¼½ÚÑ¡





1:import pandas as pd

2:df=pd.read_excel(r'C:/case/2017ÄêÑ§Éú³É¼¨¼ÇÂ¼½ÚÑ¡.xlsx')

3:df£Û'¿¼ÊÔÐÔÖÊ_±êÇ©'£Ý=df£Û'¿¼ÊÔÐÔÖÊ'£Ý.astype('category')

4:df£Û'¿¼ÊÔÐÔÖÊ_±êÇ©'£Ý.cat.categories=£Û'0','1','2'£Ý

5:print(df)


¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡Êý¾Ý¡£µÚ3ÐÐ½«¿¼ÊÔÐÔÖÊÁÐ±äÎªcategoryÀàÐÍ²¢ÃüÃûÁÐÎª¿¼ÊÔÐÔÖÊ_±êÇ©¡£µÚ4ÐÐ½«¿¼ÊÔÐÔÖÊ_±êÇ©ÁÐÍ¨¹ýcat.categories()º¯Êý½øÐÐ±êÇ©¡°0¡±¡°1¡±¡°2¡±´¦Àí¡£µÚ5ÐÐÊä³ö¹ÒÉÏ±êÇ©ÒÔºóµÄÊý¾Ý¡£
¡¾ÔËÐÐ½á¹û¡¿
Ñ§Äê Ñ§ÆÚ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊÑ§·Ö³É¼¨°à¼¶ Ñ§ºÅ ¿¼ÊÔÐÔÖÊ_
±êÇ©
02017  ´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ2.0 60.1 B1520151809 0
12017´ºÖ¤È¯Í¶×ÊÑ§ Õý³£¿¼ÊÔ2.0 60.1   B1520151845     0
22017  ´º ÆóÒµ¹ÜÀíÕý³£¿¼ÊÔ1.5 76.0 B1520151801     0
32017  ´º ÆóÒµ¹ÜÀíÕý³£¿¼ÊÔ1.5 80.0   B1520151851 0
42017  ´ºÖ¤È¯Í¶×ÊÑ§   Õý³£¿¼ÊÔ2.0 60.1 B1520151803 0
...... ... ............ ... ......
10442017Çï¸ßµÈÊýÑ§(A)¢ñÕý³£¿¼ÊÔ4.0 82.0B1720172043 0
10452017Çï¸ßµÈÊýÑ§(A)¢ñÕý³£¿¼ÊÔ4.0 55.0B1720171997 0
10462017Çï¸ßµÈÊýÑ§(A)¢ñÕý³£¿¼ÊÔ4.0100.0B1720172013 0
10472017Çï¸ßµÈÊýÑ§(A)¢ñÕý³£¿¼ÊÔ4.0 55.0B1720172037 0
10482017Çï¸ßµÈÊýÑ§(A)¢ñÕý³£¿¼ÊÔ4.0 61.0B1720172007 0
£Û1049 rows x 9 columns£Ý
2) ·ÖÏäÀëÉ¢»¯
Ê¹ÓÃpandas¿âÏÂµÄcut£¨£©º¯ÊýÊµÏÖ¶ÔÊýÖµÐÍÊý¾Ý·Ö¶Î±êÇ©,ÆäÓï·¨¸ñÊ½Îª


pandas.cut(x,bins ,right=True,labels=None,retbins =False,precision= 3 ,include_lowest=False)



ÆäÖÐ,²ÎÊý½âÊÍÈç±í5ª²17ËùÊ¾¡£


±í5ª²17pandas.cut()º¯Êý²ÎÊýÃèÊö



²ÎÊý
ÃèÊö

x
½«Òª²Ù×÷µÄÒ»Î¬Êý×é¶ÔÏó
bins
½«Òª¶ÔxÊý×éÖÐµÄÃ¿¸öÔªËØ¹éµ½bins¸ö×éÖÐ(¼ä¾à²»Ò»¶¨ÏàµÈ)£¬ÓÐÁ½ÖÖÐÎÊ½£º ÕûÊý¡¢ÐòÁÐ¡£Èç¹ûbinsÊÇÒ»¸öÕûÊý£¬Ëü¶¨ÒåÁËx¿í¶È·¶Î§ÄÚµÄµÈ¿íÃæÔªÊýÁ¿£¬µ«ÊÇÔÚÕâÖÖÇé¿öÏÂ£¬xµÄ·¶Î§ÔÚÃ¿¸ö±ßÉÏ±»ÑÓ³¤1%£¬ÒÔ±£Ö¤°üÀ¨xµÄ×îÐ¡Öµ»ò×î´óÖµ¡£Èç¹ûbinsÊÇÐòÁÐ£¬Ëü¶¨ÒåÁËÔÊÐí·Ç¾ùÔÈbin¿í¶ÈµÄbin±ßÔµ£¬ÔÚÕâÖÖÇé¿öÏÂÃ»ÓÐxµÄ·¶Î§µÄÀ©Õ¹
right
·Ö×éÊ±ÊÇ·ñ°üº¬ÓÒ±ßµÄÖµ(¼´Çø¼äÓÒ±ßÊÇ·ñÊÇ±ÕºÏ)£¬ÐÎÊ½£º right = True
labels
ÊÇ·ñÓÃ±êÇ©À´´úÌæ·Ö×éµÄ½á¹û¡£±ØÐëÓë½á¹ûÏäÏàÍ¬³¤¶È£¬±ÈÈçbins=£Û1,2,3£Ý£¬»®·ÖºóÓÐÁ½¸öÇø¼ä(1,2£Ý,(2,3£Ý£¬ÔòlabelsµÄ³¤¶È±ØÐëÎª2
retbins
Îª²¼¶ûÖµ£¬Ä¬ÈÏÎªFalse¡£±íÊ¾ÊÇ·ñ½«·Ö¸îºóµÄbins·µ»Ø£¬µ±binsÎªÒ»¸öintÐÍµÄ±êÁ¿Ê±±È½ÏÓÐÓÃ£¬ÕâÑùµÃµ½»®·ÖºóµÄÇø¼ä
precision
¾«¶È£¬Ä¬ÈÏÎª3
include_lowest
ÊÇ²¼¶ûÖµ£¬Ä¬ÈÏÎªFalse¡£±íÊ¾Çø¼äµÄ×ó±ßÊÇ¿ª»¹ÊÇ±Õ£¬µ±ÎªFalseÊ±,²»°üº¬Çø¼ä×ó²¿


Àý5.19½«ÉÏÊö¡°Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx¡±Êý¾Ý£¬¸ù¾Ý³É¼¨ÁÐµÄÊýÖµ£¬½øÐÐ·Ö¶Î±êÇ©´¦Àí£¬²¢½«´ËÁÐÃüÃûÎª¡°³É¼¨_Çø¼ä¡±¡£



1:import pandas as pd

2:df= pd.read_excel(r'C:/case/Ñ§Éú³É¼¨¼ÇÂ¼(È¥È±Ê§Öµ).xlsx')

3:listBins = £Û0,59,69,79,89,100£Ý

4:listlabels = £Û'0-59', '60-69', '70-79', '80-89','90-100'£Ý

5:df£Û'³É¼¨_Çø¼ä'£Ý=pd.cut(df£Û'³É¼¨'£Ý, bins = listBins, labels = listlabels,right=True)

6:print(df)





¡¾ÀýÌâ½âÎö¡¿
µÚ1ÐÐÒýÈëpandas¿â¡£µÚ2ÐÐ¶ÁÈ¡Ñ§Éú³É¼¨¼ÇÂ¼Êý¾Ý,ÒýºÅÄÚÎªÎÄ¼þÎ»ÖÃ¡£µÚ3ÐÐ¶¨Òå³É¼¨µÄ·Ö×éµÄÁÐ±í¡£µÚ4ÐÐ¸ù¾Ý³É¼¨·Ö×é´´½¨±êÇ©µÄÁÐ±í¡£µÚ5ÐÐÊ¹ÓÃcut£¨£©º¯Êý½«Ñ§Éú³É¼¨¼ÇÂ¼Êý¾ÝµÄ³É¼¨ÁÐ°´listBins·Ö×é£¬²¢Ê¹ÓÃlistlabelsµÄ±êÇ©À´´úÌæ·Ö×éµÄ½á¹û£¬²¢¸³Öµ¸ødf£Û'³É¼¨_Çø¼ä'£Ý¡£µÚ6ÐÐÊä³ö½á¹û¡£
¡¾ÔËÐÐ½á¹û¡¿
Ñ§ÄêÑ§ÆÚ¿¼ÊÔ¿ÆÄ¿¿¼ÊÔÐÔÖÊÑ§·Ö³É¼¨°à¼¶ Ñ§ºÅ³É¼¨_Çø¼ä
0     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   85.0 B15  20151803   80ª²89
1     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   70.0  B15  20151795   70ª²79
2     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   80.0  B15  20151819   80ª²89
3     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   70.0  B15  20151809   70ª²79
4     2015  Çï   ÌåÓý¢ñ  Õý³£¿¼ÊÔ   1.0   60.0  B15  20151813   60ª²69
   ... ...   ...   ...   ...    ...  ...      ...     ...
7917  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0   89.9  B19  20192341  90ª²100
7918  2023  ´º ±ÏÒµÉè¼Æ  Õý³£¿¼ÊÔ  11.0   79.9  B19  20192371   80ª²89
7919  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0   79.9  B19  20192371   80ª²89
7920  2023  ´º  ±ÏÒµÊµÏ°  Õý³£¿¼ÊÔ   6.0  100.0  B19  20192365  90ª²100
7921  2023  ´º  ±ÏÒµÉè¼Æ  Õý³£¿¼ÊÔ  11.0   79.9  B19  20192365   80ª²89
£Û7922 rows x 9 columns£Ý
Ð¡½á
Êý¾Ý·ÖÎöÒÀÀµÓÚÊý¾ÝÖÊÁ¿£¬¸ßÖÊÁ¿µÄÊý¾Ý²Å¿ÉÄÜµÃ³ö¸ßÖÊÁ¿µÄ½á¹û¡£Òò´Ë±¾ÕÂÖ÷Òª½éÉÜÊý¾ÝÔ¤´¦ÀíµÄÖ÷Òª²½ÖèºÍÏà¹Ø·½·¨£¬°üÀ¨Êý¾ÝÇåÏ´¡¢Êý¾Ý¼¯³É¡¢Êý¾Ý¹æÔ¼ºÍÊý¾Ý±ä»»µÈ¡£
ÔÚÊý¾ÝÇåÏ´·½Ãæ£¬Ö÷Òª½éÉÜÁËÖØ¸´Öµ¡¢È±Ê§ÖµºÍÔëÉùµÄ¼ì²âÓë´¦Àí¡£ÆäÖÐ£¬ÖØ¸´ÖµµÄ¼ì²âÒ»°ãÊ¹ÓÃPythonµÄduplicated()º¯Êý£¬ÖØ¸´ÖµµÄÉ¾³ýÒ»°ãÊ¹ÓÃdrop_duplicates()º¯Êý£» È±Ê§ÖµµÄ¼ì²âÒ»°ãÊ¹ÓÃisnull()º¯Êý£¬É¾³ýÊ¹ÓÃdropna()º¯Êý£¬Ìî³äÊ¹ÓÃfillna()º¯Êý£» ³£ÓÃµÄÊý¾ÝÆ½»¬È¥ÔëµÄ¼¼ÊõÓÐ·ÖÏä(Binning)¡¢»Ø¹é(Regression)ºÍÀëÈºµã·ÖÎö(Outlier Analysis)¡£
ÔÚÊý¾Ý¼¯³É·½Ãæ£¬Ö÷Òª½éÉÜÁËÊµÌåÊ¶±ðÎÊÌâ£¬Ê¹ÓÃ¼ÙÉè¼ìÑé·½·¨½øÐÐÊý¾ÝÈßÓàÎÊÌâµÄÊ¶±ðÒÔ¼°Êý¾ÝÖµ³åÍ»ÎÊÌâ£» ÔÚÊý¾Ý¹éÔ¼·½Ãæ£¬ÖØµã½éÉÜÁË´ÓÁÐµÄ½Ç¶ÈÑ¡Ôñ¶ÔÊý¾Ý·ÖÎö½á¹û½ÏÎªÖØÒª×÷ÓÃµÄÁÐµÄ·½·¨£¬¼´ÊôÐÔ×Ó¼¯Ñ¡Ôñ£» ´ÓÐÐµÄ½Ç¶È³ö·¢£¬¶ÔÊý¾Ý½øÐÐËæ»ú³éÑù£¬·Ö²ã³éÑùÒÔ¼°´Ø³éÑùµÄ·½·¨¡£
ÔÚÊý¾Ý±ä»»·½Ãæ£¬Ö÷Òª½éÉÜÁËÊý¾ÝµÄºÏ²¢¡¢³éÈ¡ºÍ¼ÆËã·½·¨¡£ÆäÖÐ£¬Êý¾ÝµÄºÏ²¢¿ÉÒÔÍ¨¹ýPythonµÄconcat()º¯Êý¡¢merge()º¯Êý¡¢join()º¯ÊýºÍappend()º¯ÊýÊµÏÖ£» Êý¾ÝµÄ³éÈ¡°üÀ¨×ÝÏòÊý¾Ý³éÈ¡ºÍºáÏòÊý¾Ý³éÈ¡£¬¹ØÓÚ×ÝÏòÊý¾Ý³éÈ¡½éÉÜÁËsplit()º¯ÊýºÍslice()º¯Êý£¬ºáÏòÊý¾Ý³éÈ¡¿ÉÒÔ²ÉÓÃPythonµÄdataframe£Ûcondition£Ý£» ¹ØÓÚÊý¾ÝµÄ¼ÆËã£¬Ö÷Òª½éÉÜÁË¼òµ¥¼ÆËã¡¢Êý¾ÝµÄ¹æ·¶»¯ÒÔ¼°ÀëÉ¢»¯¡£
Ï°Ìâ
Çë´ÓÒÔÏÂ¸÷ÌâÖÐÑ¡³öÕýÈ·´ð°¸(ÕýÈ·´ð°¸¿ÉÄÜ²»Ö¹Ò»¸ö)¡£
1. Êý¾ÝÇåÏ´Í¨³£°üÀ¨ÒÔÏÂÄÄÖÖ£¿()

A. ÖØ¸´Öµ´¦ÀíB. È±Ê§Öµ´¦ÀíC. Òì³£Öµ´¦ÀíD. ÒÔÉÏ¾ù²»ÊÇ
2. ¸ø¶¨Ò»×éÊý¾Ý£¬ÈçÍ¼5ª²14ËùÊ¾£¬·ÖÎöÃ¿ÃÅ¿ÎµÄÆ½¾ù³É¼¨£¬ÐèÒª½øÐÐÊ²Ã´ÑùµÄÊý¾ÝÇåÏ´£¿()


Í¼5ª²14Æ½¾ù³É¼¨


A. È¥ÖØB. È±Ê§ÖµÌî³ä
C. ÔëÉùÆ½»¬D. ÒÔÉÏ¾ù²»¶Ô
3. ÒÔÏÂ¹ØÓÚdrop_duplicatesº¯ÊýµÄËµ·¨ÖÐ´íÎóµÄÊÇ£¨£©¡£
A. ½ö¶ÔDataframeºÍSeriesÀàÐÍµÄÊý¾ÝÓÐÐ§
B. ½öÖ§³Öµ¥Ò»ÌØÕ÷µÄÊý¾ÝÈ¥ÖØ
C. Êý¾ÝÖØ¸´Ê±Ä¬ÈÏ±£ÁôµÚÒ»¸öÊý¾Ý
D. ¸Ãº¯Êý²»»á¸Ä±äÔ­Ê¼Êý¾ÝÅÅÁÐ
4. ()ÊÇÒ»¸ö¹Û²âÖµ,ËüÓëÆäËû¹Û²âÖµµÄ²î±ðÈç´ËÖ®´ó£¬ÒÔÖÁÓÚ»³ÒÉËüÊÇÓÉ²»Í¬µÄ»úÖÆ²úÉúµÄ¡£
A. ±ß½çµãB. ÖÊÐÄC. ÀëÈºµãD. ºËÐÄµã
5. ½«Ô­Ê¼Êý¾Ý½øÐÐ¼¯³É¡¢±ä»»¡¢Î¬¶È¹æÔ¼¡¢ÊýÖµ¹æÔ¼ÊÇÔÚÒÔÏÂÄÄ¸ö²½ÖèµÄÈÎÎñ£¿()
A. Æµ·±Ä£Ê½ÍÚ¾òB. ·ÖÀàºÍÔ¤²âC. Êý¾ÝÔ¤´¦ÀíD. Êý¾ÝÁ÷ÍÚ¾ò
6. ¼ÙÉè12¸öÏúÊÛ¼Û¸ñ¼ÇÂ¼×éÒÑ¾­ÅÅÐòÈçÏÂ£º 5£¬10£¬11£¬13£¬15£¬35£¬50£¬55£¬72£¬92£¬204£¬215£¬Ê¹ÓÃÈçÏÂÃ¿ÖÖ·½·¨½«ËüÃÇ»®·Ö³ÉËÄ¸öÏä¡£µÈÆµ(µÈÉî)»®·ÖÊ±£¬15ÔÚµÚ¼¸¸öÏä×ÓÄÚ)£¿()
A. µÚÒ»¸öB. µÚ¶þ¸öC. µÚÈý¸öD. µÚËÄ¸ö
7. ¼ÙÉèÊôÐÔincomeµÄ×î´ó×îÐ¡Öµ·Ö±ðÊÇ12000ÔªºÍ98000Ôª¡£ÀûÓÃ×î´ó×îÐ¡¹æ·¶»¯µÄ·½·¨½«ÊôÐÔµÄÖµÓ³Éäµ½0~1µÄ·¶Î§ÄÚ¡£¶ÔÊôÐÔincomeµÄ73600Ôª½«±»×ª»»Îª()¡£
A. 0.821B. 1.224C. 1.458D. 0.716
8. ¹ØÓÚÏÂÁÐÊý¾ÝºÏ²¢º¯ÊýµÄËµ·¨´íÎóµÄÊÇ()¡£
A. join()£¬Ö÷ÒªÓÃÓÚ»ùÓÚË÷ÒýµÄ×ÝÏòºÏ²¢Æ´½Ó
B. merge()£¬Ö÷ÒªÓÃÓÚ»ùÓÚÖ¸¶¨ÁÐµÄºáÏòºÏ²¢Æ´½Ó
C. concat()£¬¿ÉÓÃÓÚºáÏòºÍ×ÝÏòºÏ²¢Æ´½Ó
D. append()£¬Ö÷ÒªÓÃÓÚ×ÝÏò×·¼Ó


9. u = "www.doiido.com.cn"
print (u.split('.',1))


ÏÂÁÐÊä³ö½á¹ûÕýÈ·µÄÊÇ()¡£
A. £Û'www', 'doiido', 'com',' cn'£Ý
B. £Û'www', 'doiido', 'com.cn'£Ý
C. £Û'www', 'doiido.com', 'cn'£Ý
D. £Û'www', 'doiido.com.cn'£Ý
10. ÈôÖªµÀÊý¾ÝµÄMax(×î´óÖµ)¡¢Min(×îÐ¡Öµ)¡¢mu(¾ùÖµ)¡¢sigma(±ê×¼²î)¡£ÏÂÁÐ¼¸ÖÖÊý¾Ý±ê×¼»¯º¯ÊýÕýÈ·µÄÊÇ()¡£
A. (0,1)±ê×¼»¯£º 


defMaxMinNormalization(x,Max,Min)£º 

x = (x - Min) / (Max - Min)

return x





B. Zª²score±ê×¼»¯£º 


defZ_ScoreNormalization(x,mu,sigma)£º 

x = (x - mu) / sigma

return x



C. Sigmoidº¯Êý£º 


defsigmoid(X,useStatus)£º 

if useStatus£º 

return 1.0 / (1 + np.exp(-float(X)))

else£º 

return float(X)



D. ÒÔÉÏ¾ùÕýÈ·