µÚ3ÕÂ¡þÊý¾ÝÔ¤´¦Àí
ÏÖÊµÖÐ»ñµÃµÄÊý¾Ý¼«Ò×ÊÜµ½ÔëÉù¡¢È±Ê§ÖµºÍ²»Ò»ÖÂÊý¾ÝµÄÓ°Ïì¡£Êý¾ÝÔ¤´¦ÀíÊÇÊý¾ÝÍÚ¾ò¹ý³ÌµÄµÚ1¸ö²½Öè£¬Ö÷ÒªÓÐÊý¾ÝÇå
Ï´¡¢Êý¾Ý¼¯³É¡¢Êý¾Ý±ê×¼»¯¡¢Êý¾Ý¹éÔ¼¡¢Êý¾Ý±ä»»ºÍÊý¾ÝÀëÉ¢»¯µÈ·½·¨¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.1Êý¾ÝÔ¤´¦ÀíµÄ±ØÒªÐÔ

Êý¾ÝµÄÖÊÁ¿¾ö¶¨ÁËÊý¾ÝÍÚ¾òµÄÐ§¹û£¬Òò´Ë£¬ÔÚÊý¾ÝÍÚ¾òÖ®Ç°Òª¶ÔÊý¾Ý½øÐÐÔ¤´¦ÀíÒÔÌá¸ßÊý¾ÝÖÊÁ¿£¬´Ó¶ø¸ÄÉÆÊý¾ÝÍÚ¾òµÄÐ§¹û¡£

3.1.1Ô­Ê¼Êý¾ÝÖÐ´æÔÚµÄÎÊÌâ

ÏÖÊµÊÀ½çÖÐµÄÊý¾Ý´ó¶à¶¼ÊÇ¡°Ôà¡±µÄ£¬Ö÷Òª´æÔÚÒÔÏÂÎÊÌâ¡£

1. Êý¾Ý²»Ò»ÖÂ

Ô­Ê¼Êý¾ÝÊÇ´Ó¸÷ÖÖÊµ¼ÊÓ¦ÓÃÏµÍ³ÖÐ»ñÈ¡µÄ¡£ÓÉÓÚ¸÷Ó¦ÓÃÏµÍ³µÄÊý¾ÝÈ±·¦Í³Ò»µÄ±ê×¼ºÍ¶¨Òå£¬Êý¾Ý½á¹¹Ò²ÓÐ½Ï´óµÄ²îÒì£¬Òò´Ë¸÷ÏµÍ³¼äµÄÊý¾Ý´æÔÚÑÏÖØµÄ²»Ò»ÖÂÐÔ¡£ÀýÈç£¬Ä³Êý¾Ý¿âÖÐ²»Í¬±íÖÐµÄÊý¾Ý²ÉÓÃÁË²»Í¬µÄ¼ÆÁ¿µ¥Î»¡£

2. ÔëÉùÊý¾Ý

ÊÕ¼¯Êý¾ÝÊ±ºÜÄÑµÃµ½¾«È·µÄÊý¾Ý£¬Êý¾Ý²É¼¯Éè±¸¿ÉÄÜ»á³öÏÖ¹ÊÕÏ£¬Êý¾Ý´«Êä¹ý³ÌÖÐ¿ÉÄÜ»á³öÏÖ´íÎó»ò´æ´¢½éÖÊËð»µµÈÇé¿ö£¬ÕâÐ©¶¼»áµ¼ÖÂÔëÉùÊý¾ÝµÄ³öÏÖ¡£

3. È±Ê§Öµ

ÓÉÓÚÏµÍ³Éè¼ÆÊ±¿ÉÄÜ´æÔÚÈ±ÏÝ»òÔÚÏµÍ³Ê¹ÓÃ¹ý³ÌÖÐÈËÎªÒòËØµÄÓ°Ïì£¬Êý¾Ý¼ÇÂ¼ÖÐ¿ÉÄÜ³öÏÖÓÐÐ©Êý¾ÝÊôÐÔÖµ¶ªÊ§»ò²»È·¶¨µÄÇé¿ö£¬´Ó¶øÔì³ÉÊý¾ÝµÄ²»ÍêÕû¡£ÀýÈç£¬Êý¾Ý²É¼¯´«¸ÐÆ÷³öÏÖ¹ÊÕÏ£¬µ¼ÖÂÒ»²¿·ÖÊý¾ÝÎÞ·¨²É¼¯¡£

3.1.2Êý¾ÝÖÊÁ¿ÒªÇó

Êý¾ÝÍÚ¾òÐèÒªµÄÊý¾Ý±ØÐëÊÇ¸ßÖÊÁ¿µÄÊý¾Ý£¬¼´Êý¾ÝÍÚ¾òËù´¦ÀíµÄÊý¾Ý±ØÐë¾ßÓÐ×¼È·ÐÔ(Correctness)¡¢ÍêÕûÐÔ(Completeness)ºÍÒ»ÖÂÐÔ(Consistency)µÈÐÔÖÊ¡£´ËÍâ£¬Ê±Ð§ÐÔ(Timeliness)¡¢¿ÉÐÅÐÔ(Believability)ºÍ¿É½âÊÍÐÔ(Interpretability)Ò²»áÓ°ÏìÊý¾ÝµÄÖÊÁ¿¡£





1. ×¼È·ÐÔ

×¼È·ÐÔÊÇÖ¸Êý¾Ý¼ÇÂ¼µÄÐÅÏ¢ÊÇ·ñ´æÔÚÒì³£»ò´íÎó¡£

2. ÍêÕûÐÔ

ÍêÕûÐÔÊÇÖ¸Êý¾ÝÐÅÏ¢ÊÇ·ñ´æÔÚÈ±Ê§µÄÇé¿ö¡£Êý¾ÝÈ±Ê§¿ÉÄÜÊÇÕûÌõÊý¾Ý¼ÇÂ¼µÄÈ±Ê§£¬Ò²¿ÉÄÜÊÇÊý¾ÝÖÐÄ³¸öÊôÐÔÖµµÄÈ±Ê§¡£

3. Ò»ÖÂÐÔ

Ò»ÖÂÐÔÊÇÖ¸Êý¾ÝÊÇ·ñ×ñÑ­ÁËÍ³Ò»µÄ¹æ·¶£¬Êý¾Ý¼¯ºÏÊÇ·ñ±£³ÖÁËÍ³Ò»µÄ¸ñÊ½¡£

4. Ê±Ð§ÐÔ

Ê±Ð§ÐÔÊÇÖ¸Ä³Ð©Êý¾ÝÊÇ·ñÄÜ¼°Ê±¸üÐÂ¡£¸üÐÂÊ±¼äÔ½¶Ì£¬Ê±Ð§ÐÔÔ½Ç¿¡£

5. ¿ÉÐÅÐÔ

¿ÉÐÅÐÔÊÇÖ¸ÓÃ»§ÐÅÀµµÄÊý¾ÝµÄÊýÁ¿¡£ÓÃ»§ÐÅÀµµÄÊý¾ÝÔ½¶à£¬¿ÉÐÅÐÔÔ½Ç¿¡£

6. ¿É½âÊÍÐÔ

¿É½âÊÍÐÔÊÇÖ¸Êý¾Ý×ÔÉíÊÇ·ñÒ×ÓÚÀí½â¡£Êý¾Ý×ÔÉíÔ½ÈÝÒ×±»ÈËÀí½â£¬¿É½âÊÍÐÔÔ½Ç¿¡£

Õë¶ÔÊý¾ÝÖÐ´æÔÚµÄÎÊÌâºÍÊý¾ÝÖÊÁ¿ÒªÇó£¬Êý¾ÝÔ¤´¦Àí¹ý³ÌÖ÷Òª°üÀ¨Êý¾ÝÇåÏ´¡¢Êý¾Ý¼¯³É¡¢Êý¾Ý¹éÔ¼ºÍÊý¾Ý±ä»»µÈ·½·¨¡£

3.2Êý¾ÝÇåÏ´

ÏÖÊµÊÀ½çÖÐµÄÊý¾ÝÒ»°ãÊÇ²»ÍêÕûµÄ¡¢ÓÐÔëÉùµÄ»ò²»Ò»ÖÂµÄ¡°Ôà¡±Êý¾Ý£¬ÎÞ·¨Ö±½Ó½øÐÐÊý¾ÝÍÚ¾ò»òÍÚ¾ò½á¹ûÎÞ·¨ÁîÈËÂúÒâ¡£Êý¾ÝÇåÏ´ÊÔÍ¼Ìî³äÈ±Ê§µÄÊý¾ÝÖµ¡¢¹â»¬ÔëÉù¡¢Ê¶±ðÀëÈºµã²¢¾ÀÕýÊý¾ÝÖÐµÄ²»Ò»ÖÂ¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.2.1Êý¾ÝÇåÏ´·½·¨
1. È±Ê§ÖµµÄ´¦Àí

Êý¾ÝÔÚÊÕ¼¯ºÍ±£´æ¹ý³ÌÖÐ£¬ÓÉÓÚ»úÐµ¹ÊÕÏ»òÈËÎªµÄÖ÷¹ÛÊ§Îó¡¢ÀúÊ·¾ÖÏÞ»òÓÐÒâÒþÂ÷µÈÒòËØ£¬»áÔì³ÉÊý¾ÝµÄÈ±Ê§¡£¶ÔÈ±Ê§ÖµµÄ´¦ÀíÖ÷ÒªÓÐÒÔÏÂ·½·¨¡£

1) ºöÂÔÔª×é

Ò»°ãÈ±ÉÙÀà±êºÅÊ±Ö±½ÓºöÂÔÔª×é¡£³ý·ÇÔª×éÓÐ¶à¸öÊôÐÔÈ±ÉÙÖµ£¬·ñÔò¸Ã·½·¨²»ÊÇºÜÓÐÐ§¡£µ±Ã¿¸öÊôÐÔÈ±Ê§ÖµµÄ°Ù·Ö±È±ä»¯ºÜ´óÊ±£¬ËüµÄÐÔÄÜÌØ±ð²î¡£²ÉÓÃºöÂÔÔª×éµÄ·½·¨»áµ¼ÖÂ²»ÄÜÊ¹ÓÃ¸ÃÔª×éµÄÊ£ÓàÊôÐÔÖµ£¬¶øÕâÐ©Êý¾Ý¿ÉÄÜ¶ÔÊý¾Ý·ÖÎöÊÇÓÐÓÃµÄ¡£

2) ÈË¹¤ÌîÐ´È±Ê§Öµ

Ò»°ãÀ´Ëµ£¬¸Ã·½·¨ºÜ·ÑÊ±£¬²¢ÇÒµ±Êý¾Ý¼¯ºÜ´ó¡¢È±Ê§ÖµºÜ¶àÊ±£¬¸Ã·½·¨²»Ì«¿ÉÐÐ¡£

3) Ê¹ÓÃÒ»¸öÈ«¾Ö³£Á¿Ìî³äÈ±Ê§Öµ

½«È±Ê§µÄÊôÐÔÖµÓÃÍ¬Ò»¸ö³£Á¿(ÈçUnknown»ò-¡Þ)Ìî³ä¡£Èç¹ûÈ±Ê§Öµ¶¼ÓÃUnknownÌæ»»£¬ÔòÍÚ¾ò³ÌÐò¿ÉÄÜÎóÒÔÎªËüÃÇÐÎ³ÉÁËÒ»¸öÓÐÈ¤µÄ¸ÅÄî£¬ÒòÎªËüÃÇ¶¼¾ßÓÐÏàÍ¬µÄÖµ¡£Òò´Ë£¬¾¡¹Ü¸Ã·½·¨¼òµ¥£¬µ«ÊÇ²¢²»Ê®·Ö¿É¿¿¡£

4) Ê¹ÓÃÊôÐÔµÄÖÐÐÄÇ÷ÊÆ¶ÈÁ¿(Èç¾ùÖµ»òÖÐÎ»Êý)Ìî³äÈ±Ê§Öµ

ÖÐÐÄÇ÷ÊÆ¶ÈÁ¿Ö¸Ê¾Êý¾Ý·Ö²¼µÄ¡°ÖÐ¼ä¡±Öµ¡£¶ÔÓÚÕý³£µÄ¡°¶Ô³Æ¡±Êý¾Ý·Ö²¼£¬¿ÉÒÔÊ¹ÓÃ¾ùÖµ£» ¶ÔÓÚÇãÐ±Êý¾Ý·Ö²¼£¬Ó¦¸ÃÊ¹ÓÃÖÐÎ»ÊýÌî³ä¡£ÀýÈç£¬¼Ù¶¨ All ElectronicsµÄ¹Ë¿ÍÊÕÈëµÄÊý¾Ý·Ö²¼ÊÇ¶Ô³ÆµÄ£¬²¢ÇÒÆ½¾ùÊÕÈëÎª56000ÃÀÔª£¬ÔòÊ¹ÓÃ¸ÃÖµÌæ»»incomeÖÐµÄÈ±Ê§Öµ¡£

5) Ê¹ÓÃÓë¸ø¶¨Ôª×éÊôÓÚÍ¬Ò»ÀàµÄËùÓÐÑù±¾µÄÊôÐÔ¾ùÖµ»òÖÐÎ»ÊýÌî³äÈ±Ê§Öµ

ÀýÈç£¬Èç¹û½«¹Ë¿Í°´Credit Risk£¨ÐÅÓÃ·çÏÕ£©·ÖÀà£¬ÔòÓÃ¾ßÓÐÏàÍ¬ÐÅÓÃ·çÏÕµÄ¹Ë¿ÍµÄÆ½¾ùÊÕÈë
Ìî³äincomeÖÐµÄÈ±Ê§Öµ¡£Èç¹û¸ø¶¨ÀàµÄÊý¾Ý·Ö²¼ÊÇÇãÐ±µÄ£¬ÖÐÎ»ÊýÊÇ¸üºÃµÄÑ¡Ôñ¡£

6) Ê¹ÓÃ×î¿ÉÄÜµÄÖµÌî³äÈ±Ê§Öµ

¿ÉÒÔÓÃ»Ø¹é¡¢±´Ò¶Ë¹ÐÎÊ½»¯·½·¨µÈ»ùÓÚÍÆÀíµÄ¹¤¾ß»ò¾ö²ßÊ÷¹éÄÉÈ·¶¨¡£ÀýÈç£¬ÀûÓÃÊý¾Ý¼¯ÖÐÆäËû¹Ë¿ÍµÄÊôÐÔ£¬¿ÉÒÔ¹¹ÔìÒ»¿Ã¾ö²ßÊ÷Ô¤²âÈ±Ê§Öµ¡£

2. ÔëÉùÊý¾ÝµÄ´¦Àí

ÔëÉù(Noise)ÊÇ±»²âÁ¿µÄËæ»úÎó²î»ò·½²î¡£ÔëÉùµÄ´¦Àí·½·¨Ò»°ãÓÐ·ÖÏä¡¢»Ø¹éºÍÀëÈºµã·ÖÎöµÈ¡£

1) ·ÖÏä

·ÖÏä(Binning)·½·¨Í¨¹ý¿¼²éÊý¾ÝµÄ¡°½üÁÚ¡±(¼´ÖÜÎ§µÄÖµ)¹â»¬ÓÐÐòÊý¾ÝÖµ¡£ÕâÐ©ÓÐÐòµÄÊýÖµ±»»®·Öµ½Ò»Ð©¡°Í°¡±»ò¡°Ïä¡±ÖÐ¡£ÓÉÓÚ·ÖÏä·½·¨¿¼²é½üÁÚµÄÖµ£¬Òò´ËËü½øÐÐµÄÊÇ¾Ö²¿¹â»¬¡£ÀàËÆµØ£¬¿ÉÒÔÊ¹ÓÃÏäÖÐÊý¾ÝµÄÖÐÎ»Êý¹â»¬£¬´ËÊ±£¬ÏäÖÐµÄÃ¿¸öÖµ¶¼±»Ìæ»»Îª¸ÃÏäÖÐµÄÖÐÎ»Êý¡£¶ÔÓÚÓÃÏä±ß½ç¹â»¬£¬¸ø¶¨ÏäÖÐµÄ×î´óÖµºÍ×îÐ¡ÖµÍ¬Ñù±»ÊÓÎªÏä±ß½ç£¬¶øÏäÖÐµÄÃ¿¸öÖµ¶¼±»Ìæ»»ÎªÏä±ß½çÖµ¡£Ò»°ã¶øÑÔ£¬¿í¶ÈÔ½´ó£¬¹â»¬Ð§¹ûÔ½Ã÷ÏÔ¡£

2) »Ø¹é

»Ø¹é(Regression)ÓÃÒ»¸öº¯ÊýÄâºÏÊý¾Ý¹â»¬Êý¾Ý¡£ÏßÐÔ»Ø¹éÉæ¼°ÕÒ³öÄâºÏÁ½¸öÊôÐÔ(»ò±äÁ¿)µÄ¡°×î¼Ñ¡±Ö±Ïß£¬Ê¹Ò»¸öÊôÐÔ¿ÉÒÔÓÃÀ´Ô¤²âÁíÒ»¸ö¡£¶àÔªÏßÐÔ»Ø¹éÊÇÏßÐÔ»Ø¹éµÄÀ©³ä£¬ÆäÖÐÉæ¼°µÄÊôÐÔ¶àÓÚÁ½¸ö£¬²¢ÇÒÊý¾Ý±»ÄâºÏµ½Ò»¸ö¶àÎ¬ÇúÃæ¡£

3) ÀëÈºµã·ÖÎö

ÀëÈºµã·ÖÎö(Outlier Analysis)¿ÉÒÔÍ¨¹ý¾ÛÀàµÈ·½·¨¼ì²âÀëÈºµã¡£¾ÛÀà½«ÀàËÆµÄÖµ×éÖ¯³ÉÈº»ò´Ø¡£Ö±¹ÛµØ£¬
½«ÂäÔÚ´Ø¼¯ºÏÖ®ÍâµÄÖµÊÓÎªÀëÈºµã¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.2.2ÀûÓÃPandas½øÐÐÊý¾ÝÇåÏ´

ÔÚÐí¶àÊý¾Ý·ÖÎö¹¤×÷ÖÐ£¬¾­³£»áÓÐÈ±Ê§Êý¾ÝµÄÇé¿ö¡£PandasµÄÄ¿±êÖ®Ò»¾ÍÊÇ¾¡Á¿ÇáËÉµØ´¦ÀíÈ±Ê§Êý¾Ý¡£

1. ¼ì²âÓë´¦ÀíÈ±Ê§Öµ

Pandas¶ÔÏóµÄËùÓÐÃèÊöÐÔÍ³¼ÆÄ¬ÈÏ¶¼²»°üÀ¨È±Ê§Êý¾Ý¡£¶ÔÓÚÊýÖµÊý¾Ý£¬PandasÊ¹ÓÃ¸¡µãÖµNaN±íÊ¾È±Ê§Êý¾Ý¡£

1) È±Ê§ÖµµÄ¼ì²âÓëÍ³¼Æ

isnull()º¯Êý¿ÉÒÔÖ±½ÓÅÐ¶Ï¸ÃÁÐÖÐµÄÄÄ¸öÊý¾ÝÎªNaN¡£

¡¾Àý3ª²1¡¿ÀûÓÃisnull£¨£©º¯Êý¼ì²âÈ±Ê§Öµ¡£



In£Û11£Ý:string_data = pd.Series(£Û'aardvark', 'artichoke', np.nan, 'avocado'£Ý)

print(string_data)

string_data.isnull()

Out£Û11£Ý:0aardvark

1artichoke

2NaN

3avocado

dtype: object

0False

1False

2True

3False

dtype: bool






ÔÚPandasÖÐ£¬È±Ê§Öµ±íÊ¾ÎªNA£¬Ëü±íÊ¾²»¿ÉÓÃ(Not Available)¡£ÔÚÍ³¼ÆÓ¦ÓÃÖÐ£¬NAÊý¾Ý¿ÉÄÜÊÇ²»´æÔÚµÄÊý¾Ý£¬»òÕßÊÇ´æÔÚÈ´Ã»ÓÐ¹Û²ìµ½µÄÊý¾Ý(ÈçÊý¾Ý²É¼¯ÖÐ·¢ÉúÁËÎÊÌâ)¡£µ±ÇåÏ´Êý¾ÝÓÃÓÚ·ÖÎöÊ±£¬×îºÃÖ±½Ó¶ÔÈ±Ê§Êý¾Ý½øÐÐ·ÖÎö£¬ÒÔÅÐ¶ÏÊý¾Ý²É¼¯ÎÊÌâ»òÈ±Ê§Êý¾Ý¿ÉÄÜµ¼ÖÂµÄÆ«²î¡£PythonÄÚÖÃµÄNoneÖµÒ²±»µ±×÷NA´¦Àí¡£

¡¾Àý3ª²2¡¿SeriesÖÐµÄNoneÖµ´¦Àí¡£



In£Û12£Ý:string_data = pd.Series(£Û'aardvark', 'artichoke',np.nan, 'avocado'£Ý)

string_data.isnull()








Out£Û12£Ý:0False

1False

2True

3False

dtype: bool






2) È±Ê§ÖµµÄÍ³¼Æ

¡¾Àý3ª²3¡¿ÀûÓÃisnull().sum()º¯ÊýÍ³¼ÆÈ±Ê§Öµ¡£



In£Û13£Ý:df = pd.DataFrame(np.arange(12).reshape(3,4),columns = £Û'A','B','C','D'£Ý)

df.iloc£Û2,:£Ý = np.nan

df£Û3£Ý = np.nan

print(df)

df.isnull().sum()

Out£Û13£Ý:ABCD3

00.01.02.03.0NaN

14.05.06.07.0NaN

2NaNNaNNaNNaNNaN

A1

B1

C1

D1

33

dtype: int64






ÁíÍâ£¬Í¨¹ýinfo()º¯ÊýÒ²¿ÉÒÔ²é¿´DataFrameÃ¿ÁÐÊý¾ÝµÄÈ±Ê§Çé¿ö¡£

¡¾Àý3ª²4¡¿ÀûÓÃinfo()º¯Êý²é¿´DataFrameµÄÈ±Ê§Öµ¡£



In£Û14£Ý:df.info()

Out£Û14£Ý:<class 'pandas.core.frame.DataFrame'>

RangeIndex: 3 entries, 0 to 2

Data columns (total 5 columns):

A2 non-null float64

B2 non-null float64

C2 non-null float64

D2 non-null float64

30 non-null float64

dtypes: float64(5)

memory usage: 200.0 bytes






2. È±Ê§ÖµµÄ´¦Àí

1) É¾³ýÈ±Ê§Öµ

ÔÚÈ±Ê§ÖµµÄ´¦Àí·½·¨ÖÐ£¬É¾³ýÈ±Ê§ÖµÊÇ³£ÓÃµÄ·½·¨Ö®Ò»¡£Í¨¹ýdropna()º¯Êý¿ÉÒÔÉ¾³ý¾ßÓÐÈ±Ê§ÖµµÄÐÐ¡£

dropna()º¯ÊýµÄÓï·¨¸ñÊ½Îª



dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)






dropna£¨£©º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷Èç±í3ª²1ËùÊ¾¡£


±í3ª²1dropna£¨£©º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷




²ÎÊýËµÃ÷

axisÄ¬ÈÏÎªaxis=0£¬µ±Ä³ÐÐ³öÏÖÈ±Ê§ÖµÊ±£¬½«¸ÃÐÐ¶ªÆú²¢·µ»Ø£» µ±axis=1Ê±£¬ÎªÄ³ÁÐ³öÏÖÈ±Ê§Öµ£¬½«¸ÃÁÐ¶ªÆú
howÈ·¶¨È±Ê§Öµ¸öÊý£¬Ä¬ÈÏÖµhow='any'±íÃ÷Ö»ÒªÄ³ÐÐÓÐÈ±Ê§Öµ¾Í½«¸ÃÐÐ¶ªÆú£» how='all'±íÃ÷Ä³ÐÐÈ«²¿ÎªÈ±Ê§Öµ²Å½«Æä¶ªÆú
threshãÐÖµÉè¶¨£¬ÐÐÁÐÖÐ·ÇÄ¬ÈÏÖµµÄÊýÁ¿Ð¡ÓÚ¸ø¶¨µÄÖµ£¬¾Í½«¸ÃÐÐ¶ªÆú
subset
²¿·Ö±êÇ©ÖÐÉ¾³ýÄ³ÐÐÁÐ£¬Èçsubset=£Û'a' ,'d'£Ý, ¼´¶ªÆú
×ÓÁÐaºÍdÖÐº¬ÓÐÈ±Ê§ÖµµÄÐÐ
inplace²¼¶ûÖµ£¬Ä¬ÈÏÎªFalse,µ±inplace=TrueÊ±£¬¼´¶ÔÔ­Êý¾Ý²Ù×÷£¬ÎÞ·µ»ØÖµ


¶ÔÓÚSeries£¬dropna£¨£©º¯Êý·µ»ØÒ»¸ö½öº¬·Ç¿ÕÊý¾ÝºÍË÷ÒýÖµµÄSeries¡£

¡¾Àý3ª²5¡¿SeriesµÄdropna()º¯ÊýÓÃ·¨¡£



In£Û15£Ý:from numpy import nan as NA

data = pd.Series(£Û1, NA, 3.5, NA, 7£Ý)

print(data)

print(data.dropna())

Out£Û15£Ý:01.0

1NaN

23.5

3NaN

47.0

dtype: float64

01.0

23.5

47.0

dtype: float64






µ±È»£¬Ò²¿ÉÒÔÍ¨¹ý²¼¶ûÐÍË÷Òý´ïµ½Õâ¸öÄ¿µÄ¡£

¡¾Àý3ª²6¡¿²¼¶ûÐÍË÷ÒýÑ¡Ôñ¹ýÂË·ÇÈ±Ê§Öµ¡£



In£Û16£Ý:not_null = data.notnull()

print(not_null)

print(data£Ûnot_null£Ý)

Out£Û16£Ý:0True

1False

2True

3False

4True

dtype: bool

01.0

23.5

47.0

dtype: float64






¶ÔÓÚDataFrame¶ÔÏó£¬dropna()º¯ÊýÄ¬ÈÏ¶ªÆúÈÎºÎº¬ÓÐÈ±Ê§ÖµµÄÐÐ¡£

¡¾Àý3ª²7¡¿DataFrame¶ÔÏóµÄdropna()º¯ÊýÄ¬ÈÏ²ÎÊýÊ¹ÓÃ¡£



In£Û17£Ý:from numpy import nan as NA

data = pd.DataFrame(£Û£Û1., 5.5, 3.£Ý, £Û1., NA, NA£Ý,£ÛNA, NA, NA£Ý, 

£ÛNA, 5.5, 3.£Ý£Ý)

print(data)

cleaned = data.dropna()

print('É¾³ýÈ±Ê§ÖµºóµÄ£º £Ün',cleaned)



Out£Û17£Ý:012

01.05.53.0

11.0NaNNaN

2NaNNaNNaN

3NaN5.53.0

É¾³ýÈ±Ê§ÖµºóµÄ£º 

012

01.05.53.0






´«Èëhow='all'½«Ö»¶ªÆúÈ«ÎªNAµÄÄÇÐ©ÐÐ¡£

¡¾Àý3ª²8¡¿Ïòdropna()º¯Êý´«Èë²ÎÊýhow='all'¡£



In£Û18£Ý:data = pd.DataFrame(£Û£Û1., 5.5, 3.£Ý, £Û1., NA, NA£Ý,£ÛNA, NA, NA£Ý, 

£ÛNA, 5.5, 3.£Ý£Ý)

print(data)

print(data.dropna(how='all'))

Out£Û18£Ý:012

01.05.53.0

11.0NaNNaN

2NaNNaNNaN

3NaN5.53.0


012

01.05.53.0

11.0NaNNaN

3NaN5.53.0






Èç¹ûÓÃÍ¬ÑùµÄ·½Ê½¶ªÆúDataFrameµÄÁÐ£¬Ö»ÐèÒª´«Èëaxis=1¼´¿É¡£

¡¾Àý3ª²9¡¿dropna()º¯ÊýÖÐµÄaxis²ÎÊýÓ¦ÓÃ¡£



In£Û19£Ý:data = pd.DataFrame(£Û£Û1., 5.5, NA£Ý, £Û1., NA, NA£Ý,£ÛNA, NA, NA£Ý, £ÛNA, 5.5, NA£Ý£Ý)

print(data)

print(data.dropna(axis = 1, how = 'all'))

Out£Û19£Ý:012

01.05.5NaN

11.0NaNNaN








2NaNNaNNaN

3NaN5.5NaN


01

01.05.5

11.0NaN

2NaNNaN

3NaN5.5







¿ÉÒÔÊ¹ÓÃthresh²ÎÊý£¬µ±´«Èëthresh=NÊ±£¬±íÊ¾ÒªÇóÒ»ÐÐÖÁÉÙ¾ßÓÐN¸ö·ÇNaN²ÅÄÜ±£Áô¡£

¡¾Àý3ª²10¡¿dropna()º¯ÊýµÄthresh²ÎÊýÓ¦ÓÃ¡£



In£Û20£Ý:df = pd.DataFrame(np.random.randn(7, 3))

df.iloc£Û:4, 1£Ý = NA

df.iloc£Û:2, 2£Ý = NA

print(df)

print(df.dropna(thresh=2))

Out£Û20£Ý:012

00.176209NaNNaN

1-0.871199NaNNaN

21.624651NaN0.829676

3-0.286038NaN-1.809713

4-0.6406620.666998-0.032702

5-0.453412-0.7089451.043190

6-0.040305-0.290658-0.089056



012

21.624651NaN0.829676

3-0.286038NaN-1.809713

4-0.6406620.666998-0.032702

5-0.453412-0.7089451.043190

6-0.040305-0.290658-0.089056







2) Ìî³äÈ±Ê§Öµ

Ö±½ÓÉ¾³ýÈ±Ê§Öµ²¢²»ÊÇÒ»¸öºÜºÃµÄ·½·¨£¬¿ÉÒÔÓÃÒ»¸öÌØ¶¨µÄÖµÌæ»»È±Ê§Öµ¡£È±Ê§ÖµËùÔÚµÄÌØÕ÷ÎªÊýÖµÐÍÊ±£¬Í¨³£ÀûÓÃÆä¾ùÖµ¡¢ÖÐÎ»ÊýºÍÖÚÊýµÈÃèÊöÆä¼¯ÖÐÇ÷ÊÆµÄÍ³¼ÆÁ¿Ìî³ä£» È±Ê§ÖµËùÔÚÌØÕ÷ÎªÀà±ðÐÍÊý¾ÝÊ±£¬ÔòÑ¡ÔñÖÚÊýÌî³ä¡£Pandas¿âÖÐÌá¹©ÁËÈ±Ê§ÖµÌæ»»µÄfillna()º¯Êý¡£

fillna()º¯ÊýµÄ¸ñÊ½ÈçÏÂ£¬Ö÷Òª²ÎÊý¼°ÆäËµÃ÷Èç±í3ª²2ËùÊ¾¡£



pandas.DataFrame.fillna(value=None,method=None,axsi=None,inplace=False,limit=None)








±í3ª²2fillna£¨£©º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷




²ÎÊýËµÃ÷

valueÓÃÓÚÌî³äÈ±Ê§ÖµµÄ±êÁ¿Öµ»ò×Öµä¶ÔÏó
method²åÖµ·½Ê½
axis´ýÌî³äµÄÖá£¬Ä¬ÈÏaxis=0
inplaceÐÞ¸Äµ÷ÓÃÕß¶ÔÏó¶ø²»²úÉú¸±±¾
limit(¶ÔÓÚÇ°ÏòºÍºóÏòÌî³ä) ¿ÉÒÔÁ¬ÐøÌî³äµÄ×î´óÊýÁ¿


Í¨¹ý¶ÔÒ»¸ö³£Êýµ÷ÓÃfillna£¨£©º¯Êý£¬¾Í»á½«È±Ê§ÖµÌæ»»ÎªÕâ¸ö³£ÊýÖµ£¬Èçdf.fillna(0)ÎªÓÃÁã´úÌæÈ±Ê§Öµ¡£Ò²¿ÉÒÔ¶ÔÒ»¸ö×Öµäµ÷ÓÃfillna£¨£©º¯Êý£¬¾Í¿ÉÒÔÊµÏÖ¶Ô²»Í¬µÄÁÐÌî³ä²»Í¬µÄÖµ¡£

¡¾Àý3ª²11¡¿Í¨¹ý×ÖµäÐÎÊ½Ìî³äÈ±Ê§Öµ¡£



In£Û21£Ý:df = pd.DataFrame(np.random.randn(5,3))

df.loc£Û:3,1£Ý = NA

df.loc£Û:2,2£Ý = NA

print(df)

print(df.fillna({1:0.88,2:0.66}))

Out£Û21£Ý:012

00.861692NaNNaN

10.911292NaNNaN

20.465258NaNNaN

3-0.797297NaN-0.342404

40.6584080.872754-0.108814



012

00.8616920.8800000.660000

10.9112920.8800000.660000

20.4652580.8800000.660000

3-0.7972970.880000-0.342404

40.6584080.872754-0.108814






fillna()º¯ÊýÄ¬ÈÏ·µ»ØÐÂ¶ÔÏó£¬µ«Ò²¿ÉÒÔÍ¨¹ýÉèÖÃ²ÎÊýinplace=True¶ÔÏÖÓÐ¶ÔÏó½øÐÐ¾ÍµØÐÞ¸Ä¡£¶Ôreindex()º¯ÊýÓÐÐ§µÄ²åÖµ·½·¨Ò²¿ÉÓÃÓÚfillna£¨£©º¯Êý¡£

¡¾Àý3ª²12¡¿fillna()º¯ÊýÖÐmethod²ÎÊýµÄÓ¦ÓÃ¡£



In£Û22£Ý:df = pd.DataFrame(np.random.randn(6, 3))

df.iloc£Û2:, 1£Ý = NA

df.iloc£Û4:, 2£Ý = NA

print(df)

print(df.fillna(method = 'fill'))

Out£Û22£Ý:012

0-1.180338-0.6636220.952264

1-0.219780-1.3564200.742720

2-2.169303NaN1.129426








30.139349NaN-1.463485

41.327619NaNNaN

50.834232NaNNaN


012

0-1.180338-0.6636220.952264

1-0.219780-1.3564200.742720

2-2.169303-1.3564201.129426

30.139349-1.356420-1.463485

41.327619-1.356420-1.463485

50.834232-1.356420-1.463485







¿ÉÒÔÀûÓÃfillna()º¯ÊýÊµÏÖÐí¶àÆäËû¹¦ÄÜ£¬Èç´«ÈëSeriesµÄ¾ùÖµ»òÖÐÎ»Êý¡£

¡¾Àý3ª²13¡¿ÓÃSeriesµÄ¾ùÖµÌî³ä¡£



In£Û23£Ý:data = pd.Series(£Û1., NA, 3.5, NA, 7£Ý)

data.fillna(data.mean())

Out£Û23£Ý:01.000000

13.833333

23.500000

33.833333

47.000000

dtype: float64






¡¾Àý3ª²14¡¿DataFrameÖÐÓÃ¾ùÖµÌî³ä¡£



In£Û24£Ý:df = pd.DataFrame(np.random.randn(4, 3))

df.iloc£Û2:, 1£Ý = NA

df.iloc£Û3:, 2£Ý = NA

print(df)

df£Û1£Ý = df£Û1£Ý.fillna(df£Û1£Ý.mean())

print(df)

Out£Û24£Ý:012

00.6561550.0084420.025324

10.1608450.8291271.065358

2-0.321155NaN-0.955008

30.953510NaNNaN


012

00.6561550.0084420.025324

10.1608450.8291271.065358

2-0.3211550.418785-0.955008

30.9535100.418785NaN






3. Êý¾ÝÖµÌæ»»

Êý¾ÝÖµÌæ»»ÊÇ½«²éÑ¯µ½µÄÊý¾ÝÌæ»»ÎªÖ¸¶¨Êý¾Ý¡£ÔÚPandasÖÐÍ¨¹ýreplace()º¯Êý½øÐÐÊý¾ÝÖµµÄÌæ»»¡£

¡¾Àý3ª²15¡¿Ê¹ÓÃreplace£¨£©º¯ÊýÌæ»»Êý¾ÝÖµ¡£



In£Û25£Ý:data = {'ÐÕÃû':£Û'ÕÅÈý','Ð¡Ã÷','Âí·¼','¹úÖ¾'£Ý,'ÐÔ±ð':£Û'0','1','0','1'£Ý,

'¼®¹á':£Û'±±¾©','¸ÊËà','','ÉÏº£'£Ý}

df = pd.DataFrame(data)

df = df.replace('','²»Ïê')

print(df)

Out£Û25£Ý:ÐÕÃûÐÔ±ð¼®¹á

0ÕÅÈý0±±¾©

1Ð¡Ã÷1¸ÊËà

2Âí·¼0²»Ïê

3¹úÖ¾1ÉÏº£







Ò²¿ÉÒÔÍ¬Ê±¶Ô²»Í¬Öµ½øÐÐ¶àÖµÌæ»»£¬²ÎÊý´«ÈëµÄ·½Ê½¿ÉÒÔÊÇÁÐ±í£¬Ò²¿ÉÒÔÊÇ×Öµä¡£´«ÈëµÄÁÐ±íÖÐ£¬µÚ1¸öÁÐ±íÎª±»Ìæ»»µÄÖµ£¬µÚ2¸öÁÐ±íÎª¶ÔÓ¦Ìæ»»µÄÖµ¡£

¡¾Àý3ª²16¡¿´«ÈëÁÐ±íÊµÏÖ¶àÖµÌæ»»¡£



In£Û26£Ý:df = df.replace(£Û'²»Ïê','¸ÊËà'£Ý,£Û'À¼ÖÝ','À¼ÖÝ'£Ý)

print(df)

Out£Û26£Ý£º ÐÕÃûÐÔ±ð¼®¹á

0ÕÅÈý0±±¾©

1Ð¡Ã÷1À¼ÖÝ

2Âí·¼0À¼ÖÝ

3¹úÖ¾1ÉÏº£






¡¾Àý3ª²17¡¿´«Èë×ÖµäÊµÏÖ¶àÖµÌæ»»¡£



In£Û27£Ý:df = df.replace({'1':'ÄÐ','0':'Å®'})

print(df)

Out£Û27£Ý£º ÐÕÃûÐÔ±ð¼®¹á

0ÕÅÈýÅ®±±¾©

1Ð¡Ã÷ÄÐÀ¼ÖÝ

2Âí·¼Å®À¼ÖÝ

3¹úÖ¾ÄÐÉÏº£






4. ÀûÓÃº¯Êý»òÓ³Éä½øÐÐÊý¾Ý×ª»»

ÔÚÊý¾Ý·ÖÎöÖÐ£¬¾­³£ÐèÒª½øÐÐÊý¾ÝµÄÓ³Éä»ò×ª»»£¬ÔÚPandasÖÐ¿ÉÒÔ×Ô¶¨Òåº¯Êý£¬È»ºóÍ¨¹ýmap()º¯ÊýÊµÏÖ¡£

¡¾Àý3ª²18¡¿map£¨£©º¯ÊýÓ³ÉäÊý¾Ý¡£



In£Û28£Ý:data = {'ÐÕÃû':£Û'ÕÅÈý','Ð¡Ã÷','Âí·¼','¹úÖ¾'£Ý,'ÐÔ±ð':£Û'0','1','0','1'£Ý,

'¼®¹á':£Û'±±¾©','À¼ÖÝ','À¼ÖÝ','ÉÏº£'£Ý}

df = pd.DataFrame(data)








df£Û'³É¼¨'£Ý = £Û58,86,91,78£Ý

print(df)

def grade(x):

if x>=90:

return 'ÓÅ'

elif 70<=x<90:

return 'Á¼'

elif 60<=x<70:

return 'ÖÐ'

else:

return '²î'

df£Û'µÈ¼¶'£Ý = df£Û'³É¼¨'£Ý.map(grade)

print(df)

Out£Û28£Ý£º ÐÕÃûÐÔ±ð¼®¹á³É¼¨

0ÕÅÈý0±±¾©58

1Ð¡Ã÷1À¼ÖÝ86

2Âí·¼0À¼ÖÝ91

3¹úÖ¾1ÉÏº£78


ÐÕÃûÐÔ±ð¼®¹á³É¼¨µÈ¼¶

0ÕÅÈý0±±¾©58²î

1Ð¡Ã÷1À¼ÖÝ86Á¼

2Âí·¼0À¼ÖÝ91ÓÅ

3¹úÖ¾1ÉÏº£78Á¼






5. Òì³£Öµ¼ì²â

Òì³£ÖµÊÇÖ¸Êý¾ÝÖÐ´æÔÚµÄÊýÖµÃ÷ÏÔÆ«ÀëÆäÓàÊý¾ÝµÄÖµ¡£Òì³£ÖµµÄ´æÔÚ»áÑÏÖØ¸ÉÈÅÊý¾Ý·ÖÎöµÄ½á¹û£¬Òò´Ë¾­³£Òª¼ìÑéÊý¾ÝÖÐÊÇ·ñÓÐÊäÈë´íÎó»òº¬ÓÐ²»ºÏÀíµÄÊý¾Ý¡£ÔÚÊý¾ÝÍ³¼Æ·½·¨ÖÐ£¬Ò»°ã³£ÓÃÉ¢µãÍ¼¡¢ÏäÏßÍ¼ºÍ3¦Ò·¨Ôò¼ì²âÒì³£Öµ¡£

1) É¢µãÍ¼

Í¨¹ýÊý¾Ý·Ö²¼µÄÉ¢µãÍ¼¿ÉÒÔ·¢ÏÖÒì³£Öµ¡£

¡¾Àý3ª²19¡¿ÀûÓÃÉ¢µãÍ¼¼ì²âÒì³£Öµ¡£



In£Û29£Ý:wdf = pd.DataFrame(np.arange(20),columns = £Û'W'£Ý)

wdf£Û'Y'£Ý = wdf£Û'W'£Ý*1.5+2

wdf.iloc£Û3,1£Ý = 128

wdf.iloc£Û18,1£Ý = 150

wdf.plot(kind = 'scatter',x = 'W',y = 'Y')






Êä³ö½á¹ûÈçÍ¼3ª²1ËùÊ¾¡£



Í¼3ª²1É¢µãÍ¼¼ì²âÒì³£Öµ


2) ÏäÏßÍ¼

ÏäÏßÍ¼ÀûÓÃÊý¾ÝÖÐµÄ5¸öÍ³¼ÆÁ¿(×îÐ¡Öµ¡¢µÚÒ»ËÄ·ÖÎ»ÊýQ1¡¢ÖÐÎ»ÊýQ2¡¢µÚÈýËÄ·ÖÎ»ÊýQ3ºÍ×î´óÖµ)
ÃèÊöÊý¾Ý£¬ËüÒ²¿ÉÒÔ´ÖÂÔµØÌåÏÖÊý¾ÝÊÇ·ñ¾ßÓÐ¶Ô³ÆÐÔ¡¢·Ö²¼µÄ·ÖÉ¢³Ì¶ÈµÈÐÅÏ¢¡£
ÀûÓÃÏäÏßÍ¼¼ì²âÒì³£ÖµÊ±£¬½«×î´ó£¨×îÐ¡£©ÖµÉèÖÃÎªÓëËÄ·ÖÎ»ÊýQ3ºÍQ1¼ä¾àÎª1.5¸öIQR£¨IQR=Q3-Q1£©µÄÖµ£¬¼´min=Q1-1.5IQR£¬max=Q3+1.5IQR£¬Ð¡ÓÚminºÍ´óÓÚmaxµÄÖµ±»ÈÏÎªÊÇÒì³£Öµ¡£


¡¾Àý3ª²20¡¿ÀûÓÃÏäÏßÍ¼·ÖÎöÒì³£Öµ¡£



In£Û30£Ý£º fig= wdf.boxplot(column=£Û'Y'£Ý,return_type='dict')

min = fig£Û'caps'£Ý£Û0£Ý.get_ydata()£Û0£Ý #»ñÈ¡ÏÂ±ßÔµÖµ

max = fig£Û'caps'£Ý£Û1£Ý.get_ydata()£Û0£Ý #»ñÈ¡ÉÏ±ßÔµÖµ

print('max=',max,'; min=',min)

print('ÀëÈºµãµÄË÷ÒýÊÇ£º')

print(wdf£Û(wdf£Û'Y'£Ý<min)|(wdf£Û'Y'£Ý>max)£Ý.index)

Out£Û30£Ý£ºmax= 30.5 ; min= 2.0

ÀëÈºµãµÄË÷ÒýÊÇ£º

Int64Index(£Û3, 18£Ý, dtype='int64')






Êä³ö½á¹ûÈçÍ¼3ª²2ËùÊ¾¡£



Í¼3ª²2ÏäÏßÍ¼·ÖÎöÒì³£Öµ


3) 3¦Ò·¨Ôò

Èç¹ûÊý¾Ý·þ´ÓÕýÌ¬·Ö²¼£¬ÔÚ3¦Ò·¨ÔòÏÂ£¬Òì³£Öµ±»¶¨ÒåÎªÒ»×é²â¶¨ÖµÖÐÓë¾ùÖµµÄÆ«²î³¬¹ý3±¶±ê×¼²î
£¨¦Ò£©µÄÖµ£¬ÒòÎªÔÚÕýÌ¬·Ö²¼µÄ¼ÙÉèÏÂ£¬¾àÀë¾ùÖµ3¦ÒÖ®ÍâµÄÖµ³öÏÖµÄ¸ÅÂÊÐ¡ÓÚ0.003¡£Òò´Ë£¬¸ù¾ÝÐ¡¸ÅÂÊÊÂ¼þ£¬¿ÉÒÔÈÏÎª³¬³ö3¦ÒµÄÖµÎªÒì³£Êý¾Ý¡£

¡¾Àý3ª²21¡¿ÀûÓÃ3¦Ò·¨Ôò¼ì²âÒì³£Öµ¡£



In£Û31£Ý:def outRange(S):

blidx = (S.mean()-3*S.std()>S)|(S.mean()+3*S.std()<S)

idx = np.arange(S.shape£Û0£Ý)£Ûblidx£Ý

outRange = S.iloc£Ûidx£Ý

return outRange

outier = outRange(wdf£Û'Y'£Ý)

outier

Out£Û31£Ý£º18150.0

Name: Y, dtype: float64






3.3Êý¾Ý¼¯³É

ÓÐÊ±ÐèÒªÍÚ¾òµÄÊý¾Ý¿ÉÄÜÀ´×Ô¶à¸öÊý¾ÝÔ´£¬µ¼ÖÂÊý¾Ý´æÔÚÈßÓàÓë²»Ò»ÖÂµÄÇé¿ö£¬´ËÊ±¾ÍÐèÒª¶ÔÊý¾Ý½øÐÐ¼¯³É¡£Êý¾Ý¼¯³ÉÊÇ½«¶à¸öÊý¾ÝÔ´ÖÐµÄÊý¾ÝºÏ²¢£¬´æ·ÅÓÚÒ»¸öÒ»ÖÂµÄÊý¾Ý´æ´¢ÖÐ¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.3.1Êý¾Ý¼¯³É¹ý³ÌÖÐµÄ¹Ø¼üÎÊÌâ
1.  ÊµÌåÊ¶±ð

ÊµÌåÊ¶±ðÎÊÌâÊÇÊý¾Ý¼¯³ÉÖÐµÄÊ×ÒªÎÊÌâ£¬ÒòÎªÀ´×Ô¶à¸öÐÅÏ¢Ô´µÄÏÖÊµÊÀ½çµÄµÈ¼ÛÊµÌå²ÅÄÜÆ¥Åä¡£
ÀýÈç£¬ÔÚÊý¾Ý¼¯³ÉÖÐÈçºÎÅÐ¶ÏÒ»¸öÊý¾Ý¿âÖÐµÄcustomer_idºÍÁíÒ»Êý¾Ý¿âÖÐµÄcust_noÊÇÖ¸ÏàÍ¬µÄÊôÐÔ£¿Ã¿¸öÊôÐÔµÄÔªÊý¾Ý°üº¬ÁËÊôÐÔÃû³Æ¡¢Êý¾ÝÀàÐÍºÍÊôÐÔµÄÈ¡Öµ·¶Î§£¬Òò´Ë£¬ÔªÊý¾Ý¿ÉÒÔÓÃÀ´±ÜÃâÄ£Ê½¼¯³ÉµÄ´íÎó¡£ÔÚÊý¾Ý¼¯³É¹ý³ÌÖÐ£¬µ±Ò»¸öÊý¾Ý¿âµÄÊôÐÔÓëÁíÒ»¸öÊý¾Ý¿âµÄÊôÐÔÆ¥ÅäÊ±£¬±ØÐë×¢ÒâÊý¾ÝµÄ½á¹¹£¬È·±£Ô´ÏµÍ³ÖÐº¯ÊýÒÀÀµºÍ²ÎÊýÔ¼ÊøÓëÄ¿±êÏµÍ³ÖÐµÄÆ¥Åä¡£

2. Êý¾ÝÈßÓàºÍÏà¹Ø·ÖÎö

ÈßÓàÊÇÊý¾Ý¼¯³ÉµÄÁíÒ»¸öÖØÒªÎÊÌâ¡£Èç¹ûÒ»¸öÊôÐÔÄÜÓÉÁíÒ»¸ö»òÁíÒ»×éÊôÐÔÖµ¡°ÍÆµ¼¡±£¬ÔòÕâ¸öÊôÐÔ¿ÉÄÜÊÇÈßÓàµÄ¡£ÊôÐÔÃüÃû²»Ò»ÖÂÒ²»áµ¼ÖÂ½á¹ûÊý¾Ý¼¯ÖÐµÄÈßÓà¡£ÓÐÐ©ÈßÓà¿ÉÒÔ±»Ïà¹Ø·ÖÎö¼ì²âµ½£¬¶ÔÓÚ±ê³ÆÊôÐÔ£¬Ê¹ÓÃ¦Ö2(¿¨·½)¼ìÑé£» ¶ÔÓÚÊýÖµÊôÐÔ£¬¿ÉÒÔÊ¹ÓÃÏà¹ØÏµÊý(Correlation Coefficient)ºÍÐ­·½²î(Covariance)ÆÀ¹ÀÊôÐÔ¼äµÄÏà¹ØÐÔ¡£

1) ±ê³ÆÊôÐÔµÄ¦Ö2¼ìÑé


¶ÔÓÚ±ê³ÆÊôÐÔAºÍBÖ®¼äµÄÏà¹ØÐÔ£¬¿ÉÒÔÍ¨¹ý¦Ö2¼ìÑé½øÐÐ·ÖÎö¡£¼ÙÉèAÓÐc¸ö²»Í¬µÄÈ¡Öµa1,a2,¡­£¬ac£¬BÓÐr¸ö²»Í¬µÄÈ¡Öµb1,b2,¡­£¬br¡£ÓÉAºÍBÃèÊöµÄÊý¾ÝÔª×é¿ÉÒÔÓÃÒ»¸öÏàÒÀ±íÏÔÊ¾£¬ÆäÖÐAµÄc¸öÖµ¹¹³ÉÁÐ£¬BµÄr¸öÖµ¹¹³ÉÐÐ¡£Áî(Ai£¬
Bj)±íÊ¾ÊôÐÔAÈ¡ai£¬BÈ¡bjµÄÁªºÏÊÂ¼þ£¬¼´(A=ai,B=bj)¡£¦Ö2Öµ(ÓÖ³ÆÎªPearson ¦Ö2Í³¼ÆÁ¿)µÄ¼ÆËã
Ê½Îª


¦Ö2=¡Æci=1¡Ærj=1(oij-eij)2eij(3ª²1)


ÆäÖÐ£¬oijÎªÁªºÏÊÂ¼þ(Ai£¬Bj)µÄ¹Û²âÆµ¶È£» eijÎª(Ai£¬Bj)µÄÆÚÍûÆµ¶È£¬¼ÆËãÊ½Îª


eij=count(A=ai)¡Ácount(B=bj)n(3ª²2)


ÆäÖÐ£¬nÎªÊý¾ÝÔª×é¸öÊý£» count(A=ai)ÎªAÉÏ¾ßÓÐÖµaiµÄÔª×é¸öÊý£» count(B=bj)ÎªBÉÏ¾ßÓÐÖµbjµÄÔª×é¸öÊý¡£

2) ÊýÖµÊôÐÔµÄÏà¹ØÏµÊý

¶ÔÓÚÊýÖµÊý¾Ý£¬¿ÉÒÔÍ¨¹ý¼ÆËãÊôÐÔAºÍBµÄÏà¹ØÏµÊý(ÓÖ³ÆÎªPearson»ý¾ØÏµÊý)·ÖÎöÆäÏà¹ØÐÔ¡£Ïà¹ØÏµÊýrA,B¶¨ÒåÎª



rA,B=¡Æn1(ai-)(bi-
)n¦ÒA¦ÒB=¡Æn1(aibi)-n
n¦ÒA¦ÒB(3ª²3)


ÆäÖÐ£¬nÎªÔª×é¸öÊý£» aiºÍbiÎªÔª×éiÔÚAºÍBÉÏµÄÖµ£» ºÍÎªAºÍBµÄ¾ùÖµ£» ¦ÒAºÍ¦ÒBÎªAºÍBµÄ±ê×¼²î¡£-1¡ÜrA,B¡Ü1£¬Èç¹ûÏà¹ØÏµÊýrA,B=0£¬ÔòAÓëBÊÇ¶ÀÁ¢µÄ£¬ËüÃÇÖ®¼ä²»´æÔÚÏà¹ØÐÔ£» Èç¹ûrA,B<0£¬ÔòA
ÓëB¸ºÏà¹Ø£¬Ò»¸öÖµËæÁíÒ»¸öÖµ¼õÉÙ¶øÔö¼Ó£» Èç¹ûrA,B>0£¬ÔòAÓëBÕýÏà¹Ø£¬
Ò»¸öÖµËæÁíÒ»¸öÖµÔö¼Ó¶øÔö¼Ó£¬ÖµÔ½´ó£¬Ïà¹ØÐÔÔ½Ç¿¡£

3) ÊýÖµÊôÐÔµÄÐ­·½²î


ÔÚ¸ÅÂÊÂÛºÍÍ³¼ÆÑ§ÖÐ£¬Ð­·½²îÓÃÓÚºâÁ¿Á½¸ö±äÁ¿µÄ×ÜÌåÎó²î¡£¶ø·½²îÊÇÐ­·½²îµÄÒ»ÖÖÌØÊâÇé¿ö£¬¼´µ±Á½¸ö±äÁ¿
ÏàÍ¬Ê±µÄÇé¿ö¡£

ÆÚÍûÖµ·Ö±ðÎªE£ÛX£ÝºÍE£ÛY£ÝµÄÁ½¸öËæ»ú±äÁ¿XºÍYÖ®¼äµÄÐ­·½²îCov(X,Y)¶¨ÒåÎª


Cov(X,Y)=E£Û(X-E(X))(Y-E(Y))£Ý=E(XY)-E(X)E(Y)(3ª²4)


Èç¹ûÁ½¸ö±äÁ¿µÄ±ä»¯Ç÷ÊÆÒ»ÖÂ£¬Ò²¾ÍÊÇËµÆäÖÐÒ»¸ö±äÁ¿´óÓÚ×ÔÉíµÄÆÚÍûÖµÊ±£¬ÁíÒ»¸ö±äÁ¿Ò²´óÓÚ×ÔÉíµÄÆÚÍûÖµ£¬ÄÇÃ´Á½¸ö±äÁ¿Ö®¼äµÄÐ­·½²î¾ÍÊÇÕýÖµ£» Èç¹ûÁ½¸ö±äÁ¿µÄ±ä»¯Ç÷ÊÆÏà·´£¬¼´ÆäÖÐÒ»¸ö±äÁ¿´óÓÚ×ÔÉíµÄÆÚÍûÖµÊ±£¬ÁíÒ»¸ö±äÁ¿È´Ð¡ÓÚ×ÔÉíµÄÆÚÍûÖµ£¬ÄÇÃ´Á½¸ö±äÁ¿Ö®¼äµÄÐ­·½²î¾ÍÊÇ¸ºÖµ¡£

¡¾Àý3ª²22¡¿ÀûÓÃPython¼ÆËãÊôÐÔ¼äµÄÏà¹ØÐÔ¡£



In£Û32£Ý:import pandas as pd

import numpy as np


a=£Û47, 83, 81, 18, 72, 41, 50, 66, 47, 20, 96, 21, 16, 60, 37, 59, 22, 16, 32, 63£Ý

b=£Û56, 96, 84, 21, 87, 67, 43, 64, 85, 67, 68, 64, 95, 58, 56, 75, 6, 11, 68, 63£Ý

data=np.array(£Ûa, b£Ý).T

dfab = pd.DataFrame(data, columns=£Û'A', 'B'£Ý)







# display(dfab)

print('ÊôÐÔAºÍBµÄÐ­·½²î£º ',dfab.A.cov(dfab.B))

print('ÊôÐÔAºÍBµÄÏà¹ØÏµÊý£º ',dfab.A.corr(dfab.B))

Out£Û32£Ý£º ÊôÐÔAºÍBµÄÐ­·½²î£º  310.2157894736842

ÊôÐÔAºÍBµÄÏà¹ØÏµÊý£º  0.49924871046524394






3. Ôª×éÖØ¸´

³ýÁË¼ì²éÊôÐÔµÄÈßÓàÖ®Íâ£¬»¹Òª¼ì²âÖØ¸´µÄÔª×é£¬Èç¸ø¶¨Î¨Ò»µÄÊý¾ÝÊµÌå£¬´æÔÚÁ½¸ö»ò¶à¸öÏàÍ¬Ôª×é
µÄÏÖÏó¡£

4. Êý¾ÝÖµ³åÍ»¼ì²âÓë´¦Àí


Êý¾Ý¼¯³É»¹Éæ¼°Êý¾ÝÖµ³åÍ»¼ì²âÓë´¦Àí¡£ÀýÈç£¬²»Í¬Ñ§Ð£µÄÑ§Éú½»»»ÐÅÏ¢Ê±£¬ÓÉÓÚ²»Í¬Ñ§Ð£ÓÐ¸÷×ÔµÄ¿Î³Ì¼Æ»®ºÍÆÀ·Ö·½°¸£¬Í¬Ò»ÃÅ¿ÎµÄ³É¼¨²ÉÈ¡µÄÆÀ·ÖÐÎÊ½Ò²ÓÐ¿ÉÄÜ²»Í¬£¬ÈçÊ®·ÖÖÆ»ò°Ù·ÖÖÆ£¬ÕâÑù»áÊ¹ÐÅÏ¢½»»»·Ç³£À§ÄÑ¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.3.2ÀûÓÃPandasºÏ²¢Êý¾Ý

ÔÚÊµ¼ÊµÄÊý¾Ý·ÖÎöÖÐ£¬¿ÉÄÜÓÐ²»Í¬µÄÊý¾ÝÀ´Ô´£¬Òò´Ë£¬ÐèÒª¶ÔÊý¾Ý½øÐÐºÏ²¢´¦Àí¡£

1. Ê¹ÓÃmerge£¨£©º¯Êý½øÐÐÊý¾ÝºÏ²¢

PythonÖÐµÄmerge()º¯ÊýÍ¨¹ýÒ»¸ö»ò¶à¸ö¼ü½«Á½¸öDataFrame°´ÐÐºÏ²¢ÆðÀ´£¬ÓëSQLÖÐµÄjoinÓÃ·¨ÀàËÆ¡£PandasÖÐµÄ
merge()º¯ÊýµÄÓï·¨¸ñÊ½Îª



merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)






merge()º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷Èç±í3ª²3ËùÊ¾¡£


±í3ª²3merge£¨£©º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷




²ÎÊýËµÃ÷

left²ÎÓëºÏ²¢µÄ×ó²àDataFrame
right²ÎÓëºÏ²¢µÄÓÒ²àDataFrame
howÁ¬½Ó·½·¨:inner£¬left£¬right£¬outer
onÓÃÓÚÁ¬½ÓµÄÁÐÃû
left_on×ó²àDataFrameÖÐÓÃÓÚÁ¬½Ó¼üµÄÁÐ
right_onÓÒ²àDataFrameÖÐÓÃÓÚÁ¬½Ó¼üµÄÁÐ
left_index×ó²àDataFrameÖÐÐÐË÷Òý×÷ÎªÁ¬½Ó¼ü
right_indexÓÒ²àDataFrameÖÐÐÐË÷Òý×÷ÎªÁ¬½Ó¼ü
sortºÏ²¢ºó»á¶ÔÊý¾ÝÅÅÐò£¬Ä¬ÈÏÎªTrue
suffixesÐÞ¸ÄÖØ¸´Ãû


¡¾Àý3ª²23¡¿merge£¨£©º¯ÊýµÄÄ¬ÈÏºÏ²¢Êý¾Ý¡£



In£Û33£Ý:price = pd.DataFrame({'fruit':£Û'apple','grape',

'orange','orange'£Ý,'price':£Û8,7,9,11£Ý})

amount = pd.DataFrame({'fruit':£Û'apple','grape',

'orange'£Ý,'amount':£Û5,11,8£Ý})

display(price,amount,pd.merge(price,amount))






Êä³ö½á¹ûÈçÍ¼3ª²3ËùÊ¾¡£



Í¼3ª²3merge£¨£©º¯ÊýµÄÄ¬ÈÏºÏ²¢Êý¾Ý


ÓÉÓÚÁ½¸öDataFrame¶¼ÓÐfruitÁÐ£¬ËùÒÔÄ¬ÈÏ°´ÕÕ¸ÃÁÐ½øÐÐºÏ²¢£¬¼´pd.merge(amount,price,on='fruit',how='inner')¡£Èç¹ûÁ½¸öDataFrameµÄÁÐÃû²»Í¬£¬¿ÉÒÔµ¥¶ÀÖ¸¶¨¡£


¡¾Àý3ª²24¡¿Ö¸¶¨ºÏ²¢Ê±µÄÁÐÃû¡£



In£Û34£Ý:display(pd.merge(price,amount,left_on = 'fruit',right_on = 'fruit'))






Êä³ö½á¹ûÈçÍ¼3ª²4ËùÊ¾¡£

ºÏ²¢Ê±Ä¬ÈÏÊ¹ÓÃÄÚÁ¬½Ó(inner)£¬¼´·µ»Ø½»¼¯¡£Í¨¹ýÉèÖÃhow²ÎÊý¿ÉÒÔÑ¡ÔñÆäËûÁ¬½Ó·½·¨£º ×óÁ¬½Ó(left)¡¢ÓÒÁ¬½Ó(right)ºÍÍâÁ¬½Ó(outer)¡£

¡¾Àý3ª²25¡¿×óÁ¬½Ó¡£



In£Û35£Ý:display(pd.merge(price,amount,how = 'left'))






Êä³ö½á¹ûÈçÍ¼3ª²5ËùÊ¾¡£


¡¾Àý3ª²26¡¿ÓÒÁ¬½Ó¡£



In£Û36£Ý:display(pd.merge(price,amount,how = 'right'))






Êä³ö½á¹ûÈçÍ¼3ª²6ËùÊ¾¡£



Í¼3ª²4Ö¸¶¨ºÏ²¢Ê±µÄÁÐÃû




Í¼3ª²5×óÁ¬½Ó




Í¼3ª²6ÓÒÁ¬½Ó



Ò²¿ÉÒÔÍ¨¹ý¶à¸ö¼ü½øÐÐºÏ²¢¡£

¡¾Àý3ª²27¡¿Í¨¹ý¶à¸ö¼üºÏ²¢¡£



In£Û37£Ý:left = pd.DataFrame({'key1':£Û'one','one','two'£Ý,

'key2':£Û'a','b','a'£Ý,'value1':range(3)})

right = pd.DataFrame({'key1':£Û'one','one','two','two'£Ý,

'key2':£Û'a','a','a','b'£Ý,'value2':range(4)})

display(left,right,pd.merge(left,right,on = £Û'key1','key2'£Ý,how = 'left'))






Êä³ö½á¹ûÈçÍ¼3ª²7ËùÊ¾¡£



Í¼3ª²7Í¨¹ý¶à¸ö¼üºÏ²¢


ÔÚºÏ²¢Ê±»á³öÏÖÖØ¸´ÁÐÃû£¬ËäÈ»¿ÉÒÔÈËÎªÐÞ¸ÄÖØ¸´µÄÁÐÃû£¬µ«merge£¨£©º¯ÊýÌá¹©ÁËsuffixes²ÎÊý£¬ÓÃÓÚ´¦Àí¸ÃÎÊÌâ¡£


¡¾Àý3ª²28¡¿merge£¨£©º¯ÊýÖÐsuffixes²ÎÊýµÄÓ¦ÓÃ¡£



In£Û38£Ý:print(pd.merge(left,right,on = 'key1'))

print(pd.merge(left,right,on = 'key1',suffixes = ('_left','_right')))

Out£Û38£Ý: key1key2_xvalue1key2_yvalue2

0onea0a0

1onea0a1

2oneb1a0

3oneb1a1







4twoa2a2

5twoa2b3

 key1key2_left value1 key2_right value2

0onea0a0

1onea0a1

2oneb1a0

3oneb1a1

4twoa2a2

5twoa2b3






2.  Ê¹ÓÃconcat£¨£©º¯Êý½øÐÐÊý¾ÝÁ¬½Ó


Èç¹ûÒªºÏ²¢µÄDataFrameÖ®¼äÃ»ÓÐÁ¬½Ó¼ü£¬¾ÍÎÞ·¨Ê¹ÓÃmerge()º¯Êý¡£PandasÖÐµÄconcat£¨£©º¯Êý¿ÉÒÔÊµÏÖ£¬Ä¬ÈÏÇé¿öÏÂ»á°´ÐÐµÄ·½Ïò¶ÑµþÊý¾Ý¡£Èç¹ûÒªÔÚÁÐÉÏÁ¬½Ó£¬ÉèÖÃaxis=1¼´¿É¡£

¡¾Àý3ª²29¡¿Á½¸öSeriesµÄÊý¾ÝÁ¬½Ó¡£



In£Û39£Ý:s1 = pd.Series(£Û0,1£Ý,index = £Û'a','b'£Ý)

s2 = pd.Series(£Û2,3,4£Ý,index = £Û'a','d','e'£Ý)

s3 = pd.Series(£Û5,6£Ý,index = £Û'f','g'£Ý)

print(pd.concat(£Ûs1,s2,s3£Ý))#SeriesÐÐºÏ²¢

Out£Û39£Ý:a0

b1

a2

d3

e4

f5

g6

dtype: int64






¡¾Àý3ª²30¡¿Á½¸öDataFrameµÄÊý¾ÝÁ¬½Ó¡£



In£Û40£Ý:data1 = pd.DataFrame(np.arange(6).reshape(2,3),columns = list('abc'))

data2 = pd.DataFrame(np.arange(20,26).reshape(2,3),columns = list('ayz'))

data = pd.concat(£Ûdata1,data2£Ý,axis = 0)

display(data1,data2,data)






Êä³ö½á¹ûÈçÍ¼3ª²8ËùÊ¾¡£



Í¼3ª²8Á½¸öDataFrameµÄÊý¾ÝÁ¬½Ó


¿ÉÒÔ¿´³ö£¬Á¬½Ó·½Ê½ÎªÍâÁ¬½Ó(²¢¼¯)£¬joinÄ¬ÈÏÎª"outer"£¬Í¨¹ý´«Èëjoin='inner'²ÎÊý¿ÉÒÔÊµÏÖÄÚÁ¬½Ó¡£

¡¾Àý3ª²31¡¿Ö¸¶¨Ë÷ÒýË³Ðò¡£



In£Û41£Ý:import pandas as pd

s1=pd.Series(£Û0,1£Ý,index=£Û'a','b'£Ý)

s2=pd.Series(£Û2,3,4£Ý,index=£Û'a','d','e'£Ý)

s3=pd.Series(£Û5,6£Ý,index=£Û'f','g'£Ý)

s4=pd.concat(£Ûs1*5,s3£Ý,sort=False)

s5=pd.concat(£Ûs1,s4£Ý,axis=1,sort=False)

s6=pd.concat(£Ûs1,s4£Ý,axis=1,join='inner',sort=False)

display(s5,s6)






Êä³ö½á¹ûÈçÍ¼3ª²9ËùÊ¾¡£

3.  Ê¹ÓÃcombine_first£¨£©º¯ÊýºÏ²¢Êý¾Ý

Èç¹ûÐèÒªºÏ²¢µÄÁ½¸öDataFrame´æÔÚÖØ¸´Ë÷Òý£¬ÔòÊ¹ÓÃmerge()ºÍconcat()º¯Êý¶¼ÎÞ·¨ÕýÈ·ºÏ²¢£¬´ËÊ±ÐèÒªÊ¹ÓÃcombine_first()º¯Êý¡£Êý¾Ýw1ºÍw2ÈçÍ¼3ª²10ËùÊ¾¡£

¡¾Àý3ª²32¡¿Ê¹ÓÃcombine_first()º¯ÊýºÏ²¢w1ºÍw2¡£



In£Û42£Ý:w1.combine_first(w2)






Êä³ö½á¹ûÈçÍ¼3ª²11ËùÊ¾¡£



Í¼3ª²9Ö¸¶¨Ë÷ÒýË³Ðò





Í¼3ª²10Êý¾Ýw1ºÍw2





Í¼3ª²11Ê¹ÓÃcombine_first£¨£©º¯Êý

ºÏ²¢w1ºÍw2



3.4Êý¾Ý±ê×¼»¯

²»Í¬ÌØÕ÷ÍùÍù¾ßÓÐ²»Í¬µÄÁ¿¸Ù£¬ÓÉ´ËÔì³ÉÊýÖµ¼äµÄ²îÒìºÜ´ó¡£Òò´Ë£¬ÎªÁËÏû³ýÌØÕ÷Ö®¼äÁ¿¸ÙºÍÈ¡Öµ·¶Î§µÄ²îÒì¿ÉÄÜÔì³ÉµÄÓ°Ïì£¬ÐèÒª¶ÔÊý¾Ý½øÐÐ±ê×¼»¯´¦Àí¡£

3.4.1Àë²î±ê×¼»¯Êý¾Ý

Àë²î±ê×¼»¯ÊÇ¶ÔÔ­Ê¼Êý¾ÝËù×öµÄÒ»ÖÖÏßÐÔ±ä»»£¬½«Ô­Ê¼Êý¾ÝµÄÊýÖµÓ³Éäµ½£Û0,1£ÝÇø¼ä£¬ÈçÊ½£¨3ª²5£©ËùÊ¾¡£


x1=x-minmax-min(3ª²5)


¡¾Àý3ª²33¡¿Êý¾ÝµÄÀë²î±ê×¼»¯¡£



In£Û43£Ý:def MinMaxScale(data):

data = (data-data.min())/(data.max()-data.min())

return data

x = np.array(£Û£Û 1., -1.,2.£Ý,£Û 2.,0.,0.£Ý,£Û 0.,1., -1.£Ý£Ý)

print('Ô­Ê¼Êý¾ÝÎª£º £Ün',x)

x_scaled = MinMaxScale(x)

print('±ê×¼»¯ºó¾ØÕóÎª:£Ün',x_scaled,end = '£Ün')

Out£Û43£Ý£ºÔ­Ê¼Êý¾ÝÎª£º 

£Û£Û1. -1.2.£Ý

£Û2.0.0.£Ý

£Û0.1. -1.£Ý£Ý

±ê×¼»¯ºó¾ØÕóÎª:

£Û£Û0.66666667 0.1.£Ý

£Û1.0.333333330.33333333£Ý

£Û0.33333333 0.666666670.£Ý£Ý







3.4.2±ê×¼²î±ê×¼»¯Êý¾Ý

±ê×¼²î±ê×¼»¯ÓÖ³ÆÎªÁã¾ùÖµ±ê×¼»¯»òz·ÖÊý±ê×¼»¯£¬ÊÇµ±Ç°Ê¹ÓÃ×î¹ã·ºµÄÊý¾Ý±ê×¼»¯·½·¨¡£¾­¹ý¸Ã·½·¨´¦ÀíµÄÊý¾Ý¾ùÖµÎª0£¬±ê×¼²îÎª1£¬ÈçÊ½£¨3ª²6£©ËùÊ¾¡£


x1=x-meanstd(3ª²6)


¡¾Àý3ª²34¡¿Êý¾ÝµÄ±ê×¼²î±ê×¼»¯¡£



In£Û44£Ý:def StandardScale(data):

data = (data-data.mean())/data.std()

return data

x = np.array(£Û£Û 1., -1.,2.£Ý,£Û 2., 0., 0.£Ý,£Û 0., 1., -1.£Ý£Ý)

print('Ô­Ê¼Êý¾ÝÎª£º £Ün',x)






x_scaled = StandardScale(x)

print('±ê×¼»¯ºó¾ØÕóÎª:£Ün',x_scaled,end = '£Ün')

Out£Û44£Ý£º Ô­Ê¼Êý¾ÝÎª£º 

£Û£Û 1. -1.2.£Ý

£Û 2.0.0.£Ý

£Û 0.1. -1.£Ý£Ý

±ê×¼»¯ºó¾ØÕóÎª:

£Û£Û 0.52128604 -1.355343691.4596009 £Ý

£Û 1.4596009-0.41702883 -0.41702883£Ý

£Û-0.417028830.52128604 -1.35534369£Ý£Ý






Êý¾Ý¹éÒ»»¯/±ê×¼»¯µÄÄ¿µÄÊÇ»ñµÃÄ³ÖÖ¡°ÎÞ¹ØÐÔ¡±£¬ÈçÆ«ÖÃÎÞ¹Ø¡¢³ß¶ÈÎÞ¹Ø¡¢³¤¶ÈÎÞ¹ØµÈ¡£µ±¹éÒ»»¯/±ê×¼»¯·½·¨±³ºóµÄÎïÀíÒâÒåºÍ¼¸ºÎº¬ÒåÓëµ±Ç°ÎÊÌâµÄÐèÒªÏàÆõºÏÊ±£¬»á¶Ô½â¾ö¸ÃÎÊÌâÓÐÕýÏò×÷ÓÃ£¬·´Ö®Ôò»áÆð·´×÷ÓÃ¡£Òò´Ë£¬ÈçºÎÑ¡Ôñ±ê×¼»¯·½·¨È¡¾öÓÚ´ý½â¾öµÄÎÊÌâ¡£Ò»°ãÀ´Ëµ£¬Éæ¼°»òÒþº¬¾àÀë¼ÆËãÒÔ¼°ËðÊ§º¯ÊýÖÐº¬ÓÐÕýÔòÏîµÄËã·¨£¬ÈçKª²Means¡¢KNN¡¢PCA¡¢SVMµÈ£¬ÐèÒª½øÐÐÊý¾Ý±ê×¼»¯£» ¾àÀë¼ÆËãÎÞ¹ØµÄ¸ÅÂÊÄ£ÐÍºÍÊ÷Ä£ÐÍ£¬ÈçÆÓËØ±´Ò¶Ë¹¡¢¾ö²ßÊ÷ºÍËæ»úÉ­ÁÖµÈ£¬Ôò²»ÐèÒª½øÐÐÊý¾Ý±ê×¼»¯¡£



É¨Ò»É¨






ÊÓÆµ½²½â


3.5Êý¾Ý¹éÔ¼

ÏÖÊµÖÐÊý¾Ý¼¯¿ÉÄÜ»áºÜ´ó£¬ÔÚº£Á¿Êý¾Ý¼¯ÉÏ½øÐÐÊý¾ÝÍÚ¾òÐèÒªºÜ³¤µÄÊ±¼ä£¬Òò´ËÒª¶ÔÊý¾Ý½øÐÐ¹éÔ¼¡£Êý¾Ý¹éÔ¼(Data Reduction)ÊÇÖ¸ÔÚ¾¡¿ÉÄÜ±£³ÖÊý¾ÝÍêÕûÐÔµÄ»ù´¡ÉÏµÃµ½Êý¾ÝµÄ¹éÔ¼±íÊ¾¡£Ò²¾ÍÊÇËµ£¬ÔÚ¹éÔ¼ºóµÄÊý¾Ý¼¯ÉÏÍÚ¾ò½«¸üÓÐÐ§£¬¶øÇÒÈÔ»á²úÉúÏàÍ¬»òÏàËÆµÄ·ÖÎö½á¹û¡£Êý¾Ý¹éÔ¼°üÀ¨Î¬¹éÔ¼¡¢ÊýÁ¿¹éÔ¼ºÍÊý¾ÝÑ¹Ëõ¡£


3.5.1Î¬¹éÔ¼

Î¬¹éÔ¼(Dimensionality Reduction)µÄË¼Â·ÊÇ¼õÉÙËù¿¼ÂÇµÄËæ»ú±äÁ¿»òÊôÐÔµÄ¸öÊý£¬
Ê¹ÓÃµÄ·½·¨ÓÐÊôÐÔ×Ó¼¯Ñ¡Ôñ¡¢Ð¡²¨±ä»»ºÍÖ÷³É·Ö·ÖÎö¡£ÊôÐÔ×Ó¼¯Ñ¡ÔñÊÇÒ»ÖÖÎ¬¹éÔ¼·½·¨£¬ÆäÖÐ²»Ïà¹Ø¡¢ÈõÏà¹Ø»òÈßÓàµÄÊôÐÔ
£¨»òÎ¬£©±»¼ì²â»òÉ¾³ý£» ºóÁ½ÖÖ·½·¨ÊÇ½«Ô­Ê¼Êý¾Ý±ä»»»òÍ¶Ó°µ½½ÏÐ¡µÄ¿Õ¼ä¡£

1. ÊôÐÔ×Ó¼¯Ñ¡Ôñ

ÊôÐÔ×Ó¼¯Ñ¡ÔñÍ¨¹ýÉ¾³ý²»Ïà¹Ø»òÈßÓàµÄÊôÐÔ(»òÎ¬)¼õÉÙÊý¾ÝÁ¿¡£ÊôÐÔÑ¡ÔñµÄÄ¿µÄÊÇÕÒ³ö×îÐ¡ÊôÐÔ¼¯£¬Ê¹Êý¾ÝÀàµÄ¸ÅÂÊ·Ö²¼¾¡¿ÉÄÜ½Ó½üÊ¹ÓÃËùÓÐÊôÐÔµÃµ½µÄÔ­·Ö²¼¡£ÔÚËõÐ¡µÄÊôÐÔ¼¯ÉÏÍÚ¾ò¿ÉÒÔ¼õÉÙ³öÏÖÔÚ·¢ÏÖÄ£Ê½ÉÏµÄÊôÐÔÊýÄ¿£¬Ê¹Ä£Ê½ÈÝÒ×Àí½â¡£


ÈçºÎÕÒ³öÔ­À´ÊôÐÔµÄÒ»¸ö¡°ºÃµÄ¡±×Ó¼¯£¿¶ÔÓÚn¸öÊôÐÔ£¬ÓÐ2n¸ö¿ÉÄÜµÄ×Ó¼¯¡£Çî¾ÙËÑË÷ÕÒ³ö×î¼Ñ×Ó¼¯ÊÇ²»ÏÖÊµµÄ¡£Òò´Ë£¬Í¨³£Ê¹ÓÃÑ¹ËõËÑË÷¿Õ¼äµÄÆô·¢Ê½Ëã·¨½øÐÐ¡°×î¼Ñ¡±×Ó¼¯Ñ¡È¡¡£ËüµÄ²ßÂÔÊÇ×ö¾Ö²¿×îÓÅÑ¡Ôñ£¬ÆÚÍûÓÉ´Ëµ¼³öÈ«¾Ö×îÓÅ½â¡£»ù±¾Æô·¢Ê½·½·¨°üÀ¨ÒÔÏÂ¼¼Êõ¡£

1) Öð²½ÏòÇ°Ñ¡Ôñ

Öð²½ÏòÇ°Ñ¡Ôñ¹ý³ÌÓÉ¿ÕÊôÐÔ¼¯×÷Îª¹éÔ¼¼¯µÄÆðÊ¼£¬È·¶¨Ô­ÊôÐÔ¼¯ÖÐ×îºÃµÄÊôÐÔ²¢Ìí¼Óµ½¹éÔ¼¼¯ÖÐ£¬µü´ú½«Ê£ÓàµÄÔ­ÊôÐÔ¼¯ÖÐ×îºÃµÄÊôÐÔÌí¼Óµ½¸Ã¼¯ºÏÖÐ¡£

2) Öð²½ÏòºóÉ¾³ý

Öð²½ÏòºóÉ¾³ý¹ý³ÌÓÉÕû¸öÊôÐÔ¼¯¿ªÊ¼£¬ÔÚÃ¿´Îµü´úÖÐÉ¾³ýÉÐÔÚÊôÐÔ¼¯ÖÐ×î²îµÄÊôÐÔ¡£

3) Öð²½ÏòÇ°Ñ¡ÔñºÍÖð²½ÏòºóÉ¾³ýµÄ½áºÏ

¸Ã·½·¨½«Öð²½ÏòÇ°Ñ¡ÔñºÍÖð²½ÏòºóÉ¾³ýÏà½áºÏ£¬Ã¿²½Ñ¡ÔñÒ»¸ö×îºÃµÄÊôÐÔ£¬²¢ÔÚÊôÐÔÖÐÉ¾³ýÒ»¸ö×î²îµÄÊôÐÔ¡£

4) ¾ö²ßÊ÷¹éÄÉ

¾ö²ßÊ÷Ëã·¨¹¹ÔìÒ»¸öÀàËÆÓÚÁ÷³ÌÍ¼µÄ½á¹¹£¬Ã¿¸öÄÚ²¿½Úµã±íÊ¾Ò»¸öÊôÐÔÉÏµÄ²âÊÔ£¬Ã¿¸ö·ÖÖ§¶ÔÓ¦²âÊÔµÄÒ»¸ö½á¹û¡£ÔÚÃ¿¸ö½ÚµãÉÏÑ¡Ôñ¡°×îºÃ¡±µÄÊôÐÔ£¬½«Êý¾Ý»®·Ö³ÉÀà¡£ÀûÓÃ¾ö²ßÊ÷½øÐÐ×Ó¼¯Ñ¡ÔñÊ±£¬ÓÉ¸ø¶¨µÄÊý¾Ý¹¹Ôì¾ö²ßÊ÷£¬²»³öÏÖÔÚÊ÷ÖÐµÄËùÓÐÊôÐÔ¼Ù¶¨ÊÇ²»Ïà¹ØµÄ£¬³öÏÖÔÚÊ÷ÖÐµÄÊôÐÔÐÎ³É¹éÔ¼ºóµÄÊôÐÔ×Ó¼¯¡£


ÕâÐ©·½·¨µÄ½áÊøÌõ¼þ¿ÉÒÔ²»Í¬£¬¿ÉÒÔÊ¹ÓÃÒ»¸ö¶ÈÁ¿ãÐÖµ¾ö¶¨ºÎÊ±ÖÕÖ¹ÊôÐÔÑ¡Ôñ¹ý³Ì¡£


ÔÚÓÐÐ©Çé¿öÏÂ£¬¿ÉÒÔ»ùÓÚÒÑÓÐÊôÐÔ¹¹ÔìÒ»Ð©ÐÂÊôÐÔ£¬ÒÔÌá¸ß×¼È·ÐÔºÍ¶Ô¸ßÎ¬Êý¾Ý½á¹¹µÄÀí½â£¬Èç¸ù¾ÝÒÑÓÐµÄÊôÐÔ¡°¸ß¶È¡±ºÍ¡°¿í¶È¡±¹¹ÔìÐÂÊôÐÔ¡°Ãæ»ý¡±¡£Í¨¹ý×éºÏÊôÐÔ£¬ÊôÐÔ¹¹Ôì¿ÉÒÔ·¢ÏÖ¹ØÓÚÊý¾ÝÊôÐÔ¼äÁªÏµµÄÈ±Ê§ÐÅÏ¢¡£

2. Ð¡²¨±ä»»

Ð¡²¨±ä»»ÊÇÒ»ÖÖÐÂµÄ±ä»»·ÖÎö·½·¨£¬Ëü¼Ì³ÐºÍ·¢Õ¹ÁË¶ÌÊ±¸µÀïÒ¶±ä»»¾Ö²¿»¯µÄË¼Ïë£¬Í¬Ê±ÓÖ¿Ë·þÁË´°¿Ú´óÐ¡²»ËæÆµÂÊ±ä»¯µÈÈ±µã£¬ÄÜ¹»Ìá¹©Ò»¸öËæÆµÂÊ¸Ä±äµÄÊ±¼äª²ÆµÂÊ´°¿Ú£¬ÊÇ½øÐÐÐÅºÅÊ±Æµ·ÖÎöºÍ´¦ÀíµÄÀíÏë¹¤¾ß¡£
¶ÔËæ»úÐÅºÅ½øÐÐÐ¡²¨±ä»»¿ÉÒÔµÃµ½ÓëÔ­Êý¾Ý³¤¶ÈÏàµÈµÄÆµÓòÏµÊý£¬ÓÉÓÚÔÚÆµÓò£¬ÐÅºÅÄÜÁ¿Ö÷Òª¼¯ÖÐÔÚµÍÆµ£¬Òò´Ë¿ÉÒÔ½ØÈ¡ÖÐµÍÆµµÄÏµÊý±£Áô½üËÆµÄÑ¹ËõÊý¾Ý¡£

¡¾Àý3ª²35¡¿¶ÔÍ¼Ïñ½øÐÐÐ¡²¨±ä»»²¢ÏÔÊ¾¡£



In£Û45£Ý:import numpy as np

import pywt

import cv2 as cv

import matplotlib.pyplot as plt

img = cv.imread("lena_color_256.tif")

img = cv.resize(img, (448, 448))

# ½«¶àÍ¨µÀÍ¼Ïñ×ª»»Îªµ¥Í¨µÀÍ¼Ïñ

img = cv.cvtColor(img, cv2.COLOR_BGR2GRAY).astype(np.float32)

plt.figure('¶þÎ¬Ð¡²¨Ò»¼¶±ä»»')

coeffs = pywt.dwt2(img, 'haar')

cA, (cH, cV, cD) = coeffs

# ½«¸÷×ÓÍ¼½øÐÐÆ´½Ó£¬×îºóµÃµ½Ò»·ùÍ¼

AH = np.concatenate(£ÛcA, cH+255£Ý, axis=1)






VD = np.concatenate(£ÛcV+255, cD+255£Ý, axis=1)

img = np.concatenate(£ÛAH, VD£Ý, axis=0)

# ÏÔÊ¾Îª»Ò¶ÈÍ¼

plt.axis('off')

plt.imshow(img,'gray')

plt.title('result')

plt.show()








Í¼3ª²12Í¼ÏñµÄÐ¡²¨±ä»»


Êä³ö½á¹ûÈçÍ¼3ª²12ËùÊ¾¡£


3. Ö÷³É·Ö·ÖÎö

1) Ëã·¨Ô­Àí

Ö÷³É·Ö·ÖÎö(PCA)ÓÖ³ÆÎªKarhunenª²Loeve»òKª²L·½·¨£¬ÓÃÓÚËÑË÷k¸ö×îÄÜ´ú±íÊý¾ÝµÄnÎ¬Õý½»ÏòÁ¿£¬ÊÇ×î³£ÓÃµÄÒ»ÖÖ½µÎ¬·½·¨¡£PCAÍ¨³£ÓÃÓÚ¸ßÎ¬Êý¾Ý¼¯µÄÌ½Ë÷Óë¿ÉÊÓ»¯£¬»¹¿ÉÒÔÓÃ×÷Êý¾ÝÑ¹ËõºÍÔ¤´¦ÀíµÈ£¬ÔÚÊý¾ÝÑ¹ËõÏû³ýÈßÓàºÍÊý¾ÝÔëÉùÏû³ýµÈÁìÓòÒ²ÓÐ¹ã·ºµÄÓ¦ÓÃ¡£


PCAµÄÖ÷ÒªÄ¿µÄÊÇÕÒ³öÊý¾ÝÖÐ×îÖ÷ÒªµÄ·½Ãæ´úÌæÔ­Ê¼Êý¾Ý¡£¾ßÌåµØ£¬¼ÙÈçÊý¾Ý¼¯ÊÇ
nÎ¬µÄ£¬¹²ÓÐm¸öÊý¾Ý(x(1),x(2),¡­,x(m))£¬Ï£Íû½«Õâm¸öÊý¾Ý
´ÓnÎ¬½µµ½n¡äÎ¬£¬Ê¹Õâm¸ön¡äÎ¬Êý¾Ý¼¯¾¡¿ÉÄÜ´ú±íÔ­Ê¼Êý¾Ý¼¯¡£

2) PCAËã·¨



ÊäÈë£º nÎ¬Ñù±¾¼¯D=(x(1),x(2),¡­,x(m))£¬½µÎ¬ºóµÄÎ¬Êýn¡ä

Êä³ö£º ½µÎ¬ºóµÄÑù±¾¼¯D¡ä

·½·¨£º 


(1) ¶ÔËùÓÐµÄÑù±¾½øÐÐÖÐÐÄ»¯£º x(i)¡ä=x(i)-1m¡Æmj=1x(j)£» 

(2) ¼ÆËãÑù±¾µÄÐ­·½²î¾ØÕóXXT£» 

(3) ¶ÔÐ­·½²î¾ØÕó½øÐÐÌØÕ÷Öµ·Ö½â£» 

(4) È¡³ö×î´óµÄn'¸öÌØÕ÷Öµ¶ÔÓ¦µÄÌØÕ÷ÏòÁ¿(w1,w2,¡­,wn¡ä), ½«ËùÓÐÌØÕ÷ÏòÁ¿±ê×¼»¯ºó£¬×é³ÉÌØÕ÷ÏòÁ¿¾ØÕóW£»

(5) ½«Ñù±¾¼¯ÖÐµÄÃ¿¸öÑù±¾x(i)×ª»»ÎªÐÂµÄÑù±¾z(i)=WTx(i)£» 

(6) µÃµ½Êä³öÑù±¾¼¯D'=(z(1),z(2),¡­,z(m))¡£






¡¾Àý3ª²36¡¿
sklearnÊµÏÖð°Î²»¨Êý¾Ý½øÐÐ½µÎ¬£¬½«Ô­À´4Î¬µÄÊý¾Ý½µÎ¬Îª¶þÎ¬¡£



In£Û46£Ý:import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

data = load_iris()

y = data.target

x = data.data

pca = PCA(n_components = 2)






#¼ÓÔØPCAËã·¨£¬ÉèÖÃ½µÎ¬ºóÖ÷³É·ÖÊýÄ¿Îª2

reduced_x = pca.fit_transform(x)#¶ÔÑù±¾½øÐÐ½µÎ¬

#ÔÚÆ½ÃæÖÐ»­³ö½µÎ¬ºóµÄÑù±¾µã·Ö²¼

red_x,red_y = £Û£Ý,£Û£Ý

blue_x,blue_y = £Û£Ý,£Û£Ý

green_x,green_y = £Û£Ý,£Û£Ý

for i in range(len(reduced_x)):

if y£Ûi£Ý ==0:

red_x.append(reduced_x£Ûi£Ý£Û0£Ý)

red_y.append(reduced_x£Ûi£Ý£Û1£Ý)

elif y£Ûi£Ý==1:

blue_x.append(reduced_x£Ûi£Ý£Û0£Ý)

blue_y.append(reduced_x£Ûi£Ý£Û1£Ý)

else:

green_x.append(reduced_x£Ûi£Ý£Û0£Ý)

green_y.append(reduced_x£Ûi£Ý£Û1£Ý)

plt.scatter(red_x,red_y,c='r',marker='x')

plt.scatter(blue_x,blue_y,c='b',marker='D')

plt.scatter(green_x,green_y,c='g',marker='.')

plt.show()






½µÎ¬ºóµÄÑù±¾µã·Ö²¼ÈçÍ¼3ª²13ËùÊ¾¡£



Í¼3ª²13½µÎ¬ºóµÄÑù±¾µã·Ö²¼


3.5.2ÊýÁ¿¹éÔ¼


ÊýÁ¿¹éÔ¼(Numerosity Reduction)ÊÇÖ¸ÓÃÌæ´úµÄ¡¢½ÏÐ¡µÄÊý¾Ý±íÊ¾ÐÎÊ½×ª»»Ô­Ê¼Êý¾Ý¡£ÕâÐ©
·½·¨¿ÉÒÔÊÇ²ÎÊý»ò·Ç²ÎÊýµÄ¡£²ÎÊý·½·¨Ê¹ÓÃÄ£ÐÍ¹À¼ÆÊý¾Ý£¬Ê¹µÃÒ»°ãÖ»ÐèÒª´æ·ÅÄ£ÐÍ²ÎÊý¶ø²»ÊÇÊµ¼ÊÊý¾Ý(ÀëÈºµãÐë´æ·Å)£¬Èç»Ø¹éºÍ¶ÔÊýÏßÐÔÄ£ÐÍ£» ·Ç²ÎÊý·½·¨°üÀ¨Ö±·½Í¼¡¢¾ÛÀà¡¢³éÑùºÍÊý¾ÝÁ¢·½Ìå¾ÛÀà¡£

1. »Ø¹éºÍ¶ÔÊýÏßÐÔÄ£ÐÍ

»Ø¹éºÍ¶ÔÊýÏßÐÔÄ£ÐÍ¿ÉÒÔÓÃÀ´½üËÆ¸ø¶¨µÄÊý¾Ý¡£ÔÚ(¼òµ¥)ÏßÐÔÄ£ÐÍÖÐ£¬¶ÔÊý¾ÝÄâºÏµÃµ½Ò»ÌõÖ±Ïß£¬¶àÔª»Ø¹éÊÇ(¼òµ¥)ÏßÐÔ»Ø¹éµÄÀ©Õ¹£¬ÓÃÁ½¸ö»ò¶à¸ö×Ô±äÁ¿µÄÏßÐÔº¯Êý¶ÔÒò±äÁ¿½¨Ä£¡£


¶ÔÊýÏßÐÔÄ£ÐÍ½üËÆÀëÉ¢µÄ¶àÎ¬¸ÅÂÊ·Ö²¼£¬ÊÇÓÃÓÚÀëÉ¢ÐÍÊý¾Ý»òÕûÀí³ÉÁÐÁª±í¸ñÊ½µÄ¼ÆÊý×ÊÁÏµÄÍ³¼Æ·ÖÎö¹¤¾ß¡£¸ø¶¨nÎ¬Ôª×éµÄ¼¯ºÏ£¬°ÑÃ¿¸öÔª×é¿´×÷nÎ¬¿Õ¼äÖÐµÄµã¡£¶ÔÓÚÀëÉ¢ÊôÐÔ¼¯£¬¿ÉÒÔÊ¹ÓÃ¶ÔÊýÏßÐÔÄ£ÐÍ»ùÓÚÎ¬×éºÏµÄÒ»¸ö½ÏÐ¡×Ó¼¯¹À¼Æ¶àÎ¬¿Õ¼äÖÐÃ¿¸öµãµÄ¸ÅÂÛ¡£Òò´Ë£¬½«¸ßÎ¬Êý¾Ý¿Õ¼äÓÉ½ÏµÍÎ¬¿Õ¼ä¹¹Ôì¡£

2. Ö±·½Í¼


Ö±·½Í¼Ê¹ÓÃ·ÖÏäË¼Â·½üËÆÊý¾Ý·Ö²¼¡£ÓÃÖ±·½Í¼¹éÔ¼Êý¾Ý£¬¾ÍÊÇ½«Ö±·½Í¼ÖÐµÄÍ°µÄ¸öÊýÓÉ¹Û²âÖµµÄÊýÁ¿n¼õÉÙµ½k£¬Ê¹Êý¾Ý±ä³ÉÒ»¿éÒ»¿éµØ³ÊÏÖ¡£ÎªÁËÑ¹ËõÊý¾Ý£¬Í¨³£ÈÃÒ»¸öÍ°´ú±í¸ø¶¨ÊôÐÔµÄÒ»¸öÁ¬ÐøÖµÓò¡£Í°µÄ»®·Ö¿ÉÒÔÊÇµÈ¿íµÄ£¬Ò²¿ÉÒÔÊÇµÈÆµµÄ¡£

3. ¾ÛÀà

¾ÛÀàËã·¨ÊÇ½«Êý¾Ý»®·ÖÎª´Ø£¬Ê¹´ØÄÚµÄÊý¾Ý¶ÔÏó¾¡¿ÉÄÜ¡°ÏàËÆ¡±£¬¶ø´Ø¼äµÄÊý¾Ý¶ÔÏó¾¡¿ÉÄÜ¡°ÏàÒì¡±¡£ÔÚÊý¾Ý
¹éÔ¼ÖÐ£¬ÓÃÃ¿¸öÊý¾Ý´ØÖÐµÄ´ú±íÌæ»»Êµ¼ÊÊý¾Ý£¬ÒÔ´ïµ½Êý¾Ý¹éÔ¼µÄÐ§¹û¡£

4. ³éÑù

³éÑùÍ¨¹ýÑ¡È¡Ëæ»úÑù±¾(×Ó¼¯)£¬ÊµÏÖÓÃÐ¡Êý¾Ý´ú±í´óÊý¾ÝµÄ¹ý³Ì¡£³éÑùµÄ·½·¨°üÀ¨¼òµ¥Ëæ»ú³éÑù¡¢´Ø³éÑùºÍ·Ö²ã³éÑùµÈ¡£

5. Êý¾ÝÁ¢·½Ìå¾ÛÀà

Êý¾ÝÁ¢·½Ìå¾ÛÀàÓÃÓÚ´ÓµÍÁ£¶ÈµÄÊý¾Ý·ÖÎö¾ÛºÏ³É»ã×ÜÁ£¶ÈµÄÊý¾Ý·ÖÎö¡£Ò»°ãÈÏÎª×îÏ¸µÄÁ£¶ÈÊÇÒ»¸ö×îÐ¡µÄÁ¢·½Ìå£¬ÔÚ´ËÖ®ÉÏÃ¿¸ö¸ß²ã´ÎµÄ³éÏó¶¼ÄÜÐÎ³ÉÒ»¸ö¸ü´óµÄÁ¢·½Ìå¡£Êý¾ÝÁ¢·½Ìå¾ÛÀà¾ÍÊÇ½«Ï¸Á£¶ÈµÄÊôÐÔ¾Û¼¯µ½´ÖÁ£¶ÈµÄÊôÐÔ¡£

3.5.3Êý¾ÝÑ¹Ëõ


Êý¾ÝÑ¹Ëõ(Data Compression)Ê¹ÓÃ±ä»»£¬ÒÔ±ãµÃµ½Ô­Ê¼Êý¾ÝµÄ¹éÔ¼»ò¡°Ñ¹Ëõ¡±±íÊ¾¡£Èç¹ûÊý¾Ý¿ÉÒÔÔÚÑ¹Ëõºó
ÖØ¹¹£¬¶ø²»ËðÊ§ÐÅÏ¢£¬Ôò¸ÃÊý¾Ý¹éÔ¼³ÆÎªÎÞËðµÄ£» Èç¹ûÊÇ½üËÆÖØ¹¹Ô­Êý¾Ý£¬Ôò³ÆÎªÓÐËðµÄ¡£»ùÓÚÐ¡²¨±ä»»µÄÊý¾ÝÑ¹ËõÊÇÒ»ÖÖ·Ç³£ÖØÒªµÄÓÐËðÑ¹Ëõ·½·¨¡£


Ð¡²¨±ä»»(Wavelet Transform)ÊÇ20ÊÀ¼Í80Äê´úºóÆÚ·¢Õ¹ÆðÀ´µÄ¼Ì¸µÀïÒ¶
±ä»»ÓÃÓÚÐÅÏ¢´¦ÀíÓë·ÖÎöµÄÇ¿´ó¹¤¾ß¡£
¶ÔÊý¾ÝÏòÁ¿X½øÐÐÐ¡²¨±ä»»£¬»áµÃµ½¾ßÓÐÏàÍ¬³¤¶ÈµÄÐ¡²¨ÏµÊý£» ¶ÔÐ¡²¨ÏµÊý½øÐÐÐ¡²¨Äæ±ä»»£¬»á»¹Ô­Êý¾ÝÏòÁ¿X¡£ÓÉÓÚÊý¾ÝµÄÖ÷ÒªÄÜÁ¿¼¯ÖÐÔÚµÍÆµÇøÓò£¬Òò´Ë½ö´æ´¢Ò»Ð¡²¿·Ö×îÇ¿(µÍÆµ²¿·Ö)µÄÐ¡²¨ÏµÊý£¬¾ÍÄÜ±£Áô½üËÆµÄÑ¹ËõÊý¾Ý¡£¸ø¶¨Ò»×éÏµÊý£¬Ê¹ÓÃÏàÓ¦µÄÐ¡²¨Äæ±ä»»¿ÉÒÔ¹¹ÔìÔ­Êý¾ÝµÄ½üËÆ¡£




É¨Ò»É¨






ÊÓÆµ½²½â


3.6Êý¾Ý±ä»»ÓëÊý¾ÝÀëÉ¢»¯


ÔÚÊý¾ÝÔ¤´¦Àí¹ý³ÌÖÐ£¬²»Í¬µÄÊý¾ÝÊÊºÏ²»Í¬µÄÊý¾ÝÍÚ¾òËã·¨¡£Êý¾Ý±ä»»ÊÇÒ»ÖÖ½«Ô­Ê¼Êý¾Ý±ä»»³É½ÏºÃÊý¾Ý¸ñÊ½µÄ·½·¨£¬ÒÔ±ã×÷ÎªÊý¾Ý´¦ÀíÇ°ÌØ¶¨Êý¾ÝÍÚ¾òËã·¨µÄÊäÈë¡£Êý¾ÝÀëÉ¢»¯ÊÇÒ»ÖÖÊý¾Ý±ä»»µÄÐÎÊ½¡£

3.6.1Êý¾Ý±ä»»µÄ²ßÂÔ

ÔÚÊý¾Ý±ä»»ÖÐ£¬Êý¾Ý±»±ä»»³ÉÊÊºÏÊý¾ÝÍÚ¾òµÄÐÎÊ½¡£Êý¾Ý±ä»»Ö÷ÒªÓÐÒÔÏÂ¼¸ÖÖ·½·¨¡£

1. ¹â»¬

Êý¾Ý¹â»¬ÓÃÓÚÈ¥³ýÊý¾ÝÖÐµÄÔëÉù¡£³£ÓÃµÄÊý¾Ý¹â»¬·½·¨ÓÐ·ÖÏä¡¢»Ø¹éºÍ¾ÛÀàµÈ¡£

2. ÊôÐÔ¹¹Ôì

ÊôÐÔ¹¹ÔìÊÇÍ¨¹ý¸ø¶¨µÄÊôÐÔ¹¹ÔìÐÂµÄÊôÐÔ²¢Ìí¼Óµ½ÊôÐÔ¼¯ÖÐ£¬ÒÔ°ïÖúÊý¾ÝÍÚ¾ò¡£

3. ¾Û¼¯

¾Û¼¯ÊÇ¶ÔÊý¾Ý½øÐÐ»ã×Ü»ò¾Û¼¯¡£ÀýÈç£¬¿ÉÒÔ¾Û¼¯ÈÕÏúÊÛÊý¾Ý£¬¼ÆËãÔÂºÍÄêÏúÊÛÁ¿¡£Í¨³££¬¾Û¼¯ÓÃÀ´Îª¶à¸ö³éÏó²ãµÄÊý¾Ý·ÖÎö¹¹ÔìÊý¾ÝÁ¢·½Ìå¡£

4. ¹æ·¶»¯

°ÑÊôÐÔÊý¾Ý°´±ÈÀýËõ·Å£¬Ê¹Ö®ÂäÈëÒ»¸öÌØ¶¨µÄÐ¡Çø¼ä£¬Èç£Û-1.0£¬1.0£Ý¡£

1) ×îÐ¡ª²×î´ó¹æ·¶»¯

×îÐ¡ª²×î´ó¹æ·¶»¯¶ÔÔ­Ê¼Êý¾Ý½øÐÐÏßÐÔ±ä»»¡£¼ÙÉè
minAºÍmaxA·Ö±ðÎªÊôÐÔAµÄ×îÐ¡ÖµºÍ×î´óÖµ¡£×îÐ¡ª²×î´ó¹æ·¶»¯µÄ¼ÆËãÊ½Îª


v¡äi=vi-minAmaxA-minA(new_maxA-new_minA)+new_minA(3ª²7)


°ÑÊôÐÔAµÄÖµviÓ³Éäµ½£Ûnew_minA£¬new_maxA£ÝÖÐµÄv¡äi¡£×îÐ¡ª²×î´ó¹æ·¶»¯±£³ÖÔ­Ê¼Êý¾ÝÖµÖ®¼äµÄÁªÏµ¡£Èç¹ûÊäÈëÊµÀýÂäÔÚÔ­Êý¾ÝÖµÓòÖ®Íâ£¬Ôò¸Ã·½·¨½«ÃæÁÙ¡°Ô½½ç¡±´íÎó¡£

2) z·ÖÊý¹æ·¶»¯

ÔÚz·ÖÊý(zª²score)¹æ·¶»¯(»òÁã¾ùÖµ¹æ·¶»¯)ÖÐ£¬ÊôÐÔAµÄÖµviÓ³ÉäÎªv¡äiµÄ¼ÆËãÊ½Îª


v¡äi=vi-¦ÒA(3ª²8)


ÆäÖÐ£¬ºÍ¦ÒA·Ö±ðÎªÊôÐÔAµÄ¾ùÖµºÍ±ê×¼²î¡£

3) Ð¡Êý¶¨±ê

Ð¡Êý¶¨±ê¹æ·¶»¯Í¨¹ýÒÆ¶¯ÊôÐÔAµÄÖµµÄÐ¡ÊýµãÎ»ÖÃ½øÐÐ¹æ·¶»¯¡£Ð¡ÊýµãµÄÒÆ¶¯Î»ÊýÒÀÀµÓÚAµÄ×î´ó¾ø¶ÔÖµ¡£
ÊôÐÔAµÄÖµviÓ³ÉäÎªv¡äiµÄ¼ÆËãÊ½Îª


v¡äi=vi10j(3ª²9)


ÆäÖÐ£¬jÎªÊ¹max(|v¡äi|)<1µÄ×îÐ¡ÕûÊý¡£

5. ÀëÉ¢»¯

ÊýÖµÊôÐÔ(ÈçÄêÁä)µÄÔ­Ê¼ÖµÓÃÇø¼ä±êÇ©(Èç0~10¡¢11~20µÈ)»ò¸ÅÄî±êÇ©(ÈçÇàÄê¡¢ÖÐÄê¡¢ÀÏÄê)Ìæ»»¡£ÕâÐ©±êÇ©¿ÉÒÔµÝ¹éµØ×éÖ¯³É¸ü¸ß²ã¸ÅÄî£¬ÐÎ³ÉÊýÖµÊôÐÔµÄ¸ÅÄî·Ö²ã£¬ÒÔÊÊÓ¦²»Í¬ÓÃ»§µÄÐèÒª¡£

1) Í¨¹ý·ÖÏäÀëÉ¢»¯

·ÖÏäÊÇÒ»ÖÖ»ùÓÚÖ¸¶¨µÄÏä¸öÊýµÄ×Ô¶¥ÏòÏÂµÄ·ÖÁÑ¼¼Êõ¡£ÀýÈç£¬Ê¹ÓÃµÈ¿í»òµÈÆµ·ÖÏä£¬È»ºóÓÃÏä¾ùÖµ»òÖÐÎ»ÊýÌæ»»ÏäÖÐµÄÃ¿¸öÖµ£¬¿ÉÒÔ½«ÊôÐÔÖµÀëÉ¢»¯¡£·ÖÏä¶ÔÓÃ»§Ö¸¶¨µÄÏä¸öÊýºÜÃô¸Ð£¬Ò²Ò×ÊÜÀëÈºµãµÄÓ°Ïì¡£

2) Í¨¹ýÖ±·½Í¼ÀëÉ¢»¯

Ö±·½Í¼°ÑÊôÐÔAµÄÖµ»®·ÖÎª²»Ïà½»µÄÇø¼ä£¬³ÆÎªÍ°»òÏä¡£¿ÉÒÔÊ¹ÓÃ¸÷ÖÖ»®·Ö¹æÔò¶¨ÒåÖ±·½Í¼¡£
ÀýÈç£¬ÔÚµÈ¿íÖ±·½Í¼ÖÐ£¬½«Öµ·Ö³ÉÏàµÈ·ÖÇø»òÇø¼ä¡£Ö±·½Í¼·ÖÎöËã·¨¿ÉÒÔµÝ¹éµØÓÃÓÚÃ¿¸ö·ÖÇø£¬×Ô¶¯µØ²úÉú¶à¼¶¸ÅÄî·Ö²ã£¬Ö±µ½´ïµ½Ò»¸öÔ¤ÏÈÉè¶¨µÄ¸ÅÄî²ãÊý£¬¹ý³ÌÖÕÖ¹¡£

3) Í¨¹ý¾ÛÀà¡¢¾ö²ßÊ÷ºÍÏà¹ØÐÔ·ÖÎöÀëÉ¢»¯


¾ÛÀà¡¢¾ö²ßÊ÷ºÍÏà¹ØÐÔ·ÖÎö¿ÉÒÔÓÃÓÚÊý¾ÝÀëÉ¢»¯¡£Í¨¹ý½«ÊôÐÔAµÄÖµ»®·ÖÎª´Ø»ò×é£¬¾ÛÀàËã·¨¿ÉÒÔÓÃÀ´ÀëÉ¢»¯ÊýÖµÊôÐÔA¡£¾ÛÀà¿¼ÂÇÊôÐÔAµÄ·Ö²¼ÒÔ¼°Êý¾ÝµãµÄÁÚ½üÐÔ£¬Òò´Ë¿ÉÒÔ²úÉú¸ßÖÊÁ¿µÄÀëÉ¢»¯½á¹û¡£×ñÑ­×Ô¶¥ÏòÏÂµÄ»®·Ö²ßÂÔ»ò×Ôµ×ÏòÉÏµÄºÏ²¢²ßÂÔ£¬¾ÛÀà¿ÉÒÔÓÃÀ´²úÉúÊôÐÔAµÄ¸ÅÄî·Ö²ã£¬ÆäÖÐÃ¿¸ö´ØÐÎ³É¸ÅÄî·Ö²ãµÄÒ»¸ö½Úµã¡£ÔÚÇ°Ò»ÖÖ²ßÂÔÖÐ£¬Ã¿¸ö³õÊ¼´Ø»ò·ÖÇø¿ÉÒÔ½øÒ»²½·Ö½â³ÉÈô¸É¸ö×Ó´Ø£¬ÐÎ³É½ÏµÍµÄ¸ÅÄî²ã£» ÔÚºóÒ»ÖÖ²ßÂÔÖÐ£¬Í¨¹ý·´¸´µØ¶ÔÁÚ½ü´Ø½øÐÐ·Ö×é£¬ÐÎ³É½Ï¸ßµÄ¸ÅÄî²ã¡£

6.  ÓÉ±ê³ÆÊý¾Ý²úÉú¸ÅÄî·Ö²ã

¶ÔÓÚ±ê³ÆÊý¾Ý£¬¸ÅÄî·Ö²ã¿ÉÒÔ»ùÓÚÄ£Ê½¶¨ÒåÒÔ¼°Ã¿¸öÊôÐÔµÄ²»Í¬Öµ¸öÊý²úÉú¡£Ê¹ÓÃ¸ÅÄî·Ö²ã±ä»»Êý¾Ý¿ÉÒÔ·¢ÏÖ½Ï¸ß²ãµÄÖªÊ¶Ä£Ê½£¬ËüÔÊÐíÔÚ¶à¸ö³éÏó²ã½øÐÐÍÚ¾ò¡£

3.6.2PythonÊý¾Ý±ä»»ÓëÀëÉ¢»¯
1. Êý¾ÝµÄ¹æ·¶»¯

Êý¾Ý·ÖÎöµÄÔ¤´¦Àí³ýÁËÊý¾ÝÇåÏ´¡¢Êý¾ÝºÏ²¢ºÍ±ê×¼»¯Ö®Íâ£¬»¹°üÀ¨Êý¾Ý±ä»»µÄ¹ý³Ì£¬ÈçÀà±ðÐÍÊý¾Ý±ä»»ºÍÁ¬ÐøÐÍÊý¾ÝµÄÀëÉ¢»¯¡£

¡¾Àý3ª²37¡¿Êý¾Ý¹æ·¶»¯Ê¾Àý¡£



In£Û47£Ý:import pandas as pd

import numpy as np

a=£Û47, 83, 81, 18, 72, 41£Ý

b=£Û56, 96, 84, 21, 87, 67£Ý

data=np.array(£Ûa, b£Ý).T






dfab = pd.DataFrame(data, columns=£Û'A', 'B'£Ý)

print('×îÐ¡-×î´ó¹æ·¶»¯:£Ün',(dfab- dfab.min())/(dfab.max()- dfab.min()))

print('Áã¾ùÖµ¹æ·¶»¯£º £Ün',(dfab- dfab.mean())/dfab.std())

Out£Û47£Ý£º ×îÐ¡-×î´ó¹æ·¶»¯:

AB

00.4461540.466667

11.0000001.000000

20.9692310.840000

30.0000000.000000

40.8307690.880000

50.3538460.613333

Áã¾ùÖµ¹æ·¶»¯£º 

AB

0-0.386103-0.456223

11.0038681.003690

20.9266480.565716

3-1.505803-1.733646

40.5791550.675209

5-0.617765-0.054747






2. Àà±ðÐÍÊý¾ÝµÄÑÆ±äÁ¿´¦Àí

Àà±ðÐÍÊý¾ÝÊÇÊý¾Ý·ÖÎöÖÐÊ®·Ö³£¼ûµÄÌØÕ÷±äÁ¿£¬µ«ÊÇÔÚ½øÐÐ½¨Ä£Ê±£¬Python²»ÄÜÏñRÓïÑÔÄÇÑùÖ±½Ó´¦Àí·ÇÊýÖµÐÍµÄ±äÁ¿£¬Òò´Ë£¬ÍùÍùÐèÒª¶ÔÕâÐ©Àà±ðÐÍ±äÁ¿½øÐÐÒ»ÏµÁÐ×ª»»£¬ÈçÑÆ±äÁ¿¡£

ÑÆ±äÁ¿(Dummy Variables)ÊÇÓÃÀ´·´Ó³ÖÊµÄÊôÐÔµÄÒ»¸öÈË¹¤±äÁ¿£¬ÊÇÁ¿»¯ÁËµÄ×Ô±äÁ¿£¬Í¨³£È¡ÖµÎª0»ò1¡£ÀûÓÃPandas¿âÖÐµÄget_dummies()º¯Êý¶ÔÀà±ðÐÍÊý¾Ý½øÐÐÑÆ±äÁ¿´¦Àí¡£

¡¾Àý3ª²38¡¿Êý¾ÝµÄÑÆ±äÁ¿´¦Àí¡£



In£Û48£Ý:df = pd.DataFrame(£Û

£Û'green', 'M', 10.1, 'class1'£Ý,

£Û'red', 'L', 13.5, 'class2'£Ý,

£Û'blue', 'XL', 14.3, 'class1'£Ý£Ý)

df.columns = £Û'color', 'size', 'prize','class label'£Ý

print(df)

pd.get_dummies(df)

Out£Û48£Ý£º colorsizeprizeclass label

0greenM10.1class1

1redL13.5class2

2blueXL15.3class1






Êä³ö½á¹ûÈçÍ¼3ª²14ËùÊ¾¡£



Í¼3ª²14ÑÆ±äÁ¿´¦Àí



¶ÔÓÚÒ»¸öÀà±ðÐÍÊý¾Ý£¬ÈôÈ¡ÖµÓÐm¸ö£¬Ôò¾­¹ýÑÆ±äÁ¿´¦Àíºó¾Í±ä³ÉÁËm¸ö¶þÔª»¥³âÌØÕ÷£¬Ã¿´ÎÖ»ÓÐÒ»¸ö¼¤»î£¬Ê¹Êý¾Ý±äµÃÏ¡Êè¡£


3.  Á¬ÐøÐÍ±äÁ¿µÄÀëÉ¢»¯

Êý¾Ý·ÖÎöºÍÍ³¼ÆµÄÔ¤´¦Àí½×¶Î£¬¾­³£»áÓöµ½ÄêÁä¡¢Ïû·ÑµÈÁ¬ÐøÐÍÊýÖµ£¬¶øºÜ¶àÄ£ÐÍËã·¨
£¨ÓÈÆäÊÇ·ÖÀàËã·¨£©¶¼ÒªÇóÊý¾ÝÊÇÀëÉ¢µÄ£¬Òò´ËÒª½«ÊýÖµ½øÐÐÀëÉ¢»¯·Ö¶ÎÍ³¼Æ£¬Ìá¸ßÊý¾ÝÇø·Ö¶È¡£

³£ÓÃµÄÀëÉ¢»¯·½·¨Ö÷ÒªÓÐµÈ¿í·¨¡¢µÈÆµ·¨ºÍ¾ÛÀà·ÖÎö·¨¡£

1) µÈ¿í·¨

½«Êý¾ÝµÄÖµÓò»®·Ö³É¾ßÓÐÏàÍ¬¿í¶ÈµÄÇø¼ä£¬Çø¼ä¸öÊýÓÉÊý¾Ý±¾ÉíµÄÌØµã¾ö¶¨»òÓÃ»§Ö¸¶¨¡£PandasÌá¹©ÁËcut()º¯Êý£¬¿ÉÒÔ½øÐÐÁ¬ÐøÐÍÊý¾ÝµÄµÈ¿íÀëÉ¢»¯¡£cut£¨£©º¯ÊýµÄ»ù´¡Óï·¨¸ñÊ½Îª



pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)






cut()º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷Èç±í3ª²4ËùÊ¾¡£


±í3ª²4cut()º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷




²ÎÊýËµÃ÷

x½ÓÊÕarray»òSeries£¬´ýÀëÉ¢»¯µÄÊý¾Ý
bins½ÓÊÕint¡¢list¡¢arrayºÍtuple¡£ÈôÎªint£¬Ö¸ÀëÉ¢»¯ºóµÄÀà±ðÊýÄ¿£» ÈôÎªÐòÁÐÐÍ£¬Ôò±íÊ¾½øÐÐÇÐ·ÖµÄÇø¼ä£¬Ã¿Á½¸öÊýµÄ¼ä¸ôÎªÒ»¸öÇø¼ä
right½ÓÊÕboolean£¬´ú±íÓÒ²àÊÇ·ñÎª±ÕÇø¼ä£¬Ä¬ÈÏÎªTrue
labels½ÓÊÕlist¡¢array£¬±íÊ¾ÀëÉ¢»¯ºó¸÷¸öÀà±ðµÄÃû³Æ£¬Ä¬ÈÏÎª¿Õ
retbins½ÓÊÕboolean£¬´ú±íÊÇ·ñ·µ»ØÇø¼ä±êÇ©£¬Ä¬ÈÏÎªFalse
precision½ÓÊÕint£¬ÏÔÊ¾±êÇ©µÄ¾«¶È£¬Ä¬ÈÏÎª3


¡¾Àý3ª²39¡¿cut()º¯ÊýµÄÓ¦ÓÃ¡£



In£Û49£Ý:np.random.seed(666)

score_list = np.random.randint(25, 100, size = 10)

print('Ô­Ê¼Êý¾Ý£º £Ün',score_list)

bins = £Û0, 59, 70, 80, 100£Ý

score_cut = pd.cut(score_list, bins)

print(pd.value_counts(score_cut)) 

Out£Û49£Ý£º Ô­Ê¼Êý¾Ý£º 

£Û27 70 55 87 95 98 55 61 86 76£Ý






(80, 100£Ý4

(0, 59£Ý3

(59, 70£Ý2

(70, 80£Ý1

dtype: int64






Ê¹ÓÃµÈ¿í·¨ÀëÉ¢»¯¶ÔÊý¾Ý·Ö²¼¾ßÓÐ½Ï¸ßµÄÒªÇó£¬ÈôÊý¾Ý·Ö²¼²»¾ùÔÈ£¬ÄÇÃ´¸÷ÀàµÄÊýÄ¿Ò²»á±äµÃ²»¾ùÔÈ¡£

2) µÈÆµ·¨

cut()º¯ÊýËäÈ»²»ÄÜÖ±½ÓÊµÏÖµÈÆµÀëÉ¢»¯£¬µ«¿ÉÒÔÍ¨¹ý¶¨Òå½«ÏàÍ¬ÊýÁ¿µÄ¼ÇÂ¼·Å½øÃ¿¸öÇø¼ä¡£

¡¾Àý3ª²40¡¿µÈÆµ·¨ÀëÉ¢»¯Á¬ÐøÐÍÊý¾Ý¡£



In£Û50£Ý:def SameRateCut(data,k):

k = 2

w = data.quantile(np.arange(0,1+1.0/k,1.0/k))

data = pd.cut(data,w)

return data

result = SameRateCut(pd.Series(score_list),3)

result.value_counts()

Out£Û50£Ý:(73.0, 97.0£Ý5

(27.0, 73.0£Ý4

dtype: int64






Ïà±ÈÓÚµÈ¿í·¨£¬µÈÆµ·¨±ÜÃâÁËÀà·Ö²¼²»¾ùÔÈµÄÎÊÌâ£¬µ«Í¬Ê±Ò²ÓÐ¿ÉÄÜ½«ÊýÖµ·Ç³£½Ó½üµÄÁ½¸öÖµ·Öµ½²»Í¬µÄÇø¼äÒÔÂú×ãÃ¿¸öÇø¼ä¶ÔÊý¾Ý¸öÊýµÄÒªÇó¡£

3) ¾ÛÀà·ÖÎö·¨

Ò»Î¬¾ÛÀàµÄ·½·¨°üÀ¨Á½²½£¬Ê×ÏÈ½«Á¬ÐøÐÍÊý¾ÝÓÃ¾ÛÀàËã·¨(ÈçKª²MeansËã·¨µÈ)½øÐÐ¾ÛÀà£¬È»ºó´¦Àí¾ÛÀàµÃµ½µÄ´Ø£¬ÎªºÏ²¢µ½Ò»¸ö´ØµÄÁ¬ÐøÐÍÊý¾Ý×öÍ¬Ò»±ê¼Ç¡£¾ÛÀà·ÖÎöµÄÀëÉ¢»¯ÐèÒªÓÃ»§Ö¸¶¨´ØµÄ¸öÊý£¬ÓÃÀ´¾ö¶¨²úÉúµÄÇø¼äÊý¡£

3.7ÀûÓÃsklearn½øÐÐÊý¾ÝÔ¤´¦Àí

sklearn.preprocessing°üÌá¹©ÁËÒ»Ð©³£ÓÃµÄÊý¾ÝÔ¤´¦ÀíÊµÓÃº¯ÊýºÍ×ª»»Æ÷Àà£¬ÒÔ½«Ô­Ê¼ÌØÕ÷ÏòÁ¿×ª»»Îª¸üÊÊºÏÊý¾ÝÍÚ¾òµÄ±íÊ¾¡£

sklearnÌá¹©µÄÊý¾ÝÔ¤´¦Àí¹¦ÄÜÈçÍ¼3ª²15ËùÊ¾¡£



Í¼3ª²15sklearnÌá¹©µÄÊý¾ÝÔ¤´¦Àí¹¦ÄÜ


1. Êý¾Ý±ê×¼»¯¡¢¾ùÖµºÍ·½²îËõ·Å

scale()º¯ÊýÌá¹©Ò»ÖÖÔÚµ¥¸öÀàËÆÊý×éµÄÊý¾Ý¼¯ÉÏÖ´ÐÐ´Ë²Ù×÷µÄ¿ìËÙ¼ò±ã·½·¨£¬ÆäÓï·¨¸ñÊ½Îª



sklearn.preprocessing.scale(X, axis=0, with_mean=True, with_std=True, copy=True)






ÆäÖ÷Òª²ÎÊý¼°ÆäËµÃ÷Èç±í3ª²5ËùÊ¾¡£


±í3ª²5sklearn.preprocessing.scale£¨£©º¯ÊýµÄÖ÷Òª²ÎÊý¼°ÆäËµÃ÷




²ÎÊýÊý ¾Ý Àà ÐÍËµÃ÷

X{arrayª²like, sparse matrix}ÒÔ´ËÊý¾ÝÎªÖÐÐÄËõ·Å
axisint (Ä¬ÈÏÎª0)ÖáÏòÉèÖÃ£¬0±íÊ¾¶ÀÁ¢µØ±ê×¼»¯Ã¿¸öÌØÕ÷£¬1±íÊ¾±ê×¼»¯Ã¿¸öÑù±¾(¼´ÐÐ)
with_meanboolean£¨Ä¬ÈÏÎªTrue£©Èç¹ûÎªTrue£¬Ëõ·ÅÖ®Ç°ÏÈÖÐÐÄ»¯Êý¾Ý
with_stdboolean£¨Ä¬ÈÏÎªTrue£©Èç¹ûÎªTrue£¬ÒÔµ¥Î»·½²î·¨Ëõ·ÅÊý¾Ý(»òÕßµÈ¼ÛµØ£¬µ¥Î»±ê×¼²î)
copyboolean, optional, £¨Ä¬ÈÏÎªTrue£©Èç¹ûÎªFalse£¬Ô­µØÖ´ÐÐ±ê×¼»¯²¢±ÜÃâ¸´ÖÆ


¡¾Àý3ª²41¡¿Êý¾ÝµÄ±ê×¼»¯¡¢¾ùÖµºÍ±ê×¼²îÇó½âÊ¾Àý¡£



In£Û51£Ý:from sklearn import preprocessing

import numpy as np

X_train = np.array(£Û£Û 1., -2.,1.5£Ý,£Û 2.2,1.3, 0.5£Ý,£Û 0.3,1., -1.5£Ý£Ý)

X_scaled = preprocessing.scale(X_train)

print('X_train:£Ün',X_train)






print('X_scaled:£Ün',X_scaled)

print('¾ùÖµ£º ',X_scaled.mean(axis=0))

print('±ê×¼²î£º ',X_scaled.std(axis=0))

Out£Û51£Ý£º X_train:

£Û£Û 1.-2.1.5£Ý

£Û 2.21.30.5£Ý

£Û 0.31.-1.5£Ý£Ý

X_scaled:

£Û£Û-0.21242964 -1.409427721.06904497£Ý

£Û1.317063790.805387270.26726124£Ý

£Û-1.104634150.60404045-1.33630621£Ý£Ý

¾ùÖµ£º  £Û0. 0. 0.£Ý

±ê×¼²î£º  £Û1. 1. 1.£Ý






preprocessingÄ£¿é»¹Ìá¹©ÁËÒ»¸öÊµÓÃ³ÌÐòÀàStandardScaler£¬ÓÃÀ´ÊµÏÖTransformerAPI¼ÆËãÑµÁ·¼¯µÄ¾ùÖµºÍ±ê×¼²î£¬ÒÔ±ãÒÔºóÄÜ¹»ÔÚ²âÊÔ¼¯ÉÏÖØÐÂÓ¦ÓÃÏàÍ¬µÄ×ª»»¡£sklearnµÄ×ª»»Æ÷Í¨³£Óë·ÖÀàÆ÷¡¢»Ø¹éÆ÷»ò
ÆäËûÆÀ¹ÀÆ÷×éºÏÒÔ¹¹½¨¸´ºÏÆÀ¹ÀÆ÷¡£


¡¾Àý3ª²42¡¿Êý¾ÝµÄ±ê×¼»¯¼ÆËãÊ¾Àý¡£



In£Û52£Ý:scaler = preprocessing.StandardScaler().fit(X_train)

print('scaler.scale_ :',scaler.scale_)

print('scaler.mean_ :',scaler.mean_)

scaler.transform(X_train)

Out£Û52£Ý:scaler.scale_ : £Û0.78457349 1.48996644 1.24721913£Ý

scaler.mean_ : £Û1.16666667 0.10.16666667£Ý

array(£Û£Û 1. , -2. ,1.5£Ý,

£Û 2.2,1.3,0.5£Ý,

£Û 0.3,1. , -1.5£Ý£Ý)






È»ºóÔÚÐÂÊý¾ÝÉÏÊ¹ÓÃScalerÊµÀý£¬ÏñÔÚÑµÁ·¼¯ÉÏÄÇÑù×ª»»Ëü¡£



In£Û53£Ý£ºX_test = £Û£Û-1., 1., 0.£Ý£Ý

scaler.transform(X_test)

Out£Û53£Ý£ºarray(£Û£Û-2.76158538,0.60404045, -0.13363062£Ý£Ý)






Í¨¹ý½«with_mean=False»òwith_std=False´«µÝ¸øStandardScalerµÄ¹¹Ôìº¯Êý£¬¿ÉÒÔ½ûÓÃÖÃÖÐ»òËõ·Å¡£

2. ÌØÕ÷Ëõ·Å

ÁíÒ»ÖÖ±ê×¼»¯ÊÇÌØÕ÷Ëõ·Å£¬Ê¹Æä½éÓÚ¸ø¶¨µÄ×îÐ¡ÖµºÍ×î´óÖµÖ®¼ä£¬Í¨³£½éÓÚ0ºÍ1Ö®¼ä£¬»òÕßÊ¹Ã¿¸öÌØÕ÷µÄ×î´ó¾ø¶ÔÖµ±»Ëõ·Åµ½µ¥Î»´óÐ¡¡£

1) Ò»°ãÌØÕ÷ÖµËõ·Å

¿ÉÒÔÍ¨¹ýMinMaxScaler»òMaxAbsScaler½øÐÐÒ»°ãÌØÕ÷ÖµËõ·Å£¬¾ßÌåÓï¾ä¸ñÊ½Îª



sklearn.preprocessing.minmax_scale(X, feature_range=(0, 1), axis=0, copy=True)






¡¾Àý3ª²43¡¿Êý¾ÝµÄËõ·ÅÊ¾Àý¡£



In£Û54£Ý:X_train = np.array(£Û£Û 1., -1.,2.£Ý,£Û 2.,0.,0.£Ý,£Û 0.,1., -1.£Ý£Ý)

min_max_scaler = preprocessing.MinMaxScaler()

X_train_minmax = min_max_scaler.fit_transform(X_train)

print('Ô­Êý¾Ý£º £Ün',X_train)

print('¹éÒ»»¯£º £Ün',X_train_minmax)

Out£Û54£Ý£º Ô­Êý¾Ý£º 

£Û£Û 1. -1.2.£Ý

£Û 2.0.0.£Ý

£Û 0.1. -1.£Ý£Ý

¹éÒ»»¯£º 

£Û£Û0.50.1.£Ý

£Û1.0.50.33333333£Ý

£Û0.1.0.£Ý£Ý






È»ºó¿ÉÒÔÔÚÐÂÊý¾ÝÉÏÊ¹ÓÃScalerÊµÀý£¬ÏñÔÚÑµÁ·¼¯ÉÏÄÇÑù×ª»»Ëü¡£



In£Û55£Ý:X_test = np.array(£Û£Û-3., -1.,4.£Ý£Ý)

X_test_minmax = min_max_scaler.transform(X_test)

print('²âÊÔÊý¾Ý£º ',X_test)

print('¹éÒ»»¯µÄ²âÊÔÊý¾Ý£º £Ün',X_test_minmax)

print('',min_max_scaler.scale_)

print('',min_max_scaler.min_)

Out£Û55£Ý£º ²âÊÔÊý¾Ý£º  £Û£Û-3. -1.4.£Ý£Ý

¹éÒ»»¯µÄ²âÊÔÊý¾Ý£º 

£Û£Û-1.50.1.66666667£Ý£Ý

£Û0.50.50.33333333£Ý

£Û0.0.50.33333333£Ý






MinMaxScalerÄ¬ÈÏ×ª»»Îª£Û0.0, 1.0£Ý£¬Èç¹ûMinMaxScaler¸ø³öÒ»¸öÏÔÊ½·¶Î§feature_range=(min, max)£¬ÔòÍêÕûµÄ±í´ïÊ½Îª



X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std*(max-min)+min






MaxAbsScalerµÄ¹¤×÷·½Ê½ÀàËÆ£¬µ«Í¨¹ý³ýÒÔÃ¿¸öÌØÕ÷ÖÐµÄ×î´óÖµ½«ÑµÁ·Êý¾ÝÖÃÓÚ£Û-1£¬1£Ý¡£ËüÊÊÓÃÓÚÒÑ¾­ÁãÖÐÐÄ»¯µÄÊý¾Ý»òÏ¡ÊèÊý¾Ý¡£

¡¾Àý3ª²44¡¿ÀûÓÃMaxAbsScaler½«Êý¾Ý¹éÒ»»¯¡£



In£Û56£Ý:X_train = np.array(£Û£Û 1., -1.,2.£Ý,£Û 2.,0.,0.£Ý,£Û 0.,1., -1.£Ý£Ý)

max_Abs_scaler = preprocessing.MaxAbsScaler()

X_train_minmax = max_Abs_scaler.fit_transform(X_train)

print('Ô­Êý¾Ý£º £Ün',X_train)

print('¹éÒ»»¯£º £Ün',X_train_minmax)

Out£Û56£Ý£º Ô­Êý¾Ý£º 

£Û£Û 1.-1.2.£Ý






£Û 2.0.0.£Ý

£Û 0.1.-1.£Ý£Ý

¹éÒ»»¯£º 

£Û£Û 0.5-1.1. £Ý

£Û 1.0.0. £Ý

£Û 0.1.-0.5£Ý£Ý






È»ºó¿ÉÒÔÔÚÐÂÊý¾ÝÉÏÊ¹ÓÃScalerÊµÀý£¬ÏñÔÚÑµÁ·¼¯ÉÏÄÇÑù×ª»»Ëü¡£



In£Û57£Ý:X_test = np.array(£Û£Û-3., -1.,4.£Ý£Ý)

X_test_maxAbs = max_Abs_scaler.transform(X_test)

print('²âÊÔÊý¾Ý£º ',X_test)

print('¹éÒ»»¯µÄ²âÊÔÊý¾Ý£º ',X_test_maxAbs)

Out£Û57£Ý£º ²âÊÔÊý¾Ý£º  £Û£Û-3. -1.4.£Ý£Ý

¹éÒ»»¯µÄ²âÊÔÊý¾Ý£º  £Û£Û-1.5 -1.2. £Ý£Ý






2) Ëõ·ÅÏ¡ÊèÊý¾Ý

½«Ï¡ÊèÊý¾ÝÖÃÖÐ»áÆÆ»µÊý¾ÝµÄÏ¡Êè½á¹¹£¬µ«ÊÇËõ·ÅÏ¡Êè¾ØÕóÓÖÊÇÓÐÒâÒåµÄ£¬ÌØ±ðÊÇµ±ÌØÕ÷´¦ÓÚ²»Í¬µÄËõ·Å±ÈÀý
Ê±¡£

MaxAbsScalerºÍmaxabs_scaleÊÊÓÃÓÚËõ·ÅÏ¡ÊèÊý¾Ý¡£´ËÍâ£¬scaleºÍStandardScalerÄÜ¹»´¦Àíscipy.sparse¾ØÕó×÷ÎªÊäÈëµÄÇé¿ö£¬´ËÊ±ÐèÒª½«with_meanÉèÖÃÎªFalse£¬·ñÔòÄ¬ÈÏµÄÖÃÖÐ²Ù×÷½«ÆÆ»µÊý¾ÝµÄÏ¡ÊèÐÍ£¬»áÅ×³öÒ»¸öValueError´íÎó£¬¶øÇÒÄÚ´æ¿ÉÄÜ»á±»´óÁ¿Õ¼ÓÃÔì³ÉÄÚ´æÒç³ö¡£

ÐèÒª×¢ÒâµÄÊÇ£¬Ëõ·ÅÆ÷½ÓÊÜÑ¹ËõµÄÏ¡ÊèÐÐºÍÑ¹ËõµÄÏ¡ÊèÁÐ¸ñÊ½(²Î¼ûscipy.sparse.csr_matrixºÍscipy.sparse.csc_matrix)¡£ÈÎºÎÆäËûÏ¡ÊèÊäÈë¶¼½«×ª»»Îª¡°Ñ¹ËõÏ¡ÊèÐÐ¡±±íÊ¾ÐÎÊ½¡£Îª±ÜÃâ²»±ØÒªµÄÄÚ´æ¸´ÖÆ£¬½¨ÒéÑ¡ÔñÉÏÓÎµÄCSR
£¨Compressed Sparse Row£©»òCSC£¨Compressed Sparse Column£©±íÊ¾ÐÎÊ½¡£×îºó£¬Èç¹ûÆÚÍûÖÃÖÐµÄÊý¾Ý×ã¹»Ð¡£¬ÔòÊ¹ÓÃÏ¡Êè¾ØÕóµÄtoarray()º¯Êý½«ÊäÈëÏÔÊ½×ª»»ÎªÊý×é¡£

3) ´øÒì³£ÖµµÄËõ·ÅÊý¾Ý

Èç¹ûÊý¾ÝÖÐ°üº¬Ðí¶àÒì³£Öµ£¬ÄÇÃ´Ê¹ÓÃÊý¾ÝµÄ¾ùÖµºÍ·½²î½øÐÐËõ·Å¿ÉÄÜ
Ð§¹û²»»áºÜºÃ¡£ÔÚÕâÖÖÇé¿öÏÂ£¬¿ÉÒÔÊ¹ÓÃrobust_scaleºÍRobustScaler×÷ÎªÌæ´ú£¬ËüÃÇ¶ÔÊý¾ÝµÄÖÐÐÄºÍ·¶Î§Ê¹ÓÃÁË¸ü¿É¿¿µÄ¹À¼Æ¡£

3. ·ÇÏßÐÔ±ä»»

·ÇÏßÐÔ±ä»»ÓÐ·ÖÎ»Êý±ä»»ºÍÃÝ±ä»»¡£·ÖÎ»Êý±ä»»ºÍÃÝ±ä»»¶¼ÊÇ»ùÓÚÌØÕ÷µÄµ¥µ÷±ä»»£¬´Ó¶ø±£³ÖÃ¿¸öÌØÕ÷ÖµµÄÖÈ¡£·ÖÎ»Êý±ä»»½«ËùÓÐÌØÕ÷ÖÃÓÚÏàÍ¬µÄÆÚÍû·Ö²¼ÖÐ¡£ÃÝ±ä»»ÊÇÒ»Àà²ÎÊý±ä»»£¬ÆäÄ¿µÄÊÇ½«Êý¾Ý´ÓÈÎÒâ·Ö²¼Ó³Éäµ½½Ó½ü¸ßË¹·Ö²¼µÄÎ»ÖÃ¡£

1) Ó³Éäµ½¾ùÔÈ·Ö²¼


QuantileTransformer()º¯ÊýºÍquantile_transformÌá¹©·Ç²ÎÊý×ª»»£¬½«Êý¾ÝÓ³Éäµ½ÖµÎª0~1µÄ¾ùÔÈ·Ö²¼¡£

¡¾Àý3ª²45¡¿½«Êý¾ÝÓ³Éäµ½Öµ
Îª0~1µÄ¾ùÔÈ·Ö²¼¡£



In£Û58£Ý:from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

quantile_transformer = preprocessing.QuantileTransformer(random_state=0)

X_train_trans = quantile_transformer.fit_transform(X_train)

X_test_trans = quantile_transformer.transform(X_test)

print(np.percentile(X_train£Û:, 0£Ý, £Û0, 25, 50, 75, 100£Ý) )

# ´ËÌØÕ÷¶ÔÓ¦ÓÚÒÔÀåÃ×Îªµ¥Î»µÄÝàÆ¬³¤¶È

print(np.percentile(X_train_trans£Û:, 0£Ý, £Û0, 25, 50, 75, 100£Ý))

Out£Û58£Ý£º £Û4.3 5.1 5.8 6.5 7.9£Ý

£Û0.0.23873874 0.50900901 0.74324324 1.£Ý






2) Ó³Éäµ½¸ßË¹·Ö²¼

ÔÚÐí¶à½¨Ä£³¡¾°ÖÐ£¬Êý¾Ý¼¯ÖÐµÄÌØÐÔÊÇÕý³£µÄ¡£ÃÝ±ä»»ÊÇÒ»Àà²ÎÊýµÄµ¥µ÷±ä»»£¬ÆäÄ¿µÄÊÇ½«Êý¾Ý´ÓÈÎÒâ·Ö²¼Ó³Éäµ½¾¡¿ÉÄÜ½Ó½ü¸ßË¹·Ö²¼£¬ÒÔÎÈ¶¨·½²îºÍ×îÐ¡»¯Æ«¶È¡£PowerTransformerÄ¿Ç°Ìá¹©ÁËÁ½ÖÖÕâÑùµÄÃÝ±ä»»£º Yeoª²Johnson±ä»»ºÍBoxª²Cox±ä»»¡£


Boxª²Cox±ä»»½ö¿ÉÓ¦ÓÃÓÚÑÏ¸ñµÄÕýÊý¾Ý¡£ÔÚÕâÁ½ÖÖ·½·¨ÖÐ£¬±ä»»¾ùÍ¨¹ýLambda½øÐÐ²ÎÊý»¯£¬Í¨¹ý×î´óËÆÈ»¹À¼ÆÀ´È·¶¨¡£

¡¾Àý3ª²46¡¿Ê¹ÓÃBoxª²Cox±ä»»½«¶ÔÊýÕýÌ¬·Ö²¼»æÖÆµÄÑù±¾Ó³Éäµ½ÕýÌ¬·Ö²¼¡£



In£Û59£Ý:pt = preprocessing.PowerTransformer(method='box-cox', standardize=False)

X_lognormal = np.random.RandomState(616).lognormal(size=(3, 3))

print(X_lognormal)

T=pt.fit_transform(X_lognormal)

print(T)

Out£Û59£Ý£º £Û£Û1.283317181.180922280.84160269£Ý

£Û0.942932791.609608360.3879099 £Ý

£Û1.352356680.217156731.09977091£Ý£Ý

£Û£Û0.490243490.17881995-0.1563781 £Ý

£Û-0.051028920.58863195-0.57612414£Ý

£Û0.69420009-0.848578220.10051454£Ý£Ý






ÉÏÊöÊ¾ÀýÖÐ£¬ÉèÖÃstandardize=False£¬PowerTransformerÄ¬ÈÏÇé¿öÏÂ½«¶Ô±ä»»ºóµÄÊä³öÓ¦ÓÃÁã¾ùÖµ¡¢µ¥Î»·½²î¹éÒ»»¯¡£»¹¿ÉÒÔÊ¹ÓÃQuantileTransformer()º¯ÊýÍ¨¹ýÉèÖÃoutput_distribution='normal'½«Êý¾ÝÓ³Éäµ½ÕýÌ¬·Ö²¼¡£

¡¾Àý3ª²47¡¿Ê¹ÓÃQuantileTransformer()º¯Êý½øÐÐÊý¾ÝÓ³Éä¡£


In£Û60£Ý:from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

quantile_transformer = 

preprocessing.QuantileTransformer(output_distribution='normal', 

random_state=0)






X_trans = quantile_transformer.fit_transform(X)

quantile_transformer.quantiles_

Out£Û60£Ý£º array(£Û£Û4.3, 2. , 1. , 0.1£Ý,

£Û4.4, 2.2, 1.1, 0.1£Ý,

£Û4.4, 2.2, 1.2, 0.1£Ý,

£Û4.4, 2.2, 1.2, 0.1£Ý,

£Û4.5, 2.3, 1.3, 0.1£Ý,

£Û4.6, 2.3, 1.3, 0.2£Ý,¡­£Ý






4. ÕýÔò»¯

ÕýÔò»¯µÄ¹ý³ÌÊÇ½«µ¥¸öÑù±¾Ëõ·Åµ½µ¥Î»·¶Êý£¨Ã¿¸öÑù±¾µÄ·¶ÊýÎª1£©¡£Èç¹û¼Æ»®Ê¹ÓÃµã»ý»òÈÎºÎÆäËûºËµÄ¶þ´ÎÐÎÊ½Á¿»¯ÈÎÒâÒ»¶ÔÑù±¾µÄÏàËÆÐÔ£¬´Ë¹ý³Ì¿ÉÄÜ»áºÜÓÐÓÃ¡£¸Ã¼ÙÉèÊÇÏòÁ¿¿Õ¼äÄ£ÐÍµÄ»ù´¡£¬¸ÃÏòÁ¿¿Õ¼äÄ£ÐÍ¾­³£ÓÃÓÚÎÄ±¾·ÖÀàºÍ¾ÛÀà¡£

¡¾Àý3ª²48¡¿Êý¾ÝÕýÔò»¯Ê¾Àý¡£



In£Û61£Ý:X = £Û£Û 1., -1.,2.£Ý,£Û 2.,0.,0.£Ý,£Û 0.,1., -1.£Ý£Ý

X_normalized = preprocessing.normalize(X, norm='l2')

X_normalized

Out£Û61£Ý£º array(£Û£Û 0.40824829, -0.40824829,0.81649658£Ý,

£Û 1.,0.,0.£Ý,

£Û 0.,0.70710678, -0.70710678£Ý£Ý)






preprocessingÄ£¿é»¹Ìá¹©ÁËÒ»¸öÊµÓÃ³ÌÐòÀàNormalizer£¬¸ÃÀàÊ¹ÓÃTransformer APIÊµÏÖÏàÍ¬µÄ²Ù×÷¡£

5.  ±àÂë·ÖÀàÌØÕ÷

Í¨³££¬ÌØÕ÷²»ÊÇ×÷ÎªÁ¬ÐøµÄÖµ£¬¶øÊÇÒÔ¾ø¶ÔµÄÐÎÊ½¸ø³öµÄ¡£ÀýÈç£¬Ò»¸öÈËµÄÍ··¢ÑÕÉ«¿ÉÒÔÊÇ£Û"black", "gray","white"£Ý£¬ÕâÐ©ÌØÐÔ¿ÉÒÔÓÐÐ§µØ±àÂëÎªÕûÊý£¬ÈçÈ¡Öµ·Ö±ðÎª£Û0, 1, 2£Ý¡£ÈôÒª½«·ÖÀà¹¦ÄÜ×ª»»Îª´ËÀàÕûÊý´úÂë£¬¿ÉÒÔÊ¹ÓÃ
OrdinalEncoder¡£¸Ã¹À¼ÆÆ÷½«Ã¿¸ö·¶³ëÌØÕ÷×ª»»ÎªÕûÊýµÄÒ»¸öÐÂÌØÕ÷¡£

¡¾Àý3ª²49¡¿Êý¾Ý±àÂëÊ¾Àý¡£



In£Û62£Ý£º enc = preprocessing.OrdinalEncoder()

X = £Û£Û'male', 'from US', 'uses Safari'£Ý, £Û'female', 'from Europe', 'uses Firefox'£Ý£Ý

enc.fit(X)

enc.transform(£Û£Û'female', 'from US', 'uses Safari'£Ý£Ý)

Out£Û62£Ý£º array(£Û£Û0., 1., 1.£Ý£Ý)






½«·ÖÀàÌØÕ÷×ª»»Îª¿ÉÒÔÓësklearn¹À¼ÆÆ÷Ò»ÆðÊ¹ÓÃµÄÌØÕ÷µÄ
±àÂë·½·¨³ÆÎªOneª²Hot±àÂë»òDummy±àÂë¡£¿ÉÒÔÊ¹ÓÃOneHotEncoder()º¯Êý»ñµÃÕâÖÖÀàÐÍµÄ±àÂë£¬¸Ã±àÂëÆ÷½«¾ßÓÐn_categories¸ö¿ÉÄÜÖµµÄÃ¿¸ö·ÖÀàÌØÕ÷×ª»»Îªn_categories¸ö¶þ½øÖÆÌØÕ÷£¬ÆäÖÐÒ»¸öÎª1£¬ÆäËûÎª0¡£

¡¾Àý3ª²50¡¿Ê¹ÓÃOneHotEncoder£¨£©º¯Êý½øÐÐ·ÖÀàÌØÕ÷±àÂëÊ¾Àý¡£



In£Û63£Ý£º enc = preprocessing.OneHotEncoder()

X = £Û£Û'male', 'from US', 'uses Safari'£Ý, £Û'female', 'from Europe', 'uses Firefox'£Ý£Ý

enc.fit(X)

R=enc.transform(£Û£Û'female', 'from US', 'uses Safari'£Ý,£Û'male', 'from Europe',

'uses Safari'£Ý£Ý).toarray()

display(R)

Out£Û63£Ý£º array(£Û£Û1., 0., 0., 1., 0., 1.£Ý,

£Û0., 1., 1., 0., 0., 1.£Ý£Ý)






¡¾Àý3ª²51¡¿ÀàÐÍÊý¾Ý±ä»»Ê¾Àý¡£Êý¾Ý¼¯ÖÐÓÐÁ½ÖÖÐÔ±ð
¡¢4¸ö¿ÉÄÜµÄ´óÖÞºÍ4¸öÍøÂçä¯ÀÀÆ÷¡£



In£Û64£Ý£º genders = £Û'female', 'male'£Ý

locations = £Û'from Africa', 'from Asia', 'from Europe', 'from US'£Ý

browsers = £Û'uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari'£Ý

enc = preprocessing.OneHotEncoder(categories=£Ûgenders, locations, browsers£Ý)

X = £Û£Û'male', 'from US', 'uses Safari'£Ý, £Û'female', 'from Europe', 'uses Firefox'£Ý£Ý

enc.fit(X)

enc.transform(£Û£Û'female', 'from Asia', 'uses Chrome'£Ý£Ý).toarray()

Out£Û64£Ý£º array(£Û£Û1., 0., 0., 1., 0., 0., 1., 0., 0., 0.£Ý£Ý)






6. ÀëÉ¢»¯

ÀëÉ¢»¯(Ò²³ÆÎªÁ¿»¯»ò°ó¶¨)Ìá¹©ÁËÒ»ÖÖ½«Á¬ÐøÌØÕ÷»®·ÖÎªÀëÉ¢ÖµµÄ·½·¨¡£Ä³Ð©¾ßÓÐÁ¬ÐøÌØÕ÷µÄÊý¾Ý¼¯¿ÉÄÜÊÜÒæÓÚÀëÉ¢»¯£¬ÒòÎªÀëÉ¢»¯¿ÉÒÔ½«Á¬ÐøÊôÐÔµÄÊý¾Ý¼¯×ª»»Îª½ö¾ßÓÐÃûÒåÊôÐÔµÄÊý¾Ý¼¯¡£

Oneª²Hot±àÂëµÄÀëÉ¢ÌØÕ÷¿ÉÒÔÊ¹Ä£ÐÍ¸üÓÐ±íÏÖÁ¦£¬Í¬Ê±±£³Ö¿É½âÊÍÐÔ¡£ÀýÈç£¬ÓÃÀëÉ¢»¯Æ÷½øÐÐÔ¤´¦Àí¿ÉÒÔ½«·ÇÏßÐÔÒýÈëÏßÐÔÄ£ÐÍ
¡£

1) KÍ°ÀëÉ¢»¯

KBinsDiscretizer½«ÌØÕ÷ÀëÉ¢µ½K¸öÍ°£¨Bin£©ÖÐ¡£

¡¾Àý3ª²52¡¿Êý¾ÝµÄKÍ°ÀëÉ¢»¯Ê¾Àý¡£



In£Û65£Ý:X = np.array(£Û£Û -3., 5., 15 £Ý,£Û0., 6., 14 £Ý,£Û6., 3., 11 £Ý£Ý)

est = preprocessing.KBinsDiscretizer(n_bins=£Û3, 2, 2£Ý,

encode='ordinal').fit(X)

est.transform(X)

Out£Û65£Ý£º array(£Û£Û0., 1., 1.£Ý,

£Û1., 1., 1.£Ý,

£Û2., 0., 0.£Ý£Ý)






2) ÌØÕ÷¶þÖµ»¯

ÌØÕ÷¶þÖµ»¯ÊÇ¶ÔÊý×ÖÌØÕ÷½øÐÐãÐÖµ»¯ÒÔ»ñµÃ²¼¶ûÖµµÄ¹ý³Ì¡£

¡¾Àý3ª²53¡¿ÌØÕ÷¶þÖµ»¯Ê¾Àý¡£



In£Û66£Ý:X = £Û£Û 1., -1.,2.£Ý,£Û 2.,0.,0.£Ý,£Û 0.,1., -1.£Ý£Ý

binarizer = preprocessing.Binarizer().fit(X)

Y1=binarizer.transform(X)

print(Y1)

# ¿ÉÒÔµ÷ÕûãÐÖµ

binarizer = preprocessing.Binarizer(threshold=1.1)

Y2=binarizer.transform(X)

print(Y2)

Out£Û66£Ý£º £Û£Û1. 0. 1.£Ý

£Û1. 0. 0.£Ý

£Û0. 1. 0.£Ý£Ý

£Û£Û0. 0. 1.£Ý

£Û1. 0. 0.£Ý

£Û0. 0. 0.£Ý£Ý






3.8Ð¡½á

(1) ÏÖÊµÖÐ»ñµÃµÄÊý¾Ý¼«Ò×ÊÜµ½ÔëÉù¡¢È±Ê§ÖµºÍ²»Ò»ÖÂÊý¾ÝµÄÓ°Ïì¡£Êý¾ÝµÄÖÊÁ¿¾ö¶¨ÁËÊý¾ÝÍÚ¾òµÄÐ§¹û£¬Òò´ËÔÚÊý¾ÝÍÚ¾òÖ®Ç°Òª¶ÔÊý¾Ý½øÐÐÔ¤´¦Àí£¬Ìá¸ßÊý¾ÝÖÊÁ¿£¬´Ó¶ø¸ÄÉÆÊý¾ÝÍÚ¾òµÄÐ§¹û¡£Êý¾ÝÖÊÁ¿¿ÉÓÃ×¼È·ÐÔ¡¢ÍêÕûÐÔ¡¢Ò»ÖÂÐÔ¡¢Ê±Ð§ÐÔ¡¢¿ÉÐÅÐÔºÍ¿É½âÊÍÐÔ¶¨Òå¡£

(2) Êý¾ÝÇåÏ´ÓÃÓÚÌî²¹È±Ê§Öµ¡¢¹â»¬ÔëÉù£¬Í¬Ê±Ê¶±ðÀëÈºµã£¬²¢¾ÀÕýÊý¾ÝµÄ²»Ò»ÖÂÐÔ¡£Êý¾ÝÇåÏ´Í¨³£ÊÇÒ»¸öÁ½²½µÄµü´ú¹ý³Ì£¬¼´Æ«²î¼ì²âºÍÊý¾Ý±ä»»¡£

(3) Êý¾Ý¼¯³É½«À´×Ô¶à¸öÊý¾ÝÔ´µÄÊý¾Ý¼¯³ÉÎªÒ»ÖÂµÄÊý¾Ý´æ´¢¡£ÊµÌåÊ¶±ðÎÊÌâ¡¢ÊôÐÔµÄÏà¹ØÐÔ·ÖÎöÊÇÊý¾Ý¼¯³ÉÖÐµÄÖ÷ÒªÎÊÌâ¡£

(4) Êý¾Ý±ê×¼»¯ÓÃÓÚÏû³ýÌØÕ÷Ö®¼äÁ¿¸ÙºÍÈ¡Öµ·¶Î§µÄ²îÒì¿ÉÄÜ»áÔì³ÉµÄÓ°Ïì£¬Ö÷Òª°üÀ¨Àë²î±ê×¼»¯ºÍ±ê×¼²î±ê×¼»¯¡£

(5) Êý¾Ý¹éÔ¼ÓÃÓÚÔÚ¾¡¿ÉÄÜ±£³ÖÊý¾ÝÍêÕûÐÔµÄ»ù´¡ÉÏµÃµ½Êý¾ÝµÄ¹éÔ¼±íÊ¾£¬Ö÷Òª°üÀ¨Î¬¹éÔ¼¡¢ÊýÁ¿¹éÔ¼ºÍÊý¾ÝÑ¹ËõµÈ·½·¨¡£

(6) Êý¾Ý±ä»»ÊÇÒ»ÖÖ½«Ô­Ê¼Êý¾Ý±ä»»Îª½ÏºÃÊý¾Ý¸ñÊ½µÄ·½·¨£¬ÒÔ±ã×÷ÎªÊý¾Ý´¦ÀíÇ°ÌØ¶¨Êý¾ÝÍÚ¾òËã·¨µÄÊäÈë¡£Êý¾ÝÀëÉ¢»¯ÊÇÒ»ÖÖÊý¾Ý±ä»»µÄÐÎÊ½¡£

(7) ÀûÓÃPythonÖÐµÄPandasºÍsklearn¿ÉÒÔ·½±ãµØÊµÏÖÊý¾ÝÔ¤´¦Àí¡£

Ï°Ìâ3

1. Êý¾Ý´¦ÀíÖÐÎªºÎÒª½øÐÐÊý¾Ý±ä»»£¿Êý¾Ý±ä»»µÄ·½·¨Ö÷ÒªÓÐÄÄÐ©£¿

2.  Çë·Ö±ð½éÉÜ¾ùÖµ¡¢ÖÐÎ»ÊýºÍ½Ø¶Ï¾ùÖµÔÚ·´Ó³Êý¾ÝÖÐÐÄ·½ÃæµÄÌØµã¡£

3.  ÏÖÓÐÄ³°à20ÃûÍ¬Ñ§¡°Êý¾ÝÍÚ¾ò¡±¿Î³ÌµÄ³É¼¨£¬·Ö±ðÎª58,61,67,70,71,75,75,75,76,77,78,79,79,80,80,81,82,84,88,95£¬Çó¸Ã×é³É¼¨µÄÖÐÎ»Êý¡¢ÖÚÊýºÍ¼«²î£¬²¢»­³ö¸Ã×é³É¼¨µÄÏäÏßÍ¼¡£

4.  ÊýÖµÊôÐÔµÄÏàËÆÐÔ¶ÈÁ¿·½·¨ÓÐÄÄÐ©£¿¸÷×ÔµÄÓÅÈ±µãÊÇÊ²Ã´£¿

5.  ÔÚÊý¾ÝÇåÏ´ÖÐ£¬´¦ÀíÊý¾ÝÈ±Ê§ÖµµÄ·½·¨ÓÐÄÄÐ©£¿ÈçºÎÈ¥µôÊý¾ÝÖÐµÄÔëÉù£¿

6.  Êý¾ÝÀëÉ¢»¯µÄÒâÒåÊÇÊ²Ã´£¿Ö÷ÒªÓÐÄÄÐ©Êý¾ÝÀëÉ¢»¯·½·¨£¿

7.  Ê²Ã´ÊÇÊý¾Ý¹æ·¶»¯£¿ÓÐÄÄÐ©³£ÓÃµÄÊý¾Ý¹æ·¶»¯·½·¨£¿