µÚ
5
ÕÂ
Êý¾ÝÌ½Ë÷
..5.1Êý¾ÝÃèÊö
Êý¾ÝÃèÊöÊÇÍ¨¹ý·ÖÎöÊý¾ÝµÄÍ³¼ÆÌØÕ÷,¼ÓÉî¶ÔÊý¾ÝµÄÀí½â,½ø¶øÊ¹ÓÃºÏÊÊ
µÄÍ³¼Æ·ÖÎö»òÊý¾ÝÍÚ¾ò·½·¨È¥Ì½¾¿Êý¾ÝÇ±ÔÚµÄÐÅÏ¢,ÊµÏÖÊý¾Ý¶´²ì¡£Êý¾ÝÃèÊö
Ö÷Òª·ÖÎöÊý¾ÝµÄÀà±ð¡¢ÀëÉ¢³Ì¶È¡¢Êý¾ÝµÄÆ«¶ÈºÍ·å¶ÈµÈÌØÕ÷¡£

1.Êý¾ÝµÄÀà±ð
5.1 

Êý¾ÝÊÇÊý¾Ý¶ÔÏó¼°ÆäÊôÐÔµÄ¼¯ºÏ¡£Ò»¸öÊý¾Ý¶ÔÏóÊÇ¶ÔÒ»¸öÊÂÎï»òÕßÎïÀí
¶ÔÏóµÄÃèÊö,¿ÉÒÔÊÇÒ»Ìõ¼ÇÂ¼¡¢Ò»¸öÊµÌå¡¢Ò»¸ö°¸Àý»òÒ»¸öÑù±¾,¶øÊý¾Ý¶ÔÏóµÄ
ÊôÐÔÔòÊÇÕâ¸ö¶ÔÏóµÄÐÔÖÊ¡¢ÌØÕ÷»òÎ¬¶È¡£ÔÚÊý¾Ý¼¯ÖÐ,Í¨³£°ÑÊý¾Ý¶ÔÏó³ÆÎªÑù
±¾,Êý¾Ý¶ÔÏóµÄÊôÐÔ³ÆÎª±äÁ¿¡£

ÔÚ´óÊý¾ÝÊ±´ú,Êý¾ÝµÄÀ´Ô´¶àÑù»¯·¢Õ¹,Êý¾ÝµÄ¸ñÊ½ºÍÐÎÌ¬Ò²ÈÕ½¥·á¸»,Èç
Êý×Ö¡¢ÎÄ×Ö¡¢Í¼Æ¬ºÍÊÓÆµ¡¢ÒôÆµµÈ¡£ÆäÖÐ,ÄÜ¹»Ê¹ÓÃÍ³Ò»µÄ½á¹¹¼ÓÒÔ±íÊ¾µÄÊý¾Ý
³ÆÎª½á¹¹»¯Êý¾Ý,ÈçÊý×Ö¡¢×Ö·ûµÈ;ÆäËûÎÞ·¨Ê¹ÓÃÍ³Ò»µÄ½á¹¹±íÊ¾µÄÊý¾Ý,ÈçÒô
Æµ¡¢Í¼Ïñ¡¢ÊÓÆµµÈ,³ÆÎª·Ç½á¹¹»¯Êý¾Ý¡£¶ÔÓÚ½á¹¹»¯Êý¾Ý,¿É°´ÕÕ¶Ô¿Í¹ÛÊÂÎï²â
¶ÈµÄ³Ì¶È»ò¾«È·Ë®Æ½À´»®·Ö,·ÖÎªÈçÏÂÀà±ð,Ïê¼û±í5-1¡£

±í5-
1 
³£¼ûµÄÊý¾ÝÀà±ð

Êý¾ÝÀà±ðÊý¾ÝÌØÕ÷¾ÙÀý
·ÖÀàÊý¾ÝÃ»ÓÐÊýÁ¿ºÍË³Ðò¹ØÏµ×´Ì¬,Èç¡°ÄÐ¡±¡°Å®¡±¡°0¡±¡°1¡± 
ÓÐÐòÊý¾ÝÓÐË³Ðò¹ØÏµ
ÌØÕ÷Á¿,Èç¡°¼×¡±¡°ÒÒ¡±¡°±û¡±¡°¶¡¡±,¼×>ÒÒ> 
±û>¶¡
Çø¼äÊý¾Ý
ÓÐÊýÁ¿¹ØÏµ,¿É±È½Ï´óÐ¡,¿ÉÅÅÐò, 
¿É¼ÆËã²îÒì
ÊµÊý,ÈçÌåÖØ¡¢Éí¸ß
±ÈÀýÊý¾Ý
ÓÐÊýÁ¿¹ØÏµ,¿É±È½Ï´óÐ¡,¿ÉÅÅÐò, 
¿É¼ÆËã²îÒì,¾ßÓÐ¾ø¶ÔÁãµã
ÊµÊý,ÊÂÎïÖ®¼äµÄ±ÈÖµ

Í¬ÀàÊÂÎïÊ¹ÓÃ²»Í¬µÄ³ß¶ÈÁ¿»¯,»áµÃµ½²»Í¬Àà±ðµÄÊý¾Ý¡£ÀýÈç,Ñ§Éú³É¼¨Êý
¾Ý°´Êµ¼ÊÊý×ÖÌîÐ´¾ÍÊÇÇø¼äÊý¾Ý;°´A¡¢B¡¢CµÈ·Ö¶Î½øÐÐÇø·Ö¾ÍÊÇÓÐÐòÊý¾Ý;°´ÊÇ
·ñ¼°¸ñÇø·ÖÔòÊÇ·ÖÀàÊý¾Ý;Ä³Í¬Ñ§µÄ³É¼¨ÊÇÁíÒ»Í¬Ñ§µÄÁ½±¶,±ãÊÇ±ÈÀýÊý¾Ý¡£


1 14 R ÓïÑÔ³ÌÐòÉè¼Æ
5.1.2 Êý¾ÝµÄ¼¯ÖÐÇ÷ÊÆ
Ò»°ãÇé¿öÏÂ,¶ÔÒ»×éÊý¾ÝµÄÖÐÐÄÎ»ÖÃ½øÐÐÊýÁ¿»¯µÄÃèÊö,ÄÜ¹»´ú±íÕâ×éÊý¾ÝµÄ¼¯ÖÐÇ÷
ÊÆ,¼´·´Ó³´ó¶àÊýÊý¾ÝÏòÄ³Ò»µã¼¯ÖÐµÄÇé¿ö¡£Í¨³£ÓÃÀ´ÃèÊöÊý¾Ý¼¯ÖÐÇ÷ÊÆµÄÍ³¼ÆÁ¿Ö÷Òª
°üÀ¨Æ½¾ùÊý(Mean)¡¢ÖÐÎ»Êý(Median)¡¢ÖÚÊý(Mode)µÈ¡£Æ½¾ùÊý¼´Ñù±¾µÄÊý¾ÝÏà¼ÓÖ®ºÍÔÙ
³ýÒÔÑù±¾¸öÊý;ÖÐÎ»ÊýÊÇÒ»×éÊý¾Ý°´Ë³ÐòÒÀ´ÎÅÅÁÐºó´¦ÔÚÖÐ¼äÎ»ÖÃµÄÊý;ÖÚÊýÔòÊÇÒ»×éÊý
¾ÝÖÐ³öÏÖ´ÎÊý×î¶àµÄÊý¡£Èç¹ûÊý¾Ý·þ´ÓÕýÌ¬·Ö²¼,ÔòÆ½¾ùÖµ¾ÍÊÇÊý¾ÝµÄ¼¯ÖÐÎ»ÖÃ,ËüÔÚÒ»
¶¨³Ì¶ÈÉÏ¶ÈÁ¿Êý¾ÝµÄÆ½¾ùË®Æ½¡£È»¶ø,Êý¾ÝµÄÆ½¾ùÖµÒ×ÊÜÊý¾Ý·Ö²¼µÄÓ°Ïì,ÓÐÊ±Ê¹ÓÃÖÐÎ»
ÊýÀ´ºâÁ¿Êý¾ÝµÄ¼¯ÖÐÎ»ÖÃ»á±ÈÊ¹ÓÃÆ½¾ùÖµ¸üÓÐÐ§¡£ÖÚÊýÊÇ×îÆµ·±³öÏÖµÄÖµ,ÔÚÊý¾ÝÖÐÕ¼
±ÈÀý×î¸ß¡£Òò´Ë,ÅÐ¶ÏÒ»×éÊý¾ÝµÄ¼¯ÖÐ³Ì¶ÈÐèÒª×ÛºÏºâÁ¿ÉÏÊö¼¸¸öÍ³¼ÆÁ¿¡£
RÓïÑÔÖÐÊ¹ÓÃmean()º¯ÊýºÍmedian()º¯ÊýÀ´¼ÆËãÒ»×éÊý¾ÝµÄÆ½¾ùÊýºÍÖÐÎ»Êý¡£R 
ÖÐÃ»ÓÐÖ±½ÓÇóÖÚÊýµÄÄÚÖÃº¯Êý,µ«¿ÉÒÔÊ¹ÓÃtable()º¯ÊýÀ´¼ÆËã³öÏÖ´ÎÊý(ÆµÊý),ÔÙÍ¨¹ý
max()¡¢sort()¡¢which.max()µÈº¯Êý²é¿´ÆäÖÐÆµÊý×î´óµÄÊýÖµ¡£
ÒÔÏÂÊ¹ÓÃapply()º¯Êý,¶ÔirisÊý¾Ý¼¯ÖÐµÄÑù±¾½øÐÐÆ½¾ùÖµºÍÖÐÎ»ÊýµÄ¼ÆËã¡£´Ó½á¹û
¿ÉÖª,4¸öÊôÐÔµÄÆ½¾ùÖµºÍÖÐÎ»Êý²î¾à²¢²»´ó,±íÃ÷4¸öÊôÐÔµÄÊý¾Ý½Ó½üÕýÌ¬·Ö²¼¡£È»ºó
ÔÚirisÊý¾Ý¼¯ÖÐµÄÒ»¸ö±äÁ¿Sepal.LengthÖÐ,Í¨¹ý¶ÔÆäÆµÊýµÄÅÅÐòÕÒµ½ÖÚÊý,¼´³öÏÖÁË
10´ÎµÄÈ¡ÖµÎª5µÄÊý¾Ý,ÊÇ³öÏÖÆµÂÊ×î´óµÄÊý¡£È¡ÖµÎª5.1¡¢6.3µÄÊý¸÷³öÏÖÁË9´Î,Ò²ÊÇ
³öÏÖ±È½Ï¶àµÄÊý¡£ 
> apply(iris[, c(1:4)], 2, mean) #ÇóÆ½¾ùÖµ
Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.843333 3.057333 3.758000 1.199333 
> apply(iris[, c(1:4)], 2, median) #ÇóÖÐÎ»Êý
Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.80 3.00 4.35 1.30 
> sort(table(iris[, c(1)]),decreasing = T) #²é¿´ÆµÊý 
5 5.1 6.3 5.7 6.7 5.5 5.8 6.4 4.9 5.4 5.6 6 6.1 4.8 6.5 4.6 5.2 6.2 6.9 7.7 4.4 
10 9 9 8 8 7 7 7 6 6 6 6 6 5 5 4 4 4 4 4 3 
5.9 6.8 7.2 4.7 6.6 4.3 4.5 5.3 7 7.1 7.3 7.4 7.6 7.9 
3 3 3 2 2 1 1 1 1 1 1 1 1 1 
5.1.3 Êý¾ÝµÄÀëÉ¢³Ì¶È
ÃèÊöÊý¾ÝÀëÉ¢³Ì¶ÈµÄÍ³¼ÆÁ¿Ö÷ÒªÓÐ·½²î¡¢±ê×¼²î¡¢ÖÐÎ»Êý¾ø¶ÔÆ«²î¡¢±äÒìÏµÊý¡¢ËÄ·ÖÎ»
Êý¡¢¼«²îµÈ¡£·½²î(Variance)ÓÃÀ´¼ÆËãÃ¿Ò»¸öÑù±¾Êý¾ÝÓëÆ½¾ùÊýÖ®¼äµÄ²îÒì;±ê×¼²î
(StandardDeviation)Ò²³ÆÎª±ê×¼Æ«²î,ÊÇ·½²îµÄËãÊõÆ½·½¸ù,Æ½¾ùÊýÏàÍ¬µÄÁ½×éÊý¾Ý,Æä
±ê×¼²îÎ´±ØÏàÍ¬;ÖÐÎ»Êý¾ø¶ÔÆ«²î(MedianAbsoluteDeviation,MAD)ÊÇ¶ÈÁ¿Êý¾ÝÏà¶ÔÓÚ
ÖÐÎ»ÊýµÄÀëÉ¢Çé¿ö;±äÒìÏµÊý(CoefficientofVariation,CV)ÊÇÊý¾Ý±ê×¼²îÓëÊý¾ÝÆ½¾ùÊý
µÄ±ÈÖµ,È¡ÖµÔ½´óËµÃ÷Êý¾ÝÔ½·ÖÉ¢,²»ÊÜ²âÁ¿³ß¶ÈºÍÁ¿¸ÙµÄÓ°Ïì,±È½Ï¿Í¹Û;ËÄ·ÖÎ»Êý
(Quartile)Ò²³ÆÎªËÄ·ÖÎ»µã,°üÀ¨ÏÂËÄ·ÖÎ»Êý¡¢ÖÐÎ»ÊýºÍÉÏËÄ·ÖÎ»Êý,ËùÓÐÊýÖµÓÉÐ¡µ½´ó

µÚ5ÕÂ Êý¾ÝÌ½Ë÷1 15 
ÅÅÁÐ²¢·Ö³ÉËÄµÈ·Ý,´¦ÓÚµÚÒ»¸ö·Ö¸îµãÎ»ÖÃµÄÊýÖµÊÇÏÂËÄ·ÖÎ»Êý,´¦ÓÚµÚ¶þ¸ö·Ö¸îµãÎ»ÖÃ
(ÖÐ¼äÎ»ÖÃ)µÄÊýÖµÊÇÖÐÎ»Êý,´¦ÓÚµÚÈý¸ö·Ö¸îµãÎ»ÖÃµÄÊýÖµÊÇÉÏËÄ·ÖÎ»Êý;¼«²î(Range) 
ÊÇÖ¸Êý¾Ý×î´óÖµºÍ×îÐ¡ÖµÖ®¼äµÄ¾àÀë,¼«²îÔ½Ð¡ËµÃ÷Êý¾ÝÔ½¼¯ÖÐ¡£
ÒÔÏÂÊ¹ÓÃapply()º¯Êý,¶ÔirisÊý¾Ý¼¯µ÷ÓÃvar()¡¢sd()¡¢mad()¡¢quantile()ºÍrange() 
º¯Êý¼ÆËãÃ¿¸ö±äÁ¿µÄ·½²î¡¢±ê×¼²î¡¢ÖÐÎ»Êý¾ø¶ÔÆ«²î¡¢ËÄ·ÖÎ»ÊýºÍ¼«²î,±äÒìÏµÊýÊ¹ÓÃ¹«Ê½
¼ÆËã¡£ 
> apply(iris[, c(1:4)], 2, var) #·½²î
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0.6856935 0.1899794 3.1162779 0.5810063 
> apply(iris[, c(1:4)], 2, sd) #±ê×¼²î
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0.8280661 0.4358663 1.7652982 0.7622377 
> apply(iris[, c(1:4)], 2, mad) #ÖÐÎ»Êý¾ø¶ÔÆ«²î
Sepal.Length Sepal.Width Petal.Length Petal.Width 
1.03782 0.44478 1.85325 1.03782 
> #ÀûÓÃ"±ê×¼²î/Æ½¾ùÖµ"¼ÆËã³ö±äÒìÏµÊý
> apply(iris[, c(1:4)], 2, sd)/apply(iris[, c(1:4)], 2, mean) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0.1417113 0.1425642 0.4697441 0.6355511 
> apply(iris[, c(1:4)], 2, quantile) #ËÄ·ÖÎ»Êý 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0% 4.3 2.0 1.00 0.1 
25% 5.1 2.8 1.60 0.3 
50% 5.8 3.0 4.35 1.3 
75% 6.4 3.3 5.10 1.8 
100% 7.9 4.4 6.90 2.5 
> apply(iris[, c(1:4)], 2, range) #¼«²î 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
[1,] 4.3 2.0 1.0 0.1 
[2,] 7.9 4.4 6.9 2.5 
5.1.4 Êý¾ÝµÄ·Ö²¼ÌØÕ÷
ÕýÌ¬·Ö²¼(Normaldistribution)Ò²³Æ¡°³£Ì¬·Ö²¼¡±,ÓÖÃû¸ßË¹·Ö²¼(Gaussian 
distribution),ÊÇÒ»¸öÔÚÊýÑ§¡¢ÎïÀí¼°¹¤³ÌµÈÁìÓò¶¼·Ç³£ÖØÒªµÄ¸ÅÂÊ·Ö²¼¡£ÕýÌ¬ÇúÏß³ÊÖÓ
ÐÍ,Á½¶ËµÍ¡¢ÖÐ¼ä¸ß¡¢×óÓÒ¶Ô³Æ,ÒòÆäÇúÏß³ÊÖÓÐÎ,Òò´ËÓÖ³ÆÎªÖÓÐÎÇúÏß¡£Æ«¶ÈºÍ·å¶ÈÊÇÃè
ÊöÊý¾Ý·Ö²¼ÌØÕ÷µÄÍ³¼ÆÁ¿:Æ«¶È(Skewness)ÊÇÓÃÓÚºâÁ¿Êý¾Ý·Ö²¼µÄ²»¶Ô³Æ³Ì¶È»òÆ«Ð±³Ì
¶ÈµÄÖ¸±ê;·å¶È(Kurtosis)ÓÖ³Æ·åÌ¬ÏµÊý,Ö±¹Û·´Ó³ÁË·å²¿µÄ¼â¶È¡£ÕýÌ¬·Ö²¼ÊÇÒ»ÖÖÎÞÆ«
·Ö²¼,ÆäÆ«¶ÈµÈÓÚ0¡£µ±Æ«¶È²»Îª0Ê±,±íÃ÷Êý¾Ý·Ö²¼ÊÇ·Ç¶Ô³ÆµÄ:Æ«¶È´óÓÚ0Ê±,Êý¾Ý·Ö
²¼ÊÇÓÒÆ«»òÕýÆ«;·´Ö®,Æ«¶ÈÐ¡ÓÚ0±íÃ÷Êý¾Ý·Ö²¼ÊÇ×óÆ«»ò¸ºÆ«¡£µ±Êý¾ÝÎªÕýÌ¬·Ö²¼Ê±, 
·å¶È½üËÆµÈÓÚ3¡£ÓëÕýÌ¬·Ö²¼Ïà±È½Ï,µ±·å¶È´óÓÚ3Ê±,·å¶ÈÔ½´ó,·Ö²¼ÇúÏßÔ½¶¸ÇÍ,±íÃ÷

1 16 R ÓïÑÔ³ÌÐòÉè¼Æ
Êý¾Ý·Ö²¼Ô½¼¯ÖÐ;µ±·å¶ÈÐ¡ÓÚ3Ê±,·å¶ÈÔ½Ð¡,±íÊ¾·Ö²¼ÇúÏßÔ½Æ½Ì¹,Êý¾Ý·Ö²¼Ô½·ÖÉ¢¡£
ÏÂÀý»ùÓÚirisÊý¾Ý¼¯¼ÆËã4¸ö±äÁ¿µÄÆ«¶ÈºÍ·å¶È¡£´ÓÊä³ö½á¹û¿ÉÒÔ·¢ÏÖ,SepalLength 
ºÍSepalWidthÁ½¸ö±äÁ¿µÄÊý¾Ý¼¯ÎªÓÒÆ«,PetalLengthºÍPetalWidthÎª×óÆ«¡£
ÔÚ·ÖÎöÊµ¼ÊÎÊÌâÊ±,ÐèÒª½«¼ÆËã³öµÄÆ«¶È¡¢·å¶ÈºÍÍ¼ÐÎ½áºÏÆðÀ´½øÐÐÅÐ¶Ï¡£ÔÚ¼ÆËã³ö
Æ«¶ÈºÍ·å¶Èºó,ÀûÓÃgather()º¯Êý¶ÔÊý¾Ý¼¯½øÐÐ±ä»»,½«Ã¿¸ö±äÁ¿×ª»¯ÎªÐÐ,¼´¿íÐÍÊý¾Ý
×ª»»Îª³¤ÐÍÊý¾Ý,È»ºóÊ¹ÓÃggplot2»æÖÆ4¸ö±äÁ¿µÄÃÜ¶ÈÇúÏß,ÈçÍ¼5-1ËùÊ¾¡£ 
> install.packages("moments") 
> library(moments) 
> apply(iris[, 1:4], 2, skewness) #¼ÆËãÆ«¶È
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0.3117531 0.3157671 -0.2721277 -0.1019342 
> apply(iris[, c(1:4)], 2, kurtosis) #¼ÆËã·å¶È
Sepal.Length Sepal.Width Petal.Length Petal.Width 
2.426432 3.180976 1.604464 1.663933 
> install.packages("tidyr") 
> install.packages("ggplot2") 
> library(ggplot2) 
> library(tidyr) 
> irislong <- gather(iris[, 1:4], key = "varname", value = "value") 
>## ¿ÉÊÓ»¯Êý¾Ý·Ö²¼
> ggplot(irislong, aes(colours = varname, fill = varname, linetype = varname, 
alpha = 0.5)) 
+ theme_bw() 
+ geom_density(aes(value), bw = 0.5, alpha = 0.4) 
Í¼5-1 Ê¹ÓÃggplot()º¯Êý»æÖÆirisÊý¾Ý¼¯4¸ö±äÁ¿µÄÃÜ¶ÈÇúÏß

µÚ5ÕÂ Êý¾ÝÌ½Ë÷1 17 
5.1.5 Êý¾ÝµÄÏàËÆÐÔ
ÏàËÆÐÔ¶ÈÁ¿(SimilarityMeasurement)ÊÇ×ÛºÏÆÀ¶¨Á½¸öÊÂÎïÖ®¼äÏàËÆ³Ì¶ÈµÄ¶ÈÁ¿,ÔÚ
¾ÛÀàºÍ·ÖÀàÖÐ¾ßÓÐÖØÒªµÄµØÎ»¡£³£ÓÃµÄÏàËÆÐÔ¶ÈÁ¿ÓÐÏà¹ØÏµÊý(±äÁ¿Ö®¼äµÄ½Ó½ü³Ì¶È)ºÍ
ÏàËÆÏµÊý(Ñù±¾Ö®¼äµÄ½Ó½ü³Ì¶È)¡£
Ïà¹ØÏµÊýÊÇ¶ÈÁ¿Êý¾Ý±äÁ¿Ö®¼äÏßÐÔÏà¹ØÐÔµÄÖ¸±ê¡£ÔÚ¶þÔª±äÁ¿µÄÏà¹Ø·ÖÎöÖÐ,³£ÓÃ
µÄÓÐPearsonÏà¹ØÏµÊý¡¢SpearmanÖÈÏà¹ØÏµÊýºÍÅÐ¶¨ÏµÊýµÈ¡£PearsonÏà¹ØÏµÊýÒ»°ãÓÃ
ÓÚ·ÖÎöÁ½¸öÕýÌ¬Á¬ÐøÐÔ±äÁ¿Ö®¼äµÄ¹ØÏµ,È¡Öµ·¶Î§ÊÇ[-1,1],Èç¹ûÐ¡ÓÚ0,ËµÃ÷±äÁ¿¼ä¸º
Ïà¹Ø,Ô½½Ó½üÓÚ-1¸ºÏà¹ØÐÔÔ½Ç¿;´óÓÚ0ËµÃ÷±äÁ¿¼äÕýÏà¹Ø,Ô½½Ó½üÓÚ1ÕýÏà¹ØÐÔÔ½Ç¿¡£
SpearmanÖÈÏà¹ØÏµÊýÒ»°ãÓÃÓÚ·ÖÎö²»·þ´ÓÕýÌ¬·Ö²¼µÄ±äÁ¿¡¢·ÖÀà±äÁ¿»òµÈ¼¶±äÁ¿Ö®¼äµÄ
¹ØÁªÐÔ¡£¶ø¶ÔÓÚÁ¬Ðø²âÁ¿Êý¾Ý,¸üÊÊºÏÓÃPearson Ïà¹ØÏµÊý½øÐÐ·ÖÎö¡£ÅÐ¶¨ÏµÊý
(CoefficientofDetermination)Ò²³ÆÎª¾ö¶¨ÏµÊý,ÊÇºâÁ¿×Ô±äÁ¿ÓëÒò±äÁ¿ÊÇ·ñÏà¹ØµÄÖØÒª
Ö¸±ê,ËüµÄÖµÔ½½Ó½üÓÚ1,±íÃ÷×Ô±äÁ¿ÓëÒò±äÁ¿Ö®¼äµÄÏà¹ØÐÔÔ½Ç¿¡£
ÔÚRÓïÑÔÖÐ,Ê¹ÓÃcor()º¯Êý¼ÆËãÏà¹ØÏµÊý,ÏµÍ³Ä¬ÈÏ²ÎÊýmethod="pearson",Ò²¿É
ÉèÖÃÎªmethod="spearman"µÈÆäËû·½·¨½øÐÐ¼ÆËã¡£ÏÂÀý¶ÔÊý¾Ý¼¯irisÊ¹ÓÃcor()º¯Êý¼Æ
Ëã4¸öÊýÖµ±äÁ¿Ö®¼äµÄÏà¹ØÏµÊý¡£ 
> cor(iris[, c(1:4)]) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 
Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259 
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 
Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000 
¶ÔÓÚ²»Í¬Ñù±¾Ö®¼äµÄÏàËÆÐÔ¶ÈÁ¿,Í¨³£¼ÆËãÑù±¾¼äµÄ¡°¾àÀë¡±,Ö÷ÒªÓÐÅ·ÊÏ¾àÀë¡¢Âü¹þ
¶Ù¾àÀë¡¢×î´ó¾àÀëµÈ·½·¨¡£Å·ÊÏ¾àÀëÓÖ³ÆÎªÅ·¼¸ÀïµÃ¾àÀë,ÊÇ¶ÈÁ¿Å·¼¸ÀïµÃ¿Õ¼äÖÐÁ½µã¼ä
µÄÖ±Ïß¾àÀë;Âü¹þ¶Ù¾àÀëÓÃÒÔ±íÃ÷Á½¸öµãÔÚÅ·¼¸ÀïµÃ¿Õ¼äµÄ¹Ì¶¨Ö±½Ç×ø±êÏµÉÏµÄ¾ø¶ÔÖá
¾àµÄ×ÜºÍ;×î´ó¾àÀëÎªÁ½¸öµãÖ®¼äµÄ¸÷¸ö×ø±ê·ÖÁ¿²îµÄ×î´óÖµ¡£
RÓïÑÔÖÐÊ¹ÓÃdist()º¯Êý¼ÆËã¾àÀë,Í¨¹ý²ÎÊýmethodÀ´Ö¸¶¨¼ÆËã¾àÀëµÄ·½·¨,²ÎÊý
¡°euclidean¡±¡°manhattan¡±¡°maximum¡±·Ö±ð´ú±íÅ·ÊÏ¾àÀë¡¢Âü¹þ¶Ù¾àÀëºÍ×î´ó¾àÀëÈýÖÖ¾à
Àë·½·¨¡£ÒÔÏÂÊ¹ÓÃirisÊý¾Ý¼¯¼ÆËãÃ¿¸öÑù±¾¼äµÄÅ·ÊÏ¾àÀë,µÃµ½Ò»¸ö¶Ô½ÇÏßÎª0µÄ¶Ô³Æ
¾ØÕó,¿ÉÒÔ¿´µ½¾àÀëÎª0±íÊ¾Æä±¾Éí,¾àÀëÔ½Ð¡±íÊ¾Ñù±¾Ô½ÏàËÆ¡£ 
> dist(iris[, c(1:4)], method = "euclidean", upper = T, diag = T) 
1 2 3 4 5 
1 0.0000000 0.5385165 0.5099020 0.6480741 0.1414214 
2 0.5385165 0.0000000 0.3000000 0.3316625 0.6082763 
3 0.5099020 0.3000000 0.0000000 0.2449490 0.5099020 
4 0.6480741 0.3316625 0.2449490 0.0000000 0.6480741 
5 0.1414214 0.6082763 0.5099020 0.6480741 0.0000000 
6 0.6164414 1.0908712 1.0862780 1.1661904 0.6164414 
(¹²ÓÐ150 ¸öÑù±¾,²úÉú150*150 ¾ØÕó,ºóÃæÊý¾ÝÂÔÈ¥)

118RÓïÑÔ³ÌÐòÉè¼Æ
..5.2Êý¾ÝÇåÏ´
ÔÚÊµ¼ÊÊý¾ÝÍÚ¾ò¹ý³ÌÖÐ,´ÓÍâ²¿»ñµÃµÄÊý¾ÝÍùÍù´æÔÚÈ±Ê§Öµ¡¢ÖØ¸´Öµ¡¢Òì³£Öµ»òÕß´í
ÎóÖµ,Í¨³£ÕâÀàÊý¾Ý±»³ÆÎª¡°ÔàÊý¾Ý¡±,ÐèÒª¶ÔÆä½øÐÐÇåÏ´¡£Êý¾ÝÇåÏ´ÊÇÊý¾Ý×¼±¸¹ý³ÌÖÐ×î
ÖØÒªµÄÒ»²½,Í¨¹ýÌî²¹È±Ê§ÊýÖµ¡¢Ê¶±ð»òÉ¾³ýÀëÈºµãµÈ·½·¨½â¾ö²»Ò»ÖÂÐÔ¡¢¾ÀÕý´íÎóÊý¾Ý, 
´Ó¶øµÃµ½¸É¾»µÄÊý¾Ý¡£Êý¾ÝÇåÏ´µÄÖ÷ÒªÄ¿µÄÊÇÌá¸ßÊý¾ÝÖÊÁ¿,½ø¶øÌá¸ßÍÚ¾ò½á¹ûµÄ¿É¿¿
ÐÔºÍ×¼È·ÐÔ,ÕâÊÇÊý¾ÝÍÚ¾ò¹ý³ÌÖÐ·Ç³£±ØÒªµÄÒ»¸ö²½Öè¡£
5.2.1´¦ÀíÈ±Ê§Êý¾Ý
Êý¾Ý´æÔÚÈ±Ê§Öµ·Ç³£ÆÕ±é¡£Êý¾ÝÈ±Ê§ÊÇÖ¸ÔÚÊý¾Ý²É¼¯¡¢´«ÊäºÍ´¦Àí¹ý³ÌÖÐ,ÓÉÓÚÄ³Ð©
Ô­Òòµ¼ÖÂÊý¾Ý²»ÍêÕûµÄÇé¿ö¡£´ÓÊý¾ÝÈ±Ê§µÄ·Ö²¼À´½²,È±Ê§Öµ¿ÉÒÔ·ÖÎªÍêÈ«Ëæ»úÈ±Ê§¡¢Ëæ
»úÈ±Ê§ºÍÍêÈ«·ÇËæ»úÈ±Ê§¡£ÍêÈ«Ëæ»úÈ±Ê§ÊÇÖ¸Êý¾ÝµÄÈ±Ê§ÊÇÍêÈ«Ëæ»úµÄ,È±Ê§Çé¿öÏà¶Ô
ÓÚËùÓÐÊý¾ÝÀ´Ëµ,ÔÚÍ³¼ÆÒâÒåÉÏÊÇ¶ÀÁ¢µÄ,Ö±½ÓÉ¾³ýÈ±Ê§Êý¾Ý¶ÔÄ£ÐÍÓ°Ïì²»´ó¡£ÍêÈ«·ÇËæ
»úÈ±Ê§Ö¸µÄÊÇÊý¾ÝµÄÈ±Ê§ÓëÈ±Ê§Öµ±¾Éí´æÔÚÄ³ÖÖ¹ØÁª,ÀýÈç,ÔÚµ÷²éÊ±ËùÉæ¼°µÄÎÊÌâ¹ýÓÚ
Ãô¸Ð,±»µ÷²éÕß¾Ü¾ø»Ø´ð¶øÔì³ÉµÄÈ±Ê§¡£´ÓÍ³¼Æ½Ç¶ÈÀ´¿´,·ÇËæ»úÈ±Ê§µÄÊý¾Ý»á²úÉúÓÐÆ«
¹À¼Æ,¶øÕâ²¿·ÖµÄÈ±Ê§Êý¾Ý´¦ÀíÒ²ÊÇ±È½ÏÀ§ÄÑµÄ¡£Ëæ»úÈ±Ê§´¦ÓÚÁ½ÕßÖ®¼ä¡£×ÛÉÏÔ­Òò,Ðè
ÔÙ½øÐÐÈ±Ê§Öµ´¦Àí¡£
Òª¶ÔÊý¾Ý²É¼¯»òÊý¾ÝÀ´Ô´ÖÐ³öÏÖÈ±Ê§ÖµµÄÔ­Òò½øÐÐÁË½âºó, 

1. 
È±Ê§ÖµµÄ±íÊ¾
ÔÚRÓïÑÔÖÐ,È±Ê§ÖµÓÃ·ûºÅNA ±íÊ¾,´ú±íÊý¾Ý¼¯ÖÐ¸ÃÊý¾ÝÒÅÊ§»ò²»´æÔÚ¡£ÔÚ¶Ôº¬
NA µÄÊý¾Ý¼¯½øÐÐº¯Êý²Ù×÷Ê±,¸ÃNA ²ÎÓëÔËËã,Òò´ËÐèÒª½øÐÐÔ¤ÏÈ´¦ÀíÀ´ÒÆ³ýNA µÄÓ°
Ïì¡£ÁíÍâ,RÓïÑÔÖÐ»¹ÓÐNULL ºÍNaN µÈÌØÊâÀàÐÍµÄÊý¾Ý¡£NULL ±íÊ¾Î´ÖªµÄ×´Ì¬,Ëü
²»»áÓ°Ïìº¯ÊýµÄ¼ÆËã;NaN ±íÊ¾ÎÞÒâÒåµÄÊý,ÀýÈç,³ýÊýÎª0µÄ½á¹û¾ÍÊÇNaN ¡£ÈýÕßµÄº¬
ÒåÓë´¦Àí·½Ê½²»Í¬¡£

2. 
È±Ê§ÖµµÄÅÐ±ð
RÓïÑÔÌá¹©ÁËÒ»Ð©º¯ÊýÓÃÓÚÅÐ±ðÈ±Ê§Öµ,Ïê¼û±í5-2¡£¼ì²éÊý¾Ý¼¯ÖÐÊÇ·ñ´æÔÚÈ±Ê§Öµ
µÄ×î¼òµ¥µÄ·½·¨ÊÇÊ¹ÓÃsummary() º¯Êý,¸Ãº¯Êý»áÊä³öÊý¾ÝÖÐÃ¿¸ö±äÁ¿µÄ»ù±¾ÐÅÏ¢,Í¬
Ê±Ò²»áÊä³ö±äÁ¿ÖÐº¬ÓÐÈ±Ê§ÖµµÄ¸öÊý¡£È·¶¨È±Ê§ÖµµÄÊýÁ¿ºó,¿ÉÒÔÍ¨¹ýis.a() º¯Êý²é¿´

n
È±Ê§ÖµµÄÎ»ÖÃ,Èô·µ»ØTRUE ±íÊ¾ÊÇÈ±Ê§Öµ¡£ÁíÍâ,»¹¿ÉÒÔÊ¹ÓÃvim°üÖÐµÄaggr() º¯Êý, 
Í¨¹ý¿ÉÊÓ»¯·½·¨²é¿´Êý¾ÝÈ±Ê§ÖµµÄÍ¼ÐÎÃèÊö¡£

±í5-
2 
È±Ê§Öµ´¦ÀíµÄÏà¹Øº¯Êý

º¯ÊýÃûº¬Òå·µ»ØÖµ
summary() ÏÔÊ¾Êý¾ÝµÄ×ÜÌå¸Å¿ö
is.na() ¼ì²âÈ±Ê§ÖµÊÇ·ñ´æÔÚÂß¼­Öµ:TRUE »òFALSE 


Ðø±í
µÚ5ÕÂÊý¾ÝÌ½Ë÷119
º¯ÊýÃûº¬Òå·µ»ØÖµ
complete.cases() ¼ì²âÐÐÊÇ·ñÍêÕûÂß¼­Öµ:TRUE »òFALSE 
na.omit() ÒÆ³ýËùÓÐº¬È±Ê§Êý¾ÝµÄÐÐ
aggr() ÔÚvim°üÖÐ,¿ÉÊÓ»¯ÃèÊöÈ±Ê§Öµ
3.È±Ê§ÖµµÄ´¦Àí
Õë¶Ô´øÓÐÈ±Ê§ÖµµÄÊý¾Ý¼¯,ÈçºÎÊ¹ÓÃºÏÊÊµÄ·½·¨´¦ÀíÈ±Ê§ÖµÊÇÊý¾ÝÔ¤´¦ÀíµÄ¹Ø¼ü¡£
È±Ê§ÖµµÄÖ÷Òª´¦Àí·½·¨ÓÐÉ¾³ý¼ÇÂ¼¡¢Êý¾Ý²å²¹ºÍ²»´¦Àí3ÖÖ¡£
(1)µ±È±Ê§Êý¾Ý½ÏÉÙÊ±,Ö±½ÓÉ¾³ýÏàÓ¦Ñù±¾¡£
É¾³ýÈ±Ê§Êý¾ÝµÄÑù±¾,ÆäÇ°ÌáÊÇÈ±Ê§Êý¾ÝµÄ±ÈÀý½ÏÉÙ,¶øÇÒÈ±Ê§Êý¾ÝÊÇËæ»ú³öÏÖµÄ, 
ÕâÑùÉ¾³ýÈ±Ê§Êý¾Ýºó¶Ô·ÖÎö½á¹ûµÄÓ°Ïì²»´ó¡£Ê¹ÓÃna.omit() º¯ÊýÒÆ³ýËùÓÐº¬È±Ê§Êý¾Ý
µÄÐÐ,¼òµ¥ÓÐÐ§¡£
(2)¶ÔÈ±Ê§Êý¾Ý½øÐÐ²å²¹¡£
ÓÐÊ±Ö±½ÓÉ¾³ýÈ±Ê§Öµ»áÓ°ÏìÊý¾ÝµÄ¿Í¹ÛÐÔºÍ·ÖÎö½á¹ûµÄÕýÈ·ÐÔ,¿É²ÉÓÃ²å²¹·¨À´Íê
³ÉÈ±Ê§Êý¾ÝµÄ´¦Àí,¼´ÔÚÓÐÈ±Ê§ÖµµÄµØ·½²¹ÉÏÊý¾Ý,²»»á¼õÉÙÑù±¾ÐÅÏ¢¡£±í5-3½éÉÜÁË³£
ÓÃµÄ²å²¹·½·¨¡£
±í5-
3 
³£ÓÃ²å²¹·½·¨

³£ÓÃ²å²¹·½·¨ÃèÊö
¹Ì¶¨Öµ²å²¹¹Ì¶¨Öµ
¾ùÖµ²å²¹·¨Æ½¾ùÖµ/ÖÐÎ»Êý/ÖÚÊý,½üÁÚÆ½¾ùÊý
¶àÖØ²å²¹·¨»Ø¹éÔ¤²âµÈÄ£ÐÍ·½·¨

¾ùÖµ²å²¹·¨ÊÇÒ»ÖÖ¼ò±ã¡¢¿ìËÙµÄÈ±Ê§Êý¾Ý´¦Àí·½·¨¡£Èç¹ûÈ±Ê§Êý¾ÝÊÇÊýÖµÐÍµÄ,Ôò¸ù
¾Ý¸Ã±äÁ¿µÄÆ½¾ùÖµÀ´Ìî³äÈ±Ê§Öµ;Èç¹ûÈ±Ê§ÖµÊÇ·ÇÊýÖµÐÍµÄ,Ôò¸ù¾Ý¸Ã±äÁ¿µÄÖÚÊýÌî³äÈ±
Ê§Öµ¡£Ê¹ÓÃ¾ùÖµ²å²¹·¨´¦Àí¼òµ¥,µ«È±µãÔÚÓÚËü½¨Á¢ÔÚÍêÈ«Ëæ»úÈ±Ê§µÄ¼ÙÉèÖ®ÉÏ,µ±È±Ê§
Êý¾Ý²»ÊÇËæ»ú³öÏÖÊ±»á²úÉúÆ«Îó,µ±È±Ê§±ÈÀý½Ï¸ßÊ±»á´íÎó¹À¼Æ¸Ã±äÁ¿µÄ·½²î¡£

¶àÖØ²å²¹·¨ÔÚÃæ¶Ô¸´ÔÓµÄÈ±Ê§ÖµÎÊÌâÊ±¾­³£Ê¹ÓÃ,Ëü²¢²»ÊÇÓÃµ¥Ò»ÖµÀ´Ìæ»»È±Ê§Öµ,¶ø
ÊÇÍ¨¹ý²»Í¬ÊýÑ§Ä£ÐÍ·´Ó³µÄ±äÁ¿¼ä¹ØÏµÀ´Ô¤²âÈ±Ê§Êý¾Ý,Éú³É¶à×é²å²¹,ÐÎ³É¶à×éÍêÕûÊý¾Ý
¼¯,ÔÙ¶ÔÕâÐ©Êý¾Ý¼¯½øÐÐ·ÖÎö,µÃµ½×î¼Ñ²å²¹Êý¾Ý¡£ÕâÐ©²Ù×÷Ê¹ÓÃRÓïÑÔµÄmice°üÊµÏÖ¡£

(3)Ê¹ÓÃ¶ÔÈ±Ê§Êý¾Ý²»Ãô¸ÐµÄ·ÖÎö·½·¨¡£
µ±È±Ê§ÖµÊýÁ¿²»´ó,²¢ÇÒ²ÉÓÃ¶ÔÈ±Ê§Êý¾Ý²»Ãô¸ÐµÄÊýÑ§Ä£ÐÍ½øÐÐ·ÖÎöÊ±,È±Ê§Öµ¿É²»
±ØÌØ±ð´¦Àí¡£

5.2 
´¦ÀíÒì³£Êý¾Ý
2.
Òì³£ÖµÒ²³ÆÀëÈºµã,ÊÇÖ¸Êý¾Ý²É¼¯ÖÐ³öÏÖµÄËæ»ú´íÎó»òÆ«²î,°üÀ¨´íÎóÖµºÍÆ«Àë¾ùÖµ


120RÓïÑÔ³ÌÐòÉè¼Æ
µÄ¹ÂÁ¢µã¡£ÔÚÊý¾Ý´¦ÀíÖÐ,Òì³£Öµ»á¼«´óµØÓ°Ïì»Ø¹é»ò·ÖÀàµÄÐ§¹û¡£ÎªÁË±ÜÃâÒì³£ÖµÔì
³ÉËðÊ§,ÐèÒªÔÚÊý¾ÝÔ¤´¦Àí½×¶Î½øÐÐÒì³£Öµ¼ì²â¡£ÔÚÒ»Ð©Ó¦ÓÃÖÐ,ÈçÖÊÁ¿¼ì²â,Òì³£Öµ¼ì
²âÒ²¿ÉÄÜÊÇÊý¾Ý´¦ÀíµÄÖ÷ÒªÄ¿±ê¡£
1.Òì³£ÖµµÄÅÐ±ð
¼ì²âÒì³£ÖµµÄ·½·¨°üÀ¨ÏäÏßÍ¼¡¢É¢µãÍ¼¡¢¾ÛÀàºÍ»Ø¹é·ÖÎöµÈ¡£
(1)Ê¹ÓÃÏäÏßÍ¼¼ì²âÀëÈºµã¡£
ÏäÏßÍ¼ÓÖ³ÆºÐÊ½Í¼»òÏäÐÎÍ¼,ÊÇÓÃÀ´ÏÔÊ¾Ò»×éÊý¾Ý·Ö²¼Çé¿öµÄÍ³¼ÆÍ¼,Ó¦ÓÃ¹ã·º, 
ÔÚÖÊÁ¿¹ÜÀíÖÐÓÈÎªÖØÒª¡£ÏäÏßÍ¼µÄ»æÖÆ·½·¨ÊÇ:Ê×ÏÈ,ÕÒ³öÒ»×éÊý¾ÝµÄÉÏ±ßÔµ¡¢ÏÂ±ß
Ôµ¡¢ÖÐÎ»ÊýºÍÁ½¸öËÄ·ÖÎ»Êý;È»ºó,Á¬½ÓÁ½¸öËÄ·ÖÎ»Êý»­³öÏäÌå,ÔÙ½«ÉÏ±ßÔµºÍÏÂ±ßÔµ
ÓëÏäÌåÏàÁ¬½Ó,ÖÐÎ»ÊýÔÚÏäÌåÖÐ¼ä¡£ÕâÑùÒì³£Öµ¾Í¿ÉÒÔÖ±¹ÛµØÏÔÊ¾³öÀ´,ÈçÍ¼5-2Ëù
Ê¾¡£ÔÚRÓïÑÔÖÐ,Ê¹ÓÃboxplot() º¯ÊýÀ´»æÖÆÏäÏßÍ¼,Ê¹ÓÃboxplot.stats() º¯ÊýÀ´¼ì²âÒì
³£Êý¾Ý¡£
Í¼5-
2 
Ê¹ÓÃÏäÏßÍ¼À´²é¿´Òì³£Öµ

(2)Ê¹ÓÃÉ¢µãÍ¼¼ì²âÀëÈºµã¡£
É¢µãÍ¼½«Êý¾ÝÖµÔÚÍ¼±íÖÐÒÔµãµÄÎ»ÖÃ±íÊ¾,Êý¾ÝµÄÀà±ð¿ÉÓÉÍ¼±íÖÐµãµÄ²»Í¬ÐÎ×´»ò
ÑÕÉ«±ê¼Ç,Í¨³£ÓÃÓÚ¿çÀà±ðµÄÊý¾Ý·Ö²¼±È½Ï,»òÕßºâÁ¿²»Í¬Êý¾ÝÀà±ð¼äµÄÏàËÆÐÔºÍ²îÒì
ÐÔ¡£ÔÚÉ¢µãÍ¼ÖÐ¿ÉÒÔÍ¨¹ýÀëÈºµãÀ´¼ì²âÒì³£Öµ¡£

(3)Ê¹ÓÃ¾ÛÀà·½·¨¼ì²âÒì³£Öµ¡£Îï(¡°) ÒÔÀà¾Û,ÈËÒÔÈº·Ö¡±,¾ÛÀàÊÇºÜÖØÒªµÄÒ»¸ö¸ÅÄî¡£ÔÚ×ÔÈ»¿ÆÑ§ºÍÉç»á¿ÆÑ§ÖÐ,´æÔÚ
×Å´óÁ¿µÄ·ÖÀàÎÊÌâ,¾ÛÀà²»µÈÓÚ·ÖÀà,¾ÛÀàËù»®·ÖµÄÀàÊÇÎ´ÖªµÄ,¾ÛÀà½«²»ÊôÓÚÈÎºÎÒ»Àà
µÄÊý¾Ý×÷ÎªÒì³£Öµ¡£ÔÚRÓïÑÔÖÐ,Í¨¹ý¾ÛÀàº¯ÊýÀ´ÕÒµ½¾ÛÀàµÄ¸öÊýºÍÏàÓ¦µÄ¾ÛÀàÖÐÐÄ
µã,È»ºóÍ¨¹ý¼ÆËãÃ¿¸öÑù±¾Êý¾Ýµ½¾ÛÀàÖÐÐÄµÄ×î´ó¾àÀëÀ´ÕÒµ½Òì³£Öµ(¼ûµÚ7ÕÂ)¡£

(4)»Ø¹é·ÖÎö¼ì²âÒì³£Öµ¡£
»Ø¹é·ÖÎöÊÇÒ»ÖÖÊýÑ§Ä£ÐÍ,ÓÃÀ´È·¶¨Á½ÖÖ»òÁ½ÖÖÒÔÉÏ±äÁ¿¼äÏà»¥ÒÀÀµµÄ¶¨Á¿¹ØÏµ¡£
ÔÚ´óÊý¾Ý·ÖÎöÖÐ,»Ø¹é·ÖÎöÊÇÒ»ÖÖÔ¤²âÐÔµÄ½¨Ä£¼¼Êõ,ÓÃÓÚÔ¤²â·ÖÎö¡¢·¢ÏÖ±äÁ¿Ö®¼äµÄÒò
¹û¹ØÏµµÈ¡£ÔÚRÓïÑÔÖÐ,¿ÉÊ¹ÓÃ»Ø¹éº¯Êý½áºÏÉ¢µãÍ¼À´¼ì²âÒì³£Öµ(¼ûµÚ6ÕÂ)¡£


µÚ5ÕÂ Êý¾ÝÌ½Ë÷1 21 
2.Òì³£ÖµµÄ´¦Àí
¶Ô¼ì²â³öÀ´µÄÒì³£Öµ,¿ÉÒÔ°´ÕÕ±í5-4µÄ·½·¨½øÐÐ´¦Àí¡£
±í5-4 ³£ÓÃÒì³£Öµ´¦Àí·½·¨
Òì³£Öµ´¦Àí·½·¨Ãè Êö
É¾³ýº¬ÓÐÒì³£ÖµµÄ¼ÇÂ¼Ö±½Ó½«º¬ÓÐÒì³£ÖµµÄÑù±¾É¾³ý
ÊÓÎªÈ±Ê§Öµ½«Òì³£ÖµÊÓÎªÈ±Ê§Öµ,ÀûÓÃÈ±Ê§Öµ´¦ÀíµÄ·½·¨½øÐÐ´¦Àí
Æ½¾ùÖµÐÞÕý¿ÉÓÃÇ°ºóÁ½¸ö¹Û²âÖµµÄÆ½¾ùÖµÐÞÕý¸ÃÒì³£Öµ
²»´¦ÀíÖ±½ÓÊ¹ÓÃÓÐÒì³£ÖµµÄÊý¾Ý¼¯
5.2.3 ´¦ÀíÖØ¸´Êý¾Ý
RÓïÑÔÖÐµÄÊý¾ÝÖØ¸´¼ì²âº¯ÊýÖ÷ÒªÓÐunique()ºÍduplicated():unique()ÓÃÓÚÎªÏò
Á¿Êý¾ÝÈ¥µôÖØ¸´Öµ;duplicated()ÓÃÓÚÏòÁ¿»òÊý¾Ý¿ò,·µ»ØÒ»¸öTRUEºÍFALSEµÄÏòÁ¿, 
±ê×¢¸ÃË÷ÒýËù¶ÔÓ¦µÄÖµÊÇ·ñÊÇÖØ¸´Öµ¡£
.. 5.3 Êý¾Ý¼¯³É
´Ó¶àÖÖÍ¾¾¶¡¢¶àÖÖ·½Ê½µÃµ½µÄÊý¾Ý¸ñÊ½¶àÖÖ¶àÑù,ÐèÒª¶ÔÕâÐ©Êý¾ÝÕûÀí²ÅÄÜ½øÐÐÓÐÐ§
·ÖÎö¡£Êý¾Ý¼¯³É°üÀ¨·Ö×é»ã×Ü¡¢Í¸ÊÓ±íÉú³ÉµÈ¹¤×÷,Èç¹ûÊý¾Ý·ÖÉ¢ÔÚ¶à¸öµØ·½,ÔòÐèÒª½ø
ÐÐÊý¾Ý¼¯µÄºÏ²¢,°üÀ¨ºáÏòºÏ²¢ºÍ×ÝÏòºÏ²¢¡£Êý¾Ý¼¯³É¿ÉÒÔ¸ÄÉÆÊý¾ÝµÄÍâ¹Û,ÊÇ»æÖÆÍ¼
ÐÎ¡¢Í³¼Æ·ÖÎö¡¢Êý¾ÝÍÚ¾òÇ°±ØÒªµÄÔ¤´¦Àí²½Öè¡£
5.3.1 Êý¾Ý¼¯µÄºÏ²¢
¶à¸öÊý¾Ý¼¯°´ÕÕÓ¦ÓÃÐèÇó½øÐÐºáÏòºÍ×ÝÏòµÄºÏ²¢¡£ºáÏòºÏ²¢Ö¸µÄÊÇÁ½¸öÊý¾Ý¼¯(Êý
¾Ý¿ò)ºÏ²¢ÎªÒ»¸ö¾ßÓÐ¸ü¶à±äÁ¿µÄÊý¾Ý¼¯,Ö÷ÒªÊ¹ÓÃmerge()»òcbind()º¯Êý¡£ºÏ²¢Ö®Ç°, 
¸ù¾ÝÐèÒªÕÒµ½Á½¸öÊý¾Ý¿òµÄ¹«¹²Ë÷Òý,Ò²³ÆÎªÁª½á±äÁ¿,Áª½á±äÁ¿Í¨³£ÊÇÒ»¸ö»ò¶à¸ö¹²ÓÐ
±äÁ¿¡£ÀýÈç,µ±±í1ºÍ±í2¶¼ÓÐIDÕâ¸öÁÐ±äÁ¿ÇÒº¬ÒåÏàÍ¬Ê±,¿ÉÒÔ¸ù¾ÝID½øÐÐºÏ²¢,Õâ
ÑùÐÂµÄÊý¾Ý¿ò¾Í°ÑÏàÍ¬IDµÄ¶àÁÐÊý¾Ý½øÐÐÁËºáÏòºÏ²¢¡£µ±Ã»ÓÐ»ò²»ÐèÒª¹«¹²Ë÷ÒýÊ±,¿É
ÒÔÊ¹ÓÃcbind()º¯Êý,ºÏ²¢Ç°ÐèÒªÈ·ÈÏÁ½¸öÊý¾Ý¿ò¶ÔÏóÊÇ·ñÓµÓÐÏàÍ¬µÄÐÐÊýÒÔ¼°ÏàÍ¬Ë³Ðò
ÅÅÐò¡£×Ý
ÏòºÏ²¢Ö¸µÄÊÇÁ½¸öÊý¾Ý¼¯(Êý¾Ý¿ò)ºÏ²¢Îª¸ü¶àÐÐµÄÊý¾Ý¼¯,¿ÉÒÔÊ¹ÓÃrbind()º¯
Êý,ºÏ²¢Ç°ÐèÒªÈ·ÈÏÁ½¸öÊý¾Ý¼¯¾ßÓÐÏàÍ¬µÄÁÐ±äÁ¿,ËüÃÇµÄË³Ðò²»Ò»¶¨ÏàÍ¬¡£ÈôÁ½¸öÊý¾Ý
¼¯µÄÁÐÊýÁ¿²»Í¬,ÔÚ×ÝÏòºÏ²¢Ê±»á×öÏàÓ¦´¦Àí,ÀýÈçÉ¾³ý¶àÓàµÄÁÐ,»ò×·¼ÓÁÐ²¢½«ÆäÖµÉè
ÎªNA¡£ 
>Totalframe1 <- merge(dataframe1, dataframe2, by="ID") #ºáÏòºÏ²¢

1 22 R ÓïÑÔ³ÌÐòÉè¼Æ 
>Totalframe2 <- cbind(dataframe1, dataframe2) #ºáÏòºÏ²¢
>Totalframe3 <- rbind(dataframe1, dataframe2) #×ÝÏòºÏ²¢
5.3.2 Êý¾Ý×Ó¼¯µÄ»ñÈ¡
ÔÚºÜ¶àÊý¾Ý¼¯³É¹¤×÷ÖÐ,Í¨¹ýÐÐºÍÁÐ(Ñù±¾ºÍ±äÁ¿)µÄÔö¼Ó¡¢É¾³ý¡¢ÐÞ¸ÄµÈ²Ù×÷,¿ÉÒÔÊ¹
Êý¾Ý¸üÇåÎú,¸üÈÝÒ×½øÐÐºóÐøµÄÍ³¼Æ·ÖÎö¡£RÓïÑÔ¾ßÓÐÇ¿´óµÄË÷ÒýÌØÐÔ,µÚ2ÕÂ½éÉÜÁË¸÷
Êý¾Ý¶ÔÏóµÄË÷Òý·½·¨,ÀýÈç,Ê¹ÓÃ[row,col]µÄ·½Ê½Ñ¡ÔñÐÐºÍÁÐ;Í¨¹ý¡°!¡±²Ù×÷·û¡¢NULL 
¸³ÖµµÈ·½Ê½À´ÌÞ³ýÄ³ÐÐºÍÁÐ;Í¨¹ýÂß¼­±È½Ï¡°==¡±¡¢¡°>¡±¡¢ÒÔ¼°¡°TRUE¡±¡°FALSE¡±µÈ×é
³ÉÂß¼­±í´ïÊ½À´Ñ¡È¡Êý¾Ý¡£ÕâÐ©Ë÷Òý·½·¨¿É¿ìËÙ·ÃÎÊ¶ÔÏóÖÐµÄÔªËØ,¶Ô±äÁ¿»òÑù±¾½øÐÐ
Ñ¡ÈëºÍÅÅ³ý¡£
³ý´ËÖ®Íâ,»¹¿ÉÒÔÊ¹ÓÃº¯Êý½øÐÐÊý¾Ý×Ó¼¯µÄ»ñÈ¡¡£subset()º¯ÊýÊÇÒ»¸ö¼òµ¥¡¢Áé»îµÄ
Í¨ÓÃº¯Êý,ËüÍ¨¹ýÂß¼­±í´ïÊ½È·¶¨Ñ¡È¡µÄÑù±¾,Í¨¹ýselect²ÎÊýÑ¡Ôñ±äÁ¿¡£ÒÔmtcarsÊý
¾Ý¼¯ÎªÀý,Ê¾ÀýÈçÏÂ¡£ 
> subset(mtcars, cyl == 4 & gear == 3) 
mpg cyl disp hp drat wt qsec vs am gear carb 
Toyota Corona 21.5 4 120.1 97 3.7 2.465 20.01 1 0 3 1 
> subset(mtcars, cyl == 4 & gear == 3, select = c(1:8)) 
mpg cyl disp hp drat wt qsec vs 
Toyota Corona 21.5 4 120.1 97 3.7 2.465 20.01 1 
transform()ºÍwithin()º¯ÊýÖ÷Òª¶ÔÁÐ±äÁ¿½øÐÐ²Ù×÷¡£transform()º¯Êý¿ÉÒÔÔÚÔ­Êý
¾Ý¿ò»ù´¡ÉÏÔö¼Ó»òÐÞ¸ÄÁÐ±äÁ¿Éú³ÉÒ»¸öÐÂµÄÊý¾Ý¿ò,»òÕßÍ¨¹ýNULL¸³ÖµµÄ·½Ê½É¾³ýÁÐ
±äÁ¿,»¹¿ÉÒÔ½«¶à¸öÁÐ±äÁ¿Ìæ»»ÎªÒ»Ð©ÃèÊöÐÔÍ³¼ÆÖµ,±ãÓÚ½øÒ»²½µÄ´¦Àí¡£within()º¯Êý
Ôò²»½ö¿ÉÒÔÓ¦ÓÃÓÚÊý¾Ý¿ò,»¹¿ÉÒÔÊ¹ÓÃÆäËûÀàÐÍµÄÊý¾Ý,¸üÎªÁé»î¡£ÒÔairqualityÊý¾Ý¼¯
ÎªÀý,Ê¾ÀýÈçÏÂ¡£ 
> head(airquality, 2) 
Ozone Solar.R Wind Temp Month Day 
1 41 190 7.4 67 5 1 
2 36 118 8.0 72 5 2 
> newaq1 <- transform(airquality, logozone = log(Ozone)) 
> head(newaq1, 2) 
Ozone Solar.R Wind Temp Month Day logozone 
1 41 190 7.4 67 5 1 3.713572 
2 36 118 8.0 72 5 2 3.583519 
> newaq2 <- transform(airquality, logozone = log(Ozone), Ozone = NULL, 
WindWind = Wind*Wind, Wind = NULL) 
> head(newaq2, 2) 
Solar.R Temp Month Day logozone WindWind