µÚ5ÕÂ
CHAPTER 5


·ÇÏßÐÔÅÐ±ð·ÖÎö





ÔÚºÜ¶àÇé¿öÏÂ£¬Êý¾Ý·Ö²¼Çé¿ö¸´ÔÓ£¬Ñù±¾¼¯·ÇÏßÐÔ¿É·Ö£¬½øÐÐÏßÐÔÅÐ±ð·ÖÎö»áÓÐ½Ï¸ßµÄ´íÎóÂÊ£¬¿ÉÒÔÀûÓÃ·ÇÏßÐÔÅÐ±ðÊµÏÖ·ÖÀà¡£·ÇÏßÐÔÅÐ±ð·ÖÎö²¢Ã»ÓÐÌØ¶¨º¯ÊýÐÎÊ½£¬Òò´Ë²»ÊÊºÏ²ÉÓÃÀàËÆÓÚÏßÐÔÅÐ±ðº¯ÊýÉè¼ÆµÄ²ÎÊý¹À¼Æ·½·¨¡£²»Í¬µÄÉè¼ÆË¼Â·²úÉú²»Í¬µÄ·½·¨£¬±¾ÕÂÖ÷ÒªÑ§Ï°³£¼ûµÄ¼¸ÖÖ·ÇÏßÐÔÅÐ±ð·ÖÎö·½·¨£¬°üÀ¨½üÁÚ·¨¡¢¶þ´ÎÅÐ±ðº¯ÊýÉè¼Æ¡¢¾ö²ßÊ÷·½·¨¡¢Logistic»Ø¹é¡£
5.1½üÁÚ·¨
½üÁÚ·¨ÊÇÒ»ÖÖ¾­µäµÄ·ÇÏßÐÔÅÐ±ð·ÖÎö·½·¨£¬²ÉÓÃ¾àÀë¶ÈÁ¿×÷ÎªÅÐ±ðº¯Êý£¬Ö±½Ó¸ù¾ÝÑµÁ·Ñù±¾¶ÔÎ´ÖªÀà±ðÑù±¾½øÐÐ·ÖÀà¾ö²ß¡£Ê×ÏÈÁË½âÀûÓÃ¾àÀë¶ÈÁ¿½øÐÐÅÐ±ðµÄº¬Òå£¬ÔÙ½éÉÜ½üÁÚ·¨¾ö²ß¹æÔò¡£
5.1.1×îÐ¡¾àÀë·ÖÀàÆ÷
¾àÀë¶ÈÁ¿ÊÇÄ£Ê½Ê¶±ðÖÐ³£ÓÃµÄ·½·¨£¬Èç¹ûÀà±ð¿É·Ö£¬ÔòÍ¬Ò»ÀàÑù±¾²î±ðÏà¶Ô½ÏÐ¡£¬²»Í¬ÀàµÄÑù±¾²î±ðÏà¶Ô½Ï´ó£¬²î±ð¿ÉÒÔ²ÉÓÃÊý¾Ý¼äµÄ¾àÀëÀ´ºâÁ¿£¬Òò´Ë£¬¿ÉÒÔÉè¼Æ»ùÓÚ¾àÀëµÄ·ÖÀàÆ÷¡£
¶ÔÓÚÁ½ÀàÇé¿ö£¬ÉèÁ½Àà¦Ø1¡¢¦Ø2¸÷×ÔµÄ¾ùÖµÏòÁ¿Îª¦Ì1¡¢¦Ì2£¬´ý·ÖÀàÑù±¾Îªx£¬¼ÆËãxµ½Á½Àà¾ùÖµµÄ¾àÀë£¬½«x¹éÎª¾àÀëÐ¡µÄÄÇÒ»Àà£¬¼´


Í¼5ª²1Á½ÀàµÄ×îÐ¡¾àÀë·ÖÀàÆ÷



Èôg(x)=¡¬x-¦Ì1¡¬2-¡¬x-¦Ì2¡¬2ªû0£¬x¡Ê¦Ø1

¦Ø2(5ª²1)



Ôò·ÖÀà¾ö²ßÃæÎª¦Ì1¡¢¦Ì2Á¬ÏßµÄ´¹Ö±Æ½·ÖÃæ£¬ÈçÍ¼5ª²1ËùÊ¾¡£

¶ÔÓÚÕýÌ¬·Ö²¼Ä£Ê½µÄ±´Ò¶Ë¹¾ö²ß£¬ÔÚÑù±¾¼¯·Ö²¼³ÊÏÖÌØÊâÇé¿ö(P(¦Øi)=P(¦Øj)£¬¦²j=¦Ò2I£¬i,j=1,2,¡­,c)Ê±£¬Éè¼ÆµÄÅÐ±ðº¯ÊýÎª×îÐ¡¾àÀë·ÖÀàÆ÷(¼û2.7½Ú)¡£
Èç¹ûÊÇ¶àÀàÇé¿ö£¬Ôò¶¨Òå¸÷ÀàµÄÅÐ±ðº¯ÊýÎª

gj(x)=¡¬x-¦Ìj¡¬2£¬j=1,2,¡­,c(5ª²2)

¾ö²ßÊ±£¬ÄÄÒ»ÀàµÄÅÐ±ðº¯Êý(¾àÀë)×îÐ¡£¬Ôò¾ö²ßÎªÄÄÒ»Àà£¬¼´¾ö²ß¹æÔòÎª

Èôgi(x)£¼gj(x)£¬ªÐi¡Ùj£¬i,j=1,2,¡­,c£¬Ôòx¡Ê¦Øi(5ª²3)

ºÜÃ÷ÏÔ£¬×îÐ¡¾àÀë·ÖÀàÆ÷½öÊÊÓÃÓÚÀà±ðÏßÐÔ¿É·ÖÇÒÀà¼äÓÐÃ÷ÏÔ¾àÀëµÄÌØÊâÇé¿ö£¬µ«ÓÃ¾ùÖµµã×÷ÎªÀàµÄ´ú±íµã£¬ÓÃ¾àÀë×÷ÎªÅÐ±ðº¯ÊýµÄË¼Â·ºÜÓÐÆô·¢ÐÔ¡£
5.1.2·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷
Í¼5ª²2ËùÊ¾ÎªÕý³£ÑªÑ¹ºÍ¸ßÑªÑ¹Êý¾Ý£¬²ÉÓÃ×îÐ¡¾àÀë·ÖÀàÆ÷£¬Éè¼ÆµÄ·Ö½çÃæµ¼ÖÂºÜ¶àÊý¾Ý±»´í·ÖÀà£¬ÈçÍ¼5ª²2(a)ËùÊ¾¡£½«¸ßÑªÑ¹Êý¾Ý·ÖÎª3¸ö×ÓÀà£¬¸÷×ÓÀà¾ùÖµµã×÷Îª¸Ã×ÓÀàµÄ´ú±íµã£¬¾àÀë×÷ÎªÅÐ±ðº¯Êý£¬Éè¼Æ¶àÀàÇé¿öÏÂµÄ×îÐ¡¾àÀë·ÖÀàÆ÷£¬µÃµ½µÄ·Ö½çÃæÓÉ¶à¶ÎÏßÐÔ·Ö½çÃæ×é³É£¬ÈçÍ¼5ª²2(b)ËùÊ¾¡£







Í¼5ª²2·ÇÏßÐÔ¿É·ÖÇé¿öÏÂ¾àÀë·ÖÀàÆ÷Ê¾Àý


¶ÔÓÚÀà±ðÊý¾Ý³ÊÏÖ¶à·å·Ö²¼µÄÇé¿ö£¬½«Ã¿Àà»®·ÖÎªÈô¸É×ÓÀà£¬ÑéÖ¤´ý·ÖÀàÑù±¾xµ½¦ØjÀà¸÷×ÓÀà¾ùÖµµÄ¾àÀë£¬×îÐ¡µÄ¾àÀë×÷Îª¸ÃÀàµÄÅÐ±ðº¯ÊýÖµ£¬½«Ñù±¾¹éÈë×î½üµÄ×ÓÀàËùÊôµÄÀà±ð£¬ÕâÖÖ·ÖÀàÆ÷³ÆÎª·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷¡£
·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷µÄÅÐ±ðº¯Êý±íÊ¾Îª

gj(x)=minl=1,2,¡­,cj¡¬x£­¦Ìlj¡¬£¬j=1,2,¡­,c(5ª²4)

cjÎª¦ØjÀàµÄ×ÓÀàÊýÄ¿¡£
·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷µÄ¾ö²ß¹æÔòÎª

Èôgi(x)=minj=1,2,¡­,cgj(x)£¬Ôòx¡Ê¦Øi(5ª²5)

·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷·ÖÀàÐ§¹ûÓë×ÓÀàµÄ»®·ÖÓÐÃÜÇÐ¹ØÏµ£¬Èç¹û¶ÔÑù±¾Ã»ÓÐ³ä×ãµÄÏÈÑéÖªÊ¶£¬×ÓÀà»®·Ö²»Ò»¶¨ºÏÀí£¬Ôò»áÓ°Ïì·ÖÀàµÄÐ§¹û¡£
5.1.3½üÁÚ·¨¼°·ÂÕæÊµÏÖ
1. ×î½üÁÚ·¨

½«·Ö¶ÎÏßÐÔ¾àÀë·ÖÀàÆ÷µÄÉè¼ÆË¼Â··¢Õ¹µ½¼«¶Ë£¬°ÑÃ¿¸öÑù±¾µã¶¼×÷ÎªÒ»¸ö×ÓÀà£¬¼ÆËã¸÷µãÓë´ý²âÑù±¾xµÄ¾àÀë£¬½«x¹éÈë¾àÀë×î½üµÄµãËùÔÚµÄÀà£¬ÕâÖÖ·½·¨³ÆÎª×î½üÁÚ·¨(Nearest Neighbor£¬NN)¡£
×î½üÁÚ·¨µÄÅÐ±ðº¯ÊýÈçÊ½(5ª²4)ËùÊ¾£¬½ö½«±äÁ¿cjÐÞ¸ÄÎª¦ØjÀàµÄÑù±¾ÊýÄ¿Nj£» ¾ö²ß¹æÔòÈçÊ½(5ª²5)ËùÊ¾£¬²»ÔÙ×¸Êö¡£
Ê½(5ª²4)¼ÆËãµÄÊÇÅ·ÊÏ¾àÀë£¬Ò²¿ÉÒÔ²ÉÓÃ²»Í¬µÄ¾àÀë¶ÈÁ¿£¬»òÕß²ÉÓÃÏàËÆÐÔ¶ÈÁ¿(¼û7.2½Ú)£¬°Ñ×îÐ¡¾àÀë±ä¸üÎª×î´óÏàËÆ¶ÈÁ¿£¬È·¶¨×î½üÁÚ£¬ÊµÏÖ·ÖÀà¡£
ÓÉÓÚ°ÑÃ¿¸öÑù±¾µã¶¼×÷ÎªÒ»¸ö×ÓÀà£¬Òò´Ë×î½üÁÚ·¨µÄ¾ö²ßÃæÓÉ²»Í¬ÀàÑù±¾µã¼äÁ¬ÏßµÄ´¹Ö±Æ½·ÖÃæ¹¹³É£¬ÅÐ±ðº¯ÊýÊÇ·Ö¶ÎÏßÐÔÅÐ±ðº¯Êý(Piecewise Linear Discriminant Function)¡£
2. k½üÁÚ·¨
×î½üÁÚ·¨¸ù¾Ý¾àÀë´ý²âÑù±¾×î½üµÄÒ»¸öÑù±¾µÄÀà±ð½øÐÐ¹éÀà£¬ÈÝÒ×ÊÜµ½Ñù±¾·Ö²¼ÒÔ¼°ÔëÉùµÄÓ°Ïì£¬µ¼ÖÂ¾ö²ß´íÎó£¬Òò´Ë£¬ÒýÈëÍ¶Æ±»úÖÆ£¬Ñ¡Ôñ¾àÀë´ý²âÑù±¾×î½üµÄk¸öÑù±¾£¬½«´ý²âÑù±¾¹éÈë¶àÊý½üÁÚËùÔÚµÄÀà±ð£¬³ÆÎªk½üÁÚ·¨(kNN)£¬×î½üÁÚ·¨Êµ¼ÊÊÇk=1µÄÌØÀý¡£
kÖµÐèÒª¸ù¾ÝÑù±¾Çé¿ö½øÐÐÑ¡Ôñ£¬Í¨³£Ñ¡ÔñÑù±¾×ÜÊýµÄÒ»¸öºÜÐ¡µÄ±ÈÀý¼´¿É¡£Á½ÀàÇé¿öÏÂ£¬Ò»°ãÑ¡ÔñkÎªÆæÊý£¬±ÜÃâÁ½ÀàµÃÆ±ÏàµÈ¡£
k½üÁÚ·¨(º¬×î½üÁÚ·¨)¼òµ¥Ò×ÓÚ¾ö²ß£¬¸ù¾ÝÒÑÖªÀà±ðµÄÑù±¾Ö±½Ó¶Ô´ý²âÑù±¾½øÐÐ¾ö²ß£¬²»ÐèÒªÊÂÏÈÑµÁ·³öÒ»¸öÅÐ±ðº¯Êý£¬ÔÚÑµÁ·Ñù±¾Ç÷ÓÚÎÞÇîÊ±½Ó½ü×îÓÅ£¬µ«¼ÆËãÁ¿´ó£¬ºÄÊ±´ó£¬Ã»ÓÐ¿¼ÂÇ¾ö²ßµÄ·çÏÕ¡£
¡¾Àý5ª²1¡¿¶ÔÑù±¾¼¯¦Ø1£º 1

0,0

1,0

-1£¬¦Ø2£º 0

0,0

2,0

-2,-2

0½øÐÐÏÂÁÐ´¦Àí¡£
(1) ²ÉÓÃÑù±¾¾ùÖµ×÷ÎªÁ½ÀàµÄ´ú±íµã£¬°´×îÐ¡¾àÀë·¨·ÖÀà£» 
(2) ¶ÔÑù±¾x=£Û12£ÝT£¬°´×î½üÁÚ·¨·ÖÀà£» 
(3) ¶Ôx=£Û12£ÝT°´3½üÁÚ·¨·ÖÀà¡£
½â£º (1) ¦Ì1=£Û1/30£ÝT¡¢¦Ì2=£Û-1/20£ÝT£¬¦Ì1ºÍ¦Ì2Á¬ÏßµÄ´¹Ö±Æ½·ÖÏßÎªx1=-1/12¡£
(2) g1(x)=min{2,2,10}=2£¬g2(x)=min{5,1,17,13}=1¡£
ÒòÎª
g1(x)£¾g2(x)
ËùÒÔ
x¡Ê¦Ø2
(3) ×î½üµÄÈý¸ö¾àÀëÎª1¡¢2¡¢2£¬¶ÔÓ¦µÄ3¸ö½üÁÚÎª£Û02£ÝT¡¢£Û01£ÝT¡¢£Û10£ÝT£¬3¸ö½üÁÚÖÐÓÐ2¸öÊôÓÚ¦Ø1Àà£¬ËùÒÔx¡Ê¦Ø1¡£
¡¾Àý5ª²2¡¿µ¼ÈëfisheririsÊý¾Ý¼¯£¬¸ù¾ÝÔ­ÀíÉè¼Æ³ÌÐò¶ÔÑù±¾£Û5.52.341.3£ÝT½øÐÐ×î½üÁÚÒÔ¼°5½üÁÚÅÐ±ð¡£
Éè¼ÆË¼Â·£º 
¼ÆËã´ý²âÑù±¾ÓëËùÓÐÑù±¾Ö®¼äµÄ¾àÀë£¬½«¾àÀëÅÅÐò£¬ÕÒ×îÐ¡¾àÀëºÍÇ°5¸ö×îÐ¡¾àÀë£¬¶ÔÓ¦µÄÑù±¾Àà±ð¼´Îª·ÖÀàÀà±ð¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

load fisheriris;

X=£Û5.5,2.3,4,1.3£Ý;k=5;

N=length(meas);

distance=pdist2(X,meas);                %¼ÆËã´ý²âÑù±¾ºÍ¸÷Ñù±¾Ö®¼äµÄÅ·ÊÏ¾àÀë

£ÛD,index£Ý=sort(distance);               %¾àÀëÉýÐòÅÅÐò

disp('×î½üÁÚ¹éÀà£º');celldisp(species(index(1)));   %Êä³ö×î½üÁÚËùÔÚµÄÀà

n1=sum(count(species(index(1:k)),'setosa'));

n2=sum(count(species(index(1:k)),'versicolor'));

n3=sum(count(species(index(1:k)),'virginica'));  %¼ÆËãÇ°k¸ö½üÁÚÖÐ¸÷ÀàµÄ¸öÊý

if n1>n2 && n1>n3

disp('k½üÁÚ¹éÀà£ºsetosa');

elseif n2>n1 && n2>n3

disp('k½üÁÚ¹éÀà£ºversicolor');

else 

disp('k½üÁÚ¹éÀà£ºvirginica');

end

ÔËÐÐ³ÌÐò£¬ÔÚÃüÁî´°¿ÚÊä³ö¶Ô´ý²âÑù±¾¹éÀàµÄ½á¹û£º 

×î½üÁÚ¹éÀà£º

ans{1} = versicolor

k½üÁÚ¹éÀà£º

versicolor

3. ½üÁÚ·¨µÄ¿ìËÙËã·¨
½üÁÚ·¨ÔÚÑù±¾ÊýÄ¿½Ï¶àÊ±È¡µÃºÃµÄÐÔÄÜ£¬µ«¼ÆËã´ý²âÑù±¾Óë´óÁ¿ÑµÁ·Ñù±¾Ö®¼äµÄ¾àÀë£¬¼ÆËãÁ¿´ó£¬µ¼ÖÂËã·¨Ð§ÂÊ½µµÍ£¬Òò´ËÐèÒª¿ìËÙËã·¨¡£KdÊ÷±¾ÊéÍ³Ò»ÓÃn±íÊ¾Ñù±¾Î¬Êý£¬¶øKdÊ÷µÄK±íÊ¾Î¬Êý£¬´Ë´¦Óë×ÊÁÏÉÏµÄÃû³Æ±£³ÖÒ»ÖÂ£¬×¢ÒâÓëkNNÖÐkµÄÇø±ð¡£(K Dimensional Tree)ÊÇÒ»ÖÖ¶ÔKÎ¬¿Õ¼äÖÐµÄµã½øÐÐ´æ´¢ÒÔ±ã¶ÔÆä½øÐÐ¿ìËÙËÑË÷µÄ¶þ²æÊ÷½á¹¹£¬ÀûÓÃKdÊ÷¿ÉÒÔÊ¡È¥¶Ô´ó²¿·ÖÊý¾ÝµãµÄËÑË÷£¬´Ó¶ø¼õÉÙËÑË÷µÄ¼ÆËãÁ¿¡£
1) KdÊ÷µÄ¹¹½¨
È¡Êý¾ÝµÄÄ³Ò»Î¬£¬½«Êý¾Ý´ÓÐ¡µ½´óÅÅÐò£¬ÒÔÊý¾ÝµãÔÚ¸ÃÎ¬¶ÈµÄÖÐÖµ×÷ÎªÇÐ·Ö³¬Æ½Ãæ£¬½«¸ÃÎ¬Ò»·ÖÎª¶þ£¬Ð¡ÓÚ¸ÃÖÐÖµµÄÊý¾Ýµã¹ÒÔÚÆä×ó×ÓÊ÷£¬´óÓÚ¸ÃÖÐÖµµÄÊý¾Ýµã¹ÒÔÚÆäÓÒ×ÓÊ÷¡£ÔÙ°´Í¬ÑùµÄ·½Ê½ÇÐ·ÖÁíÒ»Î¬£¬Ö±µ½ËùÓÐÎ¬¶È´¦ÀíÍê±Ï¡£
¡¾Àý5ª²3¡¿¶Ô¶þÎ¬Æ½Ãæµã¼¯ºÏ{£Û23£ÝT,£Û54£ÝT,£Û96£ÝT,£Û47£ÝT,£Û81£ÝT,£Û72£ÝT}¹¹½¨KdÊ÷¡£
½â£º (1) Ñ¡ÔñÒªÇÐ·ÖµÄÎ¬¶È¡£·Ö±ð¼ÆËãx1Î¬ºÍx2Î¬µÄ·½²î£¬Ñ¡Ôñ·½²î´óµÄx1Î¬×öÇÐ·Ö¡£
(2) ÇÐ·Öx1Î¬¡£
°´Êý¾Ýx1Î¬µÄÊýÖµÅÅÐò£º 2¡¢4¡¢5¡¢7¡¢8¡¢9¡£
È·¶¨ÖÐÖµ£º 7(2¡¢4¡¢5¡¢7¡¢8¡¢9µÄÖÐÖµÎª(5+7)/2=6£¬ÓÉÓÚÖÐÖµÐèÔÚµã¼¯ºÏÖ®ÄÚ£¬È¡ºóÒ»¸ö7)¡£
È·¶¨½Úµã£º £Û72£ÝT¡£
·Ö¸î¿Õ¼ä£º ÒÔx1=7½«x1Î¬Ò»·ÖÎª¶þ£¬£Û23£ÝT¡¢£Û47£ÝT¡¢£Û54£ÝT¹ÒÔÚ£Û72£ÝT½ÚµãµÄ×ó×ÓÊ÷£¬£Û81£ÝT¡¢£Û96£ÝT¹ÒÔÚ£Û72£ÝT½ÚµãµÄÓÒ×ÓÊ÷¡£
(3) ÇÐ·Öx2Î¬¡ª¡ª£Û72£ÝT½ÚµãµÄ×ó×ÓÊ÷¡£
°´Êý¾Ýx2Î¬µÄÊýÖµÅÅÐò£º 3¡¢4¡¢7¡£
È·¶¨ÖÐÖµ£º 4¡£
È·¶¨½Úµã£º £Û54£ÝT¡£
·Ö¸î¿Õ¼ä£º ÒÔx2=4½«£Û72£ÝT½ÚµãµÄ×ó±ß¿Õ¼äÒ»·ÖÎª¶þ£¬£Û23£ÝT¹ÒÔÚ£Û54£ÝT½ÚµãµÄ×ó×ÓÊ÷£¬£Û47£ÝT¹ÒÔÚ£Û54£ÝT½ÚµãµÄÓÒ×ÓÊ÷¡£
(4) ÇÐ·Öx2Î¬¡ª¡ª£Û72£ÝT½ÚµãµÄÓÒ×ÓÊ÷¡£
°´Êý¾Ýx2Î¬µÄÊýÖµÅÅÐò£º 1¡¢6¡£
È·¶¨ÖÐÖµ£º 6¡£
È·¶¨½Úµã£º £Û96£ÝT¡£
·Ö¸î¿Õ¼ä£º ÒÔx2=6½«£Û72£ÝT½ÚµãµÄÓÒ±ß¿Õ¼äÒ»·ÖÎª¶þ£¬£Û81£ÝT¹ÒÔÚ£Û96£ÝT½ÚµãµÄ×ó×ÓÊ÷¡£
KdÊ÷¹¹½¨Íê³É£¬¶Ô¶þÎ¬¿Õ¼äµÄÇÐ·ÖÈçÍ¼5ª²3(a)ËùÊ¾£¬¹¹½¨µÄKdÊ÷ÈçÍ¼5ª²3(b)ËùÊ¾¡£


Í¼5ª²3KdÊ÷µÄ¹¹½¨


2) ×î½üÁÚËÑË÷
¸ø¶¨µãx£¬²éÑ¯Êý¾Ý¼¯ÖÐÓëÆä¾àÀë×î½üµãµÄ¹ý³Ì¼´Îª×î½üÁÚËÑË÷£¬²ÉÓÃKdÊ÷ÊµÏÖ¡£¹ý³ÌÈçÏÂ£º 
(1) ÔÚKdÊ÷ÖÐÕÒ³ö°üº¬Ä¿±êµãxµÄÒ¶½Úµã¡£
´Ó¸ù½Úµã³ö·¢£¬ÏòÏÂ·ÃÎÊKdÊ÷£¬Èç¹ûxµ±Ç°Î¬µÄ×ø±êÐ¡ÓÚÇÐ·ÖµãµÄ×ø±ê£¬ÔòÒÆ¶¯µ½×ó×Ó½Úµã£¬·ñÔòÒÆ¶¯µ½ÓÒ×Ó½Úµã£¬Ö±µ½Ò¶½ÚµãÎªÖ¹£¬ÒÔ´ËÒ¶½ÚµãÎª¡°µ±Ç°×î½üµã¡±¡£Ë³Ðò´æ´¢¾­¹ýµÄ½Úµã¡£
(2) °´´æ´¢Ë³ÐòÏòÉÏ»ØËÝ£¬ÔÚÃ¿¸ö½Úµã´¦½øÐÐÒÔÏÂ²Ù×÷£º 
¢Ù Èç¹ûµ±Ç°½Úµã±Èµ±Ç°×î½üµã¾àÀëËÑË÷µã¸ü½ü£¬Ôò¸üÐÂµ±Ç°×î½üµãÎªµ±Ç°½Úµã¡£
¢Ú ÒÔËÑË÷µãÎªÔ²ÐÄ£¬ÒÔµ±Ç°×î½üµãµ½ËÑË÷µãµÄ¾àÀëÎª°ë¾¶£¬È·¶¨Ô²£¬ÅÐ¶Ï¸ÃÔ²ÊÇ·ñÓë¸¸½ÚµãµÄ³¬Æ½ÃæÏà½»£» Èç¹ûÏà½»£¬Ôò½øÈë¸¸½ÚµãµÄÁíÍâÒ»²àËÑË÷×î½üÁÚ½Úµã£» Èç¹û²»Ïà½»£¬Ôò¼ÌÐøÏòÉÏ»ØËÝ¡£
µ±ËÑË÷µ½¸ù½ÚµãÊ±£¬ËÑË÷Íê³É£¬µÃµ½×î½üÁÚ½Úµã¡£
¡¾Àý5ª²4¡¿ÀûÓÃÀý5ª²3½¨ºÃµÄKdÊ÷ËÑË÷£Û24.5£ÝTµÄ×î½üÁÚ¡£
½â£º (1) ÔÚKdÊ÷ÖÐÕÒ³ö°üº¬Ä¿±êµãxµÄÒ¶½Úµã¡£´Ó¸ù½Úµã£Û72£ÝT³ö·¢£¬µ±Ç°Î¬Îªx1£¬2£¼7£¬ÒÆ¶¯µ½£Û72£ÝTµÄ×ó×Ó½Úµã£Û54£ÝT£» µ±Ç°Î¬¸üÐÂÎªx2£¬4.5£¾4£¬ÒÆ¶¯µ½£Û54£ÝTµÄÓÒ×Ó½Úµã£Û47£ÝT£» £Û47£ÝTÎªÒ¶½Úµã£¬ÉèÎªµ±Ç°×î½üµã£¬µ½´ýËÑË÷µã£Û24.5£ÝTµÄ¾àÀëÎª10.25¡£´æ´¢¾­¹ýµÄ½Úµã£¬¼´ËÑË÷Â·¾¶Îª£º £Û72£ÝT¡¢£Û54£ÝT¡¢£Û47£ÝT¡£
(2) ÏòÉÏ»ØËÝµ½£Û54£ÝT£¬£Û54£ÝTµ½´ýËÑË÷µã£Û24.5£ÝTµÄ¾àÀëÎª9.25£¬9.25£¼10.25£¬¸üÐÂµ±Ç°×î½üµãÎª£Û54£ÝT¡£
(3) ÒÔ£Û24.5£ÝTÎªÔ²ÐÄ¡¢ÒÔ9.25Îª°ë¾¶µÄÔ²ºÍ¸¸½Úµã£Û54£ÝTµÄ³¬Æ½Ãæx2=4Ïà½»£¬ÈçÍ¼5ª²4(a)ËùÊ¾£¬½øÈë£Û54£ÝTµÄÁíÒ»²à²éÕÒ£¬ÐÞ¸Äµ±Ç°µãÎª£Û23£ÝT£» ¸üÐÂËÑË÷Â·¾¶Îª£Û72£ÝT¡¢£Û23£ÝT¡£
(4) £Û23£ÝTµ½´ýËÑË÷µã£Û24.5£ÝTµÄ¾àÀëÎª2.25£¬2.25£¼9.25£¬¸üÐÂµ±Ç°×î½üµãÎª£Û23£ÝT¡£
(5) ÏòÉÏ»ØËÝµ½£Û72£ÝT£¬£Û72£ÝTµ½´ýËÑË÷µã£Û24.5£ÝTµÄ¾àÀë´óÓÚ2.25£¬²»ÐÞ¸Äµ±Ç°×î½üµã¡£
(6) ÒÔ£Û24.5£ÝTÎªÔ²ÐÄ¡¢ÒÔ2.25Îª°ë¾¶µÄÔ²ºÍ¸¸½Úµã£Û72£ÝTµÄÇÐ·ÖÆ½Ãæx1=7²»Ïà½»£¬ÈçÍ¼5ª²4(b)ËùÊ¾£¬ËÑË÷Íê³É£¬×î½üÁÚÎªµ±Ç°×î½üµã£Û23£ÝT¡£


Í¼5ª²4ÀûÓÃKdÊ÷ËÑË÷×î½üÁÚ


4. ·ÂÕæÊµÏÖ
½üÁÚ·¨Ô­Àí¼òµ¥£¬Ö÷ÒªÎÊÌâÔÚÓÚÈçºÎÌá¸ßËÑË÷Ð§ÂÊ¡£MATLABÖÐÌá¹©ÁËÏàÓ¦µÄËÑË÷º¯Êý£¬¶ÔÆä½øÐÐ¼òÒª½éÉÜ¡£
1) ExhaustiveSearcherÄ£ÐÍ
´æ´¢ÑµÁ·Êý¾Ý¡¢¾àÀë¶ÈÁ¿ºÍ²ÎÊýÖµÓÃÓÚÇî¾Ù×î½üÁÚËÑË÷£¬Çî¾ÙËÑË÷Ëã·¨ÔÚKÖµ´ó(K£¾10)Ê±±ÈKdÊ÷Ëã·¨¸üÓÐÐ§£¬ÔÚ¾àÀë¶ÈÁ¿Ñ¡Ôñ·½Ãæ±ÈKdÊ÷Ëã·¨¸üÁé»î¡£
(1) NS=CREATENS(X,'NSMethod','exhaustive')£º ÀûÓÃÑµÁ·Ñù±¾¾ØÕóX´´½¨ExhaustiveSearcherÄ£ÐÍ£¬XµÄÃ¿Ò»ÐÐÎªÒ»¸öÑù±¾£¬ÁÐÊýÎªÑù±¾Î¬Êý¡£
(2) NS=ExhaustiveSearcher(X)£º ÀûÓÃÑµÁ·Ñù±¾¾ØÕóX´´½¨ExhaustiveSearcherÄ£ÐÍ¡£
(3) NS=ExhaustiveSearcher(X,Name,Value)£º Ö¸¶¨²ÎÊý´´½¨ExhaustiveSearcherÄ£ÐÍ,²ÎÊýÈç±í5ª²1ËùÊ¾¡£


±í5ª²1ExhaustiveSearcherº¯Êý²ÎÊý±í



²ÎÊýÃû³ÆÈ¡Öµ¼°º¬Òå
Distance
¾àÀë¶ÈÁ¿·½Ê½£¬¿ÉÈ¡'euclidean'(Ä¬ÈÏ)¡¢'chebychev'¡¢'cityblock'¡¢'correlation'¡¢'cosine'¡¢'hamming'¡¢'jaccard'¡¢'minkowski'¡¢'mahalanobis'¡¢'seuclidean'¡¢'spearman'»ò¶¨ÖÆµÄ¾àÀëº¯Êý

Cov²ÉÓÃÂíÊÏ¾àÀë(mahalanobis)¶ÈÁ¿Ê±Ö¸¶¨n¡ÁnµÄÕý¶¨Ð­·½²î¾ØÕó£¬Ä¬ÈÏÎªnancov(X)
P²ÉÓÃãÉÊÏ¾àÀë(minkowski)¶ÈÁ¿Ê±Ö¸¶¨Ö¸Êý£¬Ä¬ÈÏÎª2
Scale²ÉÓÃ±ê×¼Å·ÊÏ¾àÀë(seuclidean)¶ÈÁ¿Ö¸¶¨³ß¶È²ÎÊý£¬Ä¬ÈÏÎªnanstd(X)


2) KDTreeSearcherÄ£ÐÍ
´æ´¢Ê¹ÓÃKdÊ÷Ëã·¨µÄ×î½üÁÚËÑË÷½á¹û£¬°üÀ¨ÑµÁ·Êý¾Ý¡¢¾àÀë¶ÈÁ¿¼°Æä²ÎÊý¡¢Ã¿¸öÒ¶½ÚµãÖÐµÄ×î´óÊý¾ÝµãÊýÁ¿¡£
(1) NS=CREATENS(X,'NSMethod','kdtree')£º ÀûÓÃÑµÁ·Ñù±¾¾ØÕóX´´½¨KDTreeSearcherÄ£ÐÍ¡£
(2) NS=KDTreeSearcher(X)£º ÀûÓÃÑµÁ·Ñù±¾¾ØÕóX´´½¨KDTreeSearcherÄ£ÐÍ¡£
(3) NS=KDTreeSearcher(X,Name,Value)£º Ö¸¶¨²ÎÊý´´½¨KDTreeSearcherÄ£ÐÍ£¬²ÎÊýÈç±í5ª²2ËùÊ¾¡£


±í5ª²2KDTreeSearcherº¯Êý²ÎÊý



²ÎÊýÃû³ÆÈ¡Öµ¼°º¬Òå
Distance¾àÀë¶ÈÁ¿·½Ê½£¬¿ÉÈ¡£º 'euclidean'(Ä¬ÈÏ)¡¢'chebychev'¡¢'cityblock'¡¢'minkowski'

P²ÉÓÃãÉÊÏ¾àÀë(minkowski)¶ÈÁ¿Ê±Ö¸¶¨Ö¸Êý£¬Ä¬ÈÏÎª2
BucketSizeÃ¿¸öÒ¶½ÚµãÖÐµÄ×î´óÊý¾ÝµãÊýÁ¿£¬Ä¬ÈÏÎª50

3) knnsearchº¯Êý
Ö¸¶¨Ä£ÐÍÊµÏÖ½üÁÚËÑË÷¡£
(1) IDX=knnsearch(NS,Y)£º ´ÓÄ£ÐÍNS´æ´¢µÄÑµÁ·Ñù±¾XÖÐÕÒµ½YÖÐÃ¿¸öÑù±¾µÄ×î½üÁÚIDX¡£YµÄÃ¿ÐÐÎªÒ»¸öÑù±¾£» IDXÎªÒ»¸öÁÐÏòÁ¿£¬´æ´¢YÖÐÑù±¾ÔÚXÖÐµÄ×î½üÁÚµÄË÷Òý¡£
(2) £ÛIDX,D£Ý=knnsearch(NS,Y)£º Í¬Ê±·µ»ØÁÐÏòÁ¿D£¬´æ´¢YÖÐÑù±¾ºÍÆä×î½üÁÚµÄ¾àÀë¡£
(3) £ÛIDX,D£Ý=knnsearch(NS,Y,'NAME1',VALUE1,...,'NAMEN',VALUEN)£º Ö¸¶¨²ÎÊýÊµÏÖ×î½üÁÚËÑË÷£¬²ÎÊýÈç±í5ª²3ËùÊ¾¡£


±í5ª²3knnsearchº¯Êý²ÎÊý



²ÎÊýÃû³ÆÈ¡Öµ¼°º¬Òå
Distance²ÉÓÃExhaustiveSearcherÄ£ÐÍ£¬È¡Öµ¼û±í5ª²1£» ²ÉÓÃKDTreeSearcherÄ£ÐÍ£¬È¡Öµ¼û±í5ª²2£» ²¿·Ö¾àÀë¿ÉÒÔÉèÖÃ²ÎÊý£¬¼û±í5ª²1ºÍ±í5ª²2
KÒªËÑË÷µÄ½üÁÚÊýÄ¿£¬Ä¬ÈÏÎª1£» K²»Îª1Ê±£¬IDXºÍD¾ùÎª¾ØÕó
IncludeTiesÂß¼­Öµ£¬Ö¸¶¨ÊÇ·ñ°üÀ¨ºÍµÚK¸ö½üÁÚ¾àÀë²¢ÁÐµÄÁÚµã£¬Ä¬ÈÏÎªfalse
SortIndicesÂß¼­Öµ£¬Ö¸¶¨Êä³öµÄ¾àÀëºÍË÷ÒýÊÇ·ñ°´ÕÕ¾àÀë´ÓÐ¡µ½´óÅÅÁÐ£¬Ä¬ÈÏÎªtrue

4) rangesearchº¯Êý
Ö¸¶¨Ä£ÐÍÊµÏÖÒ»¶¨·¶Î§ÄÚµÄ½üÁÚËÑË÷¡£
(1) IDX=rangesearch(NS,Y,RADIUS)£º ´ÓÄ£ÐÍNS´æ´¢µÄÑµÁ·Ñù±¾XÖÐÕÒµ½ºÍYÖÐÑù±¾¾àÀë²»³¬¹ýRADIUSµÄÑù±¾¡£IDXÎªÔª°ûÊý×é£¬Ã¿Ò»Ïî´æ´¢YÖÐÃ¿Ò»¸öÑù±¾µÄ½üÁÚË÷Òý£¬°´¾àÀëÉýÐòÅÅÁÐ¡£
(2) £ÛIDX,D£Ý=rangesearch(NS,Y,RADIUS)£º Ôª°ûÊý×éD´æ´¢YÖÐÑù±¾ºÍ¸÷½üÁÚµÄ¾àÀë¡£
(3) £ÛIDX,D£Ý=rangesearch(NS,Y,RADIUS,'NAME1',VALUE1,...,'NAMEN',VALUEN)£º Ö¸¶¨²ÎÊýËÑË÷£¬²ÎÊýÓÐ£º 'Distance'¡¢'SortIndices'ÒÔ¼°¾àÀë¶ÈÁ¿²ÎÊý£¬Í¬knnsearchº¯Êý¡£
¡¾Àý5ª²5¡¿µ¼ÈëfisheririsÊý¾Ý¼¯£¬Ëæ»úÑ¡Ôñ147¸öÑµÁ·Ñù±¾£¬3¸ö²âÊÔÑù±¾£¬²ÉÓÃknnsearch¡¢rangesearchº¯Êý½øÐÐ½üÁÚËÑË÷¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

load fisheriris                           %µ¼ÈëÊý¾Ý

rng(1);                                     %Éè¶¨Ëæ»úÊýÉú³ÉÄ£Ê½

N=size(meas,1);                           %Ñù±¾Êý

testIdx=randsample(N,3);                %Éú³É1:NµÄ3¸öËæ»úÕûÊý

trainIdx=~ismember(1:N,testIdx);       %Éú³ÉË÷ÒýÏòÁ¿£¬Ëæ»úÊý¶ÔÓ¦ÊýÖµÎª0£¬ÆäËûÊý¶ÔÓ¦ÊýÖµÎª1

testing=meas(testIdx,3:4);              %²âÊÔÑù±¾£¬½ö²ÉÓÃÔ­Ê¼Êý¾ÝµÄµÚ3Î¬ºÍµÚ4Î¬

training=meas(trainIdx,3:4);            %ÑµÁ·Ñù±¾

labeltrain=species(trainIdx,:);        %ÑµÁ·Ñù±¾µÄÀà±ð±êÇ©

labeltest=species(testIdx,:);           %²âÊÔÑù±¾µÄÀà±ð±êÇ©

Mdl=KDTreeSearcher(training);           %Éú³ÉKDTreeSearcherÄ£ÐÍ

£ÛIdx1,D1£Ý=knnsearch(Mdl,testing);      %ËÑË÷×î½üÁÚ

testresult=labeltrain(Idx1)             %×î½üÁÚ¶ÔÓ¦µÄÀà±ð¼´Îª·ÖÀà½á¹û

radius=0.2;                                 %Éè¶¨ËÑË÷·¶Î§µÄ°ë¾¶

£ÛIdx2,D2£Ý=rangesearch(Mdl,testing,radius); %ËÑË÷·¶Î§

gscatter(training(:,1),training(:,2),labeltrain,'rgb','+.o',3);  %»æÖÆÑµÁ·Ñù±¾

hold on

plot(testing(:,1),testing(:,2),'kx','MarkerSize',6,'LineWidth',2);%»æÖÆ²âÊÔÑù±¾

plot(training(Idx1,1),training(Idx1,2),'m*');  %»æÖÆ²âÊÔÑù±¾µÄ×î½üÁÚ

for i=1:length(Idx2)

viscircles(testing(i,:),radius,'color','k','LineWidth',1,'LineStyle','-.');

end                                            %»æÖÆÒÔ²âÊÔÑù±¾ÎªÖÐÐÄµÄÔ²£¬ËÑË÷·¶Î§

legend('setosa','versicolor','virginica','´ý²âÑù±¾','×î½üÁÚµã');

xlabel('»¨°ê³¤/cm'),ylabel('»¨°ê¿í/cm');

hold off

ÔËÐÐ³ÌÐò£¬»æÖÆµÄÑù±¾µã¡¢½üÁÚµãÈçÍ¼5ª²5ËùÊ¾£¬²¢ÔÚÃüÁî´°¿ÚÊä³ö3¸ö´ý²âÑù±¾µÄ¹éÀà½á¹û¡£


Í¼5ª²5fisheririsÊý¾Ý¼¯µÄ½üÁÚËÑË÷


5.2¶þ´ÎÅÐ±ðº¯Êý
¶þ´ÎÅÐ±ð(Quadratic Discriminant)Ò²ÊÇÒ»ÖÖ±È½Ï³£ÓÃµÄ¹Ì¶¨º¯ÊýÀàÐÍµÄ·ÖÀà·½·¨£¬Ò»°ãÐÎÊ½Îª


g(x)=xTWx+wTx+w0

=¡Æni=1wiix2i+2¡Æn£­1i=1¡Ænk=i+1wikxixk+¡Æni=1wixi+w0
(5ª²6)

ÆäÖÐ£¬WÊÇn¡ÁnµÄÊµ¶Ô³Æ¾ØÕó£¬wÊÇnÎ¬ÁÐÏòÁ¿¡£
ÓÉÊ½(5ª²6)¿ÉÒÔ¿´³ö£¬¶þ´ÎÅÐ±ðº¯ÊýÖÐÓÐÌ«¶àµÄ²ÎÊýÐèÒªÈ·¶¨£¬Èç¹û²ÉÓÃÀàËÆÓÚÏßÐÔÅÐ±ðº¯ÊýÉè¼ÆµÄ·½·¨£¬Ôò¼ÆËã¸´ÔÓ£¬ÔÚÑù±¾Êý²»×ãµÄÇé¿öÏÂ£¬²»ÄÜ±£Ö¤½á¹ûµÄ¿É¿¿ÐÔºÍÍÆ¹ãÄÜÁ¦¡£Òò´Ë£¬ÐèÒª²ÉÓÃÆäËûµÄÉè¼Æ·½·¨¡£
ÔÚ2.7½ÚÁË½âµ½£¬ÔÚÒ»°ãÕýÌ¬·Ö²¼Çé¿öÏÂ£¬±´Ò¶Ë¹¾ö²ßÅÐ±ðº¯ÊýÎª¶þ´Îº¯Êý£¬Èç¹û¿ÉÒÔÓÃÕýÌ¬·Ö²¼Ä£ÄâÑù±¾·Ö²¼£¬ÔòÖ±½Ó¶¨Òå¦ØjÀàµÄ¶þ´ÎÅÐ±ðº¯ÊýÎª

gj(x)=C2j£­12x£­¦ÌjT¦²£­1j(x£­¦Ìj)(5ª²7)

C2jÊÇÒ»¸öµ÷½ÚÏî£¬ÊÜÐ­·½²î¾ØÕóºÍÏÈÑé¸ÅÂÊµÄÓ°Ïì£¬¿ÉÒÔÍ¨¹ýµ÷½Ú¸Ã²ÎÊýµ÷ÕûÀà´íÎóÂÊ¡£
ÀýÈç£¬ÔÚÀý2ª²15ÖÐ£¬Õë¶ÔÁ½ÀàÕýÌ¬·Ö²¼µÄÑù±¾£¬ÀûÓÃfitcdiscrº¯ÊýÉè¼ÆÁË¶þ´ÎÅÐ±ðº¯Êý¡£
Èç¹ûÖ»ÓÐÒ»ÀàÊý¾Ý¿ÉÒÔÓÃÕýÌ¬·Ö²¼Ä£Äâ£¬ÁíÒ»Àà±È½Ï¾ùÔÈµØ·Ö²¼ÔÚµÚÒ»Àà¸½½ü£¬Ôò¿ÉÒÔÖ»¶ÔµÚÒ»ÀàÇó½â¶þ´ÎÅÐ±ðº¯Êý£¬¾ö²ß¹æÔòÎª

Èôg(x)ªò0£¬Ôò¾ö²ßx¡Ê¦Ø1

¦Ø2(5ª²8)

¡¾Àý5ª²6¡¿µ¼ÈëfisheririsÊý¾Ý¼¯£¬Ñ¡ÔñÆäÖÐµÄÁ½Àà£¬²ÉÓÃÕýÌ¬·Ö²¼Ä£ÄâÑù±¾·Ö²¼£¬Éè¼Æ¶þ´ÎÅÐ±ðº¯Êý£¬»æÖÆ¶þ´Î¾ö²ßÃæ¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

load fisheriris

index1=strcmp(species(:),'versicolor');

index2=strcmp(species(:),'virginica');%È·¶¨ÒªÑ¡ÔñµÄÁ½ÀàÊý¾ÝÔÚÊý¾Ý¼¯ÖÐµÄË÷Òý

training1=meas(index1,3:4);

training2=meas(index2,3:4);                        %»ñÈ¡Á½ÀàÊý¾Ý

training=£Ûtraining1;training2£Ý;

index=£Ûspecies(index1);species(index2)£Ý;         %»ñÈ¡ÑµÁ·Ñù±¾Àà±ð±ê¼Ç

gscatter(training(:,1),training(:,2),index,'rb','*o',5);    %»æÖÆÑù±¾

hold on

mu1=mean(training1);      mu2=mean(training2);    %¹À¼ÆÁ½ÀàÑù±¾¾ùÖµ

sigma1=cov(training1);   sigma2=cov(training2);  %¹À¼ÆÁ½ÀàÐ­·½²î¾ØÕó

minx=min(training(:,:)); maxx=max(training(:,:));%È·¶¨Ñù±¾µÄÈ¡Öµ·¶Î§

step=0.1;

£Ûx1Grid,x2Grid£Ý=meshgrid(minx(:,1):step:maxx(:,1),minx(:,2):step:maxx(:,2));

xGrid=£Ûx1Grid(:),x2Grid(:)£Ý;                         %È·¶¨´ý²âÑù±¾

for i=1:length(xGrid)

gx(i)=-(xGrid(i,:)-mu1)/(sigma1)*(xGrid(i,:)-mu1)'...

(xGrid(i,:)-mu2)/(sigma2)*(xGrid(i,:)-mu2)';%¼ÆËã¸÷Ñù±¾¶ÔÓ¦ÅÐ±ðº¯ÊýÈ¡Öµ

end

contour(x1Grid,x2Grid,reshape(gx,size(x1Grid)),£Û0 0£Ý,'k--');%»æÖÆ¾ö²ßÃæ

legend('versicolor','virginica','¾ö²ßÃæ');

xlabel('»¨°ê³¤/cm'),ylabel('»¨°ê¿í/cm');

hold off

³ÌÐòÔËÐÐ½á¹ûÈçÍ¼5ª²6ËùÊ¾¡£³ÌÐòÖÐÁ½ÀàÅÐ±ðº¯ÊýÖÐµ÷½ÚÏîÉèÎª0¡£


Í¼5ª²6¶þ´ÎÅÐ±ðº¯ÊýÉè¼Æ


5.3¾ö²ßÊ÷
ÈËÃÇÔÚ¾ö²ßÊ±£¬ÍùÍù»áÕë¶Ô¶à¸ö·½ÃæÒÀ´ÎÅÐ¶Ï£¬Ä£Ê½Ê¶±ðÖÐÒ²¿ÉÒÔ²ÉÓÃÀàËÆµÄ¶à¼¶¾ö²ß·½Ê½£¬ÀûÓÃÒ»¶¨µÄÑµÁ·Ñù±¾£¬ÒÀ´Î·ÖÀà£¬Ö±µ½»ñµÃ×îÖÕ¿ÉÒÔ½ÓÊÜµÄÀà£¬ÓÃÊ÷ÐÎ±íÊ¾¾ö²ßµÄ¹ý³Ì£¬²¢ÐÎ³É¾ö²ß¹æÔò¡£ÕâÖÖ´ÓÊý¾ÝÖÐ¡°Ñ§Ï°¡±³ö¾ö²ß¹æÔòµÄ·½·¨³ÆÎª¾ö²ßÊ÷(Decision Tree)£¬ÊÇÒ»ÖÖ·ÇÏßÐÔ·ÖÀàÆ÷¡£
5.3.1»ù±¾¸ÅÄî
Ò»°ã¶øÑÔ£¬Ò»¿Ã¾ö²ßÊ÷°üº¬Ò»¸ö¸ù½Úµã¡¢Èô¸ÉÄÚ²¿½ÚµãºÍÈô¸ÉÒ¶½Úµã¡£¸ù½Úµã°üº¬ËùÒª½øÐÐ·ÖÀàµÄÑù±¾¼¯£¬°´ÕÕÄ³ÖÖ¹æÔò(³£ÓÃÄ³Ò»ÖÖÌØÕ÷²âÊÔ)£¬½«Ñù±¾¼¯Ò»·ÖÎª¼¸¸ö×Ó¼¯£¬¶ÔÓ¦¼¸¸ö×Ó½Úµã£¬³ÆÎªÄÚ²¿½Úµã£» ×Ó½ÚµãÔÙ·Ö£¬Ö±µ½Ò¶½Úµã£¬¶ÔÓ¦¾ö²ß½á¹û¡£
Ò¶½ÚµãÓÐÈýÖÖÇéÐÎ£º 
(1) µ±Ç°½ÚµãËùº¬Ñù±¾È«ÊôÓÚÍ¬Ò»Àà±ð£¬²»ÐèÒªÔÙ»®·Ö£¬¸Ã½ÚµãÎªÒ¶½Úµã¡£
(2) µ±Ç°ÌØÕ÷Îª¿Õ£¬»òËùÓÐÑù±¾µ±Ç°ÌØÕ÷È¡ÖµÏàÍ¬£¬ÎÞ·¨»®·Ö£¬¸Ã½ÚµãÎªÒ¶½Úµã£¬±ê¼ÇÀà±ðÎª¸Ã½ÚµãËùº¬Ñù±¾×î¶àµÄÀà±ð¡£
(3) µ±Ç°½ÚµãËùº¬Ñù±¾¼¯Îª¿Õ£¬ÎÞ·¨»®·Ö£¬¸Ã½ÚµãÎªÒ¶½Úµã£¬±ê¼ÇÀà±ðÎªÆä¸¸½ÚµãËùº¬Ñù±¾×î¶àµÄÀà±ð¡£
ÒÔÅÐ¶ÏÊÇ·ñÊÇ¸ßÑªÑ¹ÎªÀý£¬ËµÃ÷¾ö²ßÊ÷µÄÉú³ÉÒÔ¼°¾ö²ß¡£ÓÃx1±íÊ¾ÊÕËõÑ¹£¬ÓÃx2±íÊ¾ÊæÕÅÑ¹£¬ÑªÑ¹Îª¶þÎ¬Ñù±¾x=£Ûx1x2£ÝT¡£Í¼5ª²7(a)ËùÊ¾ÎªÕý³£ÑªÑ¹¦Ø1ºÍ¸ßÑªÑ¹¦Ø2¶þÎ¬Ñù±¾¼¯{x1,x2,¡­,xN}£¬Éú³ÉµÄ¾ö²ßÊ÷ÈçÍ¼5ª²7(b)ËùÊ¾¡£¸ù½Úµã¢Ù°üÀ¨ËùÓÐÑù±¾£¬¿¼²éµÚÒ»¸öÌØÕ÷x1£¬¸ù¾ÝÊÇ·ñÂú×ãx1£¼140½«Ñù±¾¼¯Ò»·ÖÎª¶þ£¬¼´½Úµã¢ÙÓÐÁ½¸ö×Ó½Úµã¢ÚºÍ¢Û£» ½Úµã¢ÛÖÐËùÓÐÑù±¾È«²¿ÊôÓÚ¸ßÑªÑ¹¦Ø2Àà£¬ÎªÒ¶½Úµã£¬±ê¼ÇÀà±ðÎª¦Ø2Àà£» ½Úµã¢Ú·ÇÒ¶½Úµã£¬¿¼²éµÚ¶þ¸öÌØÕ÷x2£¬¸ù¾ÝÊÇ·ñÂú×ãx2£¼90½«Ñù±¾¼¯Ò»·ÖÎª¶þ£¬¼´½Úµã¢ÚÓÐÁ½¸ö×Ó½Úµã¢ÜºÍ¢Ý£» ½Úµã¢ÜÖÐËùÓÐÑù±¾È«²¿ÊôÓÚÕý³£ÑªÑ¹¦Ø1Àà£¬ÎªÒ¶½Úµã£¬±ê¼ÇÀà±ðÎª¦Ø1Àà£» ½Úµã¢ÝÖÐËùÓÐÑù±¾È«²¿ÊôÓÚ¸ßÑªÑ¹¦Ø2Àà£¬ÎªÒ¶½Úµã£¬±ê¼ÇÀà±ðÎª¦Ø2Àà¡£´Ó¸ù½Úµã¢Ùµ½Ò¶½Úµã¢Û¢Ü¢Ý´æÔÚ3ÌõÍ¨Â·£¬Í¨Â·ÉÏµÄÅÐ¶ÏÌõ¼þ¼´Îª¾ö²ß¹æÔò£¬¼´
Èôx1¡Ý140£¬Ôòx¡Ê¦Ø2¡£
Èôx1£¼140ÇÒx2£¼90£¬Ôòx¡Ê¦Ø1¡£
Èôx1£¼140ÇÒx2¡Ý90£¬Ôòx¡Ê¦Ø2¡£

Í¼5ª²7ËùÊ¾µÄ¾ö²ßÊ÷Éú³ÉÖÐ£¬½Úµã²ÉÓÃµÄ·ÖÖ¦×¼ÔòÎª¡°ÌØÕ÷xi£¼¦Á»òÕßxi¡Ý¦Á¡±£¬ÕâÖÖ¾ö²ßÊ÷³ÆÎªÆÕÍ¨¶þ½øÖÆ·ÖÀàÊ÷(Ordinary Binary Classification Tree£¬OBCT)£¬Ò²¿ÉÒÔ¸ù¾Ý²»Í¬µÄÌõ¼þÉú³É²»Í¬µÄ¾ö²ßÊ÷¡£


Í¼5ª²7¾ö²ßÊ÷Ê¾Àý


5.3.2¾ö²ßÊ÷µÄ¹¹½¨
´ÓÍ¼5ª²7ËùÊ¾µÄ¾ö²ßÊ÷Éú³É¿ÉÒÔ¿´³ö£¬¾ö²ßÊ÷µÄ¹¹½¨¾ÍÊÇÑ¡È¡ÌØÕ÷ºÍÈ·¶¨·ÖÖ¦×¼ÔòµÄ¹ý³Ì£¬Ã¿Ò»¸ö·ÖÖ¦Ó¦¸Ã²úÉú±È¸¸½ÚµãÑù±¾¼¯¸üÓÐÀûÓÚ·ÖÀàµÄÑù±¾×Ó¼¯£¬Ò²¾ÍÊÇÐÂ×Ó¼¯ÖÐµÄÑù±¾¶¼¸üºÃµØÊôÓÚÌØ¶¨µÄÀà¡£Òò´Ë£¬¾ö²ßÊ÷µÄ¹¹½¨Ê×ÏÈÒªÓÐÄÜºâÁ¿·ÖÀàÓÐÀûÐÔµÄÖ¸±êÁ¿£¬ÒÔ±ãºÏÀíÑ¡Ôñ·ÖÖ¦²ÉÓÃµÄÄ³¸öÌØÕ÷£¬ÒÔ¼°È·¶¨·ÖÖ¦×¼Ôò¡£
1. ÐÅÏ¢ÔöÒæ
ìØ(Entropy)ÓÃÀ´¶ÈÁ¿¶ÔÄ³¸öÊÂ¼þ½øÐÐ¹Û²ìºóµÃµ½µÄÐÅÏ¢Á¿£¬Éè¸ÃÊÂ¼þÓÐcÖÖ¿ÉÄÜ£¬Ã¿ÖÖ¿ÉÄÜ¶ÔÓ¦µÄ¸ÅÂÊÎªPj£¬j=1,2,¡­,c£¬ìØÎª

H=£­(P1log2P1+P2log2P2+¡­+Pclog2Pc)=£­¡Æcj=1Pjlog2Pj(5ª²9)

ÀýÈç£¬Ò»¸ö4Àà·ÖÀàÎÊÌâ£¬¸÷ÀàÑù±¾ÊýÏàÍ¬£¬¸ù½Úµã°üÀ¨ËùÓÐÑù±¾£¬Ñù±¾ÊôÓÚÄ³Ò»ÀàµÄ²»È·¶¨ÐÔ×î´ó£¬¼´´¿¶È×îµÍ£¬¶ÔÓ¦µÄìØÎª

H=£­4¡Á0.25¡Álog2 0.25=2

Èç¹ûÄ³¸öÄÚ²¿½ÚµãÖ»°üº¬ÆäÖÐÁ½ÀàµÄÑù±¾ÇÒÊýÁ¿ÏàµÈ£¬ÔòÑù±¾ÊôÓÚÄ³Ò»ÀàµÄ²»È·¶¨ÐÔÏà¶ÔÓÚ¸ù½ÚµãÒªµÍ£¬¼´´¿¶ÈÓÐËùÌá¸ß£¬¶ÔÓ¦µÄìØÎª

H=£­2¡Á0.5¡Álog2 0.5=1

ìØµÄÖµ½Ï¸ù½ÚµãÓÐËùÏÂ½µ¡£¶ø¶ÔÓÚÒ¶½Úµã£¬Ö»°üº¬Í¬Ò»ÀàÑù±¾£¬´¿¶È×î¸ß£¬´ËÊ±µÄìØÎª

H=£­1¡Álog21=0

ìØ×îÐ¡£¬²»È·¶¨ÐÔ×îÐ¡£¬´¿¶È×î¸ß¡£
Òò´Ë£¬¶ÔÓÚÄ³¸ö½ÚµãÉÏµÄÑù±¾£¬ìØÒ²³ÆÎªìØ²»´¿¶È£¬·´Ó³ÁË¸Ã½ÚµãÉÏµÄÌØÕ÷¶ÔÑù±¾·ÖÀàµÄ²»´¿¶È£¬È¡ÖµÔ½Ð¡£¬²»´¿¶ÈÔ½µÍ¡£
ÔÚ¾ö²ßÊ÷·ÖÖ¦µÄÊ±ºò£¬Ï£Íû·ÖÖ¦ºóµÄ×Ó¼¯Ïà¶ÔÓÚÔ­À´µÄ×Ó¼¯´¿¶ÈÓÐËùÌá¸ß£¬»òËµ²»´¿¶ÈÏÂ½µ£¬Òò´Ë£¬¶¨ÒåÐÅÏ¢ÔöÒæ(Information Gain)Îª²»´¿¶È¼õÉÙÁ¿¡£
Èç¹ûÄ³¸ö½ÚµãÉÏ£¬°ÑN¸öÑù±¾»®·Ö³Ém×é£¬Ã¿×éNm¸öÑù±¾£¬ÔòÐÅÏ¢ÔöÒæÎª

¦¤H(N)=H(N)£­£ÛP1H(N1)+P2H(N2)+¡­+PmH(Nm)£Ý(5ª²10)

ÆäÖÐ£¬Pm=Nm/N¡£
2. ID3·½·¨
½»»¥Ê½¶þ·Ö·¨(Interactive Dichotomizerª²3£¬ID3)ÊÇ×îÔç±È½ÏÖøÃûµÄ¾ö²ßÊ÷¹¹½¨·½·¨£¬¶ÔÓÚÃ¿¸ö·ÇÒ¶½Úµã£¬¼ÆËã±È½Ï²ÉÓÃ²»Í¬ÌØÕ÷½øÐÐ·ÖÖ¦µÄÐÅÏ¢ÔöÒæ£¬Ñ¡Ôñ´øÀ´×î´óÐÅÏ¢ÔöÒæµÄÌØÕ÷×÷Îª·ÖÖ¦ÌØÕ÷£¬ÒÔÊµÏÖ¾ö²ßÊ÷µÄÉú³ÉÓë¹¹½¨£¬·½·¨²½ÖèÈçÏÂ£º 
(1) ¼ÆËãµ±Ç°½Úµã°üº¬µÄËùÓÐÑù±¾µÄìØ²»´¿¶È¡£
(2) ±È½Ï²ÉÓÃ²»Í¬ÌØÕ÷½øÐÐ·ÖÖ¦½«»áµÃµ½µÄÐÅÏ¢ÔöÒæ£¬Ñ¡È¡¾ßÓÐ×î´óÐÅÏ¢ÔöÒæµÄÌØÕ÷¸³Óèµ±Ç°½Úµã¡£ÌØÕ÷µÄÈ¡Öµ¸öÊý¾ö¶¨ÁË¸Ã½ÚµãÏÂµÄ·ÖÖ¦ÊýÄ¿¡£
(3) Èç¹ûºó¼Ì½ÚµãÖ»°üº¬Ò»ÀàÑù±¾£¬ÔòÍ£Ö¹¸ÃÖ¦µÄÉú³¤£¬¸Ã½Úµã³ÉÎªÒ¶½Úµã¡£
(4) Èç¹ûºó¼Ì½ÚµãÈÔ°üº¬²»Í¬ÀàÑù±¾£¬ÔòÔÙ´Î½øÐÐÒÔÉÏ²½Öè£¬Ö±µ½Ã¿Ò»Ö¦¶¼µ½´ïÒ¶½Úµã¡£
¡¾Àý5ª²7¡¿ÒÔ±í5ª²4ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬15~19ºÅÑù±¾Îª²âÊÔÑù±¾£¬²ÉÓÃID3Ëã·¨Éè¼Æ¾ö²ßÊ÷£¬²¢¶Ô²âÊÔÑù±¾½øÐÐ¾ö²ß¡£


±í5ª²4ÑªÑ¹Êý¾Ý±í



ÐòºÅÄêÁä/ËêÌåÖØÒûÊ³Æ«ºÃ¸¸±²ÑªÑ¹¸ßÑªÑ¹
1
34
³¬ÖØ
ÓÍÄå
¸ß
ÊÇ
2
28
Õý³£
¾ùºâ
¸ß
ÊÇ
3
42
Æ«ÖØ
Çåµ­
¸ß
ÊÇ

Ðø±í




ÐòºÅÄêÁä/ËêÌåÖØÒûÊ³Æ«ºÃ¸¸±²ÑªÑ¹¸ßÑªÑ¹
4
45
³¬ÖØ
¾ùºâ
Õý³£
ÊÇ
5
50
Æ«ÖØ
ÓÍÄå
Õý³£
ÊÇ
6
61
Æ«ÖØ
ÓÍÄå
Õý³£
ÊÇ
7
65
Õý³£
Çåµ­
¸ß
ÊÇ
8
36
³¬ÖØ
¾ùºâ
Õý³£
·ñ
9
31
Õý³£
Çåµ­
¸ß
·ñ
10
27
Æ«ÖØ
ÓÍÄå
¸ß
·ñ
11
44
Æ«ÖØ
Çåµ­
Õý³£
·ñ
12
43
Æ«ÖØ
¾ùºâ
Õý³£
·ñ
13
61
Õý³£
Çåµ­
Õý³£
·ñ
14
66
Õý³£
Çåµ­
Õý³£
·ñ
15
25
Õý³£
¾ùºâ
Õý³£
·ñ
16
35
Æ«ÖØ
¾ùºâ
Õý³£
ÊÇ
17
48
³¬ÖØ
ÓÍÄå
¸ß
ÊÇ
18
40
Õý³£
Çåµ­
Õý³£
·ñ
19
63
Æ«ÖØ
¾ùºâ
¸ß
ÊÇ
20
62
Õý³£
¾ùºâ
Õý³£
·ñ

½â£º (1) Á¬ÐøÌØÕ÷Êý¾Ýµ÷Õû¡£±í5ª²4ÖÐµÄÄêÁäÈ¡ÖµÌ«¶à£¬Èç¹ûÖ±½Ó°´ÄêÁä·ÖÖ¦£¬½«µ¼ÖÂÌ«¶àµÄ×Ó½Úµã¡£Òò´Ë°ÑÄêÁä·ÖÎªÈý¸ö¼¶±ð£¬40ËêÒÔÏÂÎªÇàÄê£¬40~59ËêÎªÖÐÄê£¬60Ëê¼°ÒÔÉÏÎªÀÏÄê£¬Èç±í5ª²5ËùÊ¾¡£


±í5ª²5ÑªÑ¹Êý¾Ý±í



ÐòºÅÄêÁäÌåÖØÒûÊ³Æ«ºÃ¸¸±²ÑªÑ¹¸ßÑªÑ¹
1
ÇàÄê
³¬ÖØ
ÓÍÄå
¸ß
ÊÇ
2
ÇàÄê
Õý³£
¾ùºâ
¸ß
ÊÇ
3
ÖÐÄê
Æ«ÖØ
Çåµ­
¸ß
ÊÇ
4
ÖÐÄê
³¬ÖØ
¾ùºâ
Õý³£
ÊÇ
5
ÖÐÄê
Æ«ÖØ
ÓÍÄå
Õý³£
ÊÇ
6
ÀÏÄê
Æ«ÖØ
ÓÍÄå
Õý³£
ÊÇ
7
ÀÏÄê
Õý³£
Çåµ­
¸ß
ÊÇ
8
ÇàÄê
³¬ÖØ
¾ùºâ
Õý³£
·ñ
9
ÇàÄê
Õý³£
Çåµ­
¸ß
·ñ
10
ÇàÄê
Æ«ÖØ
ÓÍÄå
¸ß
·ñ
11
ÖÐÄê
Æ«ÖØ
Çåµ­
Õý³£
·ñ
12
ÖÐÄê
Æ«ÖØ
¾ùºâ
Õý³£
·ñ
13
ÀÏÄê
Õý³£
Çåµ­
Õý³£
·ñ
14
ÀÏÄê
Õý³£
Çåµ­
Õý³£
·ñ
15
ÇàÄê
Õý³£
¾ùºâ
Õý³£
·ñ
16
ÇàÄê
Æ«ÖØ
¾ùºâ
Õý³£
ÊÇ
17
ÖÐÄê
³¬ÖØ
ÓÍÄå
¸ß
ÊÇ
18
ÖÐÄê
Õý³£
Çåµ­
Õý³£
·ñ
19
ÀÏÄê
Æ«ÖØ
¾ùºâ
¸ß
ÊÇ
20
ÀÏÄê
Õý³£
¾ùºâ
Õý³£
·ñ

(2) Éú³É¾ö²ßÊ÷¡£
Ê×ÏÈ£¬¼ÆËã²»¿¼ÂÇÈÎºÎÌØÕ÷Ê±ìØ²»´¿¶È¡£14¸öÈËÖÐ¸ßÑªÑ¹7ÈË£¬Õý³£ÑªÑ¹7ÈË£¬¸ù½ÚµãìØ²»´¿¶ÈÎª

H(14,7)=£­£Û0.5¡Álog2(0.5)+0.5¡Álog2(0.5)£Ý=1

Æä´Î£¬¸ù½Úµã·ÖÖ¦¡£¿¼²é²ÉÓÃ²»Í¬ÌØÕ÷»®·ÖÑù±¾ºóµÄÐÅÏ¢ÔöÒæ¡£
²ÉÓÃ¡°ÄêÁä¡±ÌØÕ÷»®·ÖÑù±¾¼¯£º ÇàÄê×é5ÈË£¬¸ßÑªÑ¹2ÈË£» ÖÐÄê×é5ÈË£¬¸ßÑªÑ¹3ÈË£» ÀÏÄê×é4ÈË£¬¸ßÑªÑ¹2ÈË£¬ìØ²»´¿¶ÈÎª

Hage=514H(5,2)+514H(5,3)+414H(4,2)=0.9793

ÐÅÏ¢ÔöÒæÎª

¦¤Hage(14)=H(14,7)£­Hage=0.0207

²ÉÓÃ¡°ÌåÖØ¡±ÌØÕ÷»®·ÖÑù±¾¼¯£º Õý³£×é5ÈË£¬¸ßÑªÑ¹2ÈË£» Æ«ÖØ×é6ÈË£¬¸ßÑªÑ¹3ÈË£» ³¬ÖØ×é3ÈË£¬¸ßÑªÑ¹2ÈË£¬ìØ²»´¿¶ÈÎª

Hweight=514H(5,2)+614H(6,3)+314H(3,2)=0.9721

ÐÅÏ¢ÔöÒæÎª

¦¤Hweight(14)=H(14,7)£­Hweight=0.0279

²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯£º ÓÍÄå×é4ÈË£¬¸ßÑªÑ¹3ÈË£» Çåµ­×é6ÈË£¬¸ßÑªÑ¹2ÈË£» ¾ùºâ×é4ÈË£¬¸ßÑªÑ¹2ÈË£¬ìØ²»´¿¶ÈÎª

Hdiet=414H(4,3)+614H(6,2)+214H(4,2)=0.9111

ÐÅÏ¢ÔöÒæÎª

¦¤Hdiet(14)=H(14,7)£­Hdiet=0.0889

²ÉÓÃ¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£º ¸ßÑªÑ¹×é6ÈË£¬¸ßÑªÑ¹4ÈË£» Õý³£ÑªÑ¹×é8ÈË£¬¸ßÑªÑ¹3ÈË£¬ìØ²»´¿¶ÈÎª

Hparent=614H(6,4)+814H(8,3)=0.9389

ÐÅÏ¢ÔöÒæÎª

¦¤Hparent(14)=H(14,7)£­Hparent=0.0611

²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæ×î´ó£¬ÓÃ¸ÃÌØÕ÷½«¸ù½ÚµãÒ»·ÖÎªÈý£¬ÈçÍ¼5ª²8(a)ËùÊ¾¡£
ÔÙ´Î£¬ÏÂÒ»¼¶½Úµã·ÖÖ¦¡£
½Úµã¢Ú£¬4¸öÑù±¾£¬ÎªÐòºÅ1¡¢5¡¢6¡¢10£¬¸ßÑªÑ¹3ÈË£¬ìØ²»´¿¶ÈÎª

H(4,3)=£­34¡Álog234+14¡Álog214=0.8113

ÒÀ´Î²ÉÓÃ¡°ÄêÁä¡±¡°ÌåÖØ¡±¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬¸÷×ÔµÄìØ²»´¿¶ÈºÍÐÅÏ¢ÔöÒæÎª


Hage=24H2,1+14H1,1+14H1,1=0.5000£¬

¦¤Hage(4)=H(4,3)£­Hage=0.311

Hweight=34H3,2+14H1,1=0.6887£¬

¦¤Hweight(4)=H(4,3)£­Hweight=0.1226

Hparent=24H2,1+24H2,2=0.5000£¬

¦¤Hparent(4)=H(4,3)£­Hparent=0.311


²ÉÓÃ¡°ÄêÁä¡±ºÍ¡°¸¸±²ÑªÑ¹¡±»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæÒ»Ñù´ó£¬Ñ¡Ôñ¡°ÄêÁä¡±ÌØÕ÷½«½Úµã¢ÚÒ»·ÖÎªÈý£¬ÈçÍ¼5ª²8(b)ËùÊ¾£¬ÆäÖÐ£¬½Úµã¢ÞºÍ¢ßÖÐ¸÷ÓÐÒ»¸ö¸ßÑªÑ¹ÀàÑù±¾£¬ÎªÒ¶½Úµã£¬±ê¼ÇÎª¸ßÑªÑ¹Àà¡£
È»ºó£¬Í¬ÑùµÄ·½·¨ÒÀ´Î´¦ÀíÖ±µ½Ò¶½Úµã£¬Éú³ÉµÄ¾ö²ßÊ÷¹²ÓÐ4¼¶£¬ÈçÍ¼5ª²8(c)ËùÊ¾£¬·½¿ò±íÊ¾Ò¶½Úµã¡£


Í¼5ª²8ÓÃID3·½·¨¶Ô±í5ª²4ÖÐÊý¾ÝÅÐ¶ÁÊÇ·ñ¸ßÑªÑ¹µÄ¾ö²ßÊ÷


(3) ÀûÓÃ¾ö²ßÊ÷¶Ô²âÊÔÑù±¾½øÐÐ¾ö²ß¡£
Ê×ÏÈ£¬È·¶¨¾ö²ß¹æÔò¡£Éú³ÉµÄ¾ö²ßÊ÷ÓÐ12¸öÒ¶½Úµã£¬´Ó¸ù½Úµãµ½Ò¶½Úµã12ÌõÍ¨Â·£¬¶ÔÓ¦12Ìõ¾ö²ß¹æÔò£¬ÀýÈç£º 
Èô(ÒûÊ³Æ«ºÃ==ÓÍÄå)ÇÒ(ÄêÁä==ÇàÄê)ÇÒ(ÌåÖØ==³¬ÖØ)£¬Ôò(ÑªÑ¹=¸ßÑªÑ¹)£» 
Èô(ÒûÊ³Æ«ºÃ==ÓÍÄå)ÇÒ(ÄêÁä==ÇàÄê)ÇÒ(ÌåÖØ==Æ«ÖØ)£¬Ôò(ÑªÑ¹=Õý³£ÑªÑ¹)£» 
¡­¡­
Èô(ÒûÊ³Æ«ºÃ==Çåµ­)ÇÒ(¸¸±²ÑªÑ¹==Õý³£)£¬Ôò(ÑªÑ¹=Õý³£ÑªÑ¹)¡£
Æä´Î£¬½«´ý²âÑù±¾´úÈë¾ö²ß¹æÔò½øÐÐÅÐ¶Ï¡£
15ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==¾ùºâ£¬ÌåÖØ==Õý³££¬½Úµã¢à£¬ÅÐ¶ÏÎª¸ßÑªÑ¹£¬ÅÐ¶Ï´íÎó¡£
16ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==¾ùºâ£¬ÌåÖØ==Æ«ÖØ£¬½Úµã¢â£¬ÅÐ¶ÏÎªÕý³£ÑªÑ¹£¬ÅÐ¶Ï´íÎó¡£
17ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==ÓÍÄå£¬ÄêÁä==ÖÐÄê£¬½Úµã¢Þ£¬ÅÐ¶ÏÎª¸ßÑªÑ¹£¬ÅÐ¶ÏÕýÈ·¡£
18ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==Çåµ­£¬¸¸±²ÑªÑ¹==Õý³££¬½Úµã£¬ÅÐ¶ÏÎªÕý³£ÑªÑ¹£¬ÅÐ¶ÏÕýÈ·¡£
19ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==¾ùºâ£¬ÌåÖØ==Æ«ÖØ£¬½Úµã¢â£¬ÅÐ¶ÏÎªÕý³£ÑªÑ¹£¬ÅÐ¶Ï´íÎó¡£
20ºÅÑù±¾£¬ÒûÊ³Æ«ºÃ==¾ùºâ£¬ÌåÖØ==Õý³££¬½Úµã¢à£¬ÅÐ¶ÏÎª¸ßÑªÑ¹£¬ÅÐ¶Ï´íÎó¡£
ÀýÌâÖÐÑù±¾¹ýÉÙ£¬Ò¶½ÚµãÍùÍùÖ»ÓÐÒ»¸öÑù±¾£¬¿ÉÄÜ»á×¥×¡ÓÉÓÚÅ¼È»ÐÔ´øÀ´µÄ¼ÙÏó£¬·ÖÀàÆ÷ÅÐ¶Ï×¼È·ÂÊ½Ï²î¡£¿ÉÒÔ²ÉÓÃ¼ôÖ¦µÄ·½Ê½Ìá¸ß·º»¯ÄÜÁ¦£¬½«ÔÚÏÂ½ÚÑ§Ï°¡£
ID3·½·¨ËäÈ»ÃûÎª½»»¥Ê½¶þ·Ö·¨£¬µ«Êµ¼Ê¸ù¾ÝÌØÕ÷µÄÈ¡Öµ¿ÉÒÔ»®·ÖÎª¶à¸ö×Ó½Úµã¡£
¡¾Àý5ª²8¡¿²ÉÓÃÀý5ª²7ÖÐµÄÊý¾Ý£¬»ùÓÚID3·½·¨Éè¼Æ¾ö²ßÊ÷Éú³É³ÌÐò¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

X=£Û"ÐòºÅ" "ÄêÁä" "ÌåÖØ" "ÒûÊ³Æ«ºÃ" "¸¸±²ÑªÑ¹";"1" "ÇàÄê" "³¬ÖØ" "ÓÍÄå" "¸ß";...

"2" "ÇàÄê" "Õý³£" "¾ùºâ" "¸ß";"3" "ÖÐÄê" "Æ«ÖØ" "Çåµ­" "¸ß";...

"4" "ÖÐÄê" "³¬ÖØ" "¾ùºâ" "Õý³£";"5" "ÖÐÄê" "Æ«ÖØ" "ÓÍÄå" "Õý³£";...

"6"  "ÀÏÄê" "Æ«ÖØ" "ÓÍÄå" "Õý³£";"7" "ÀÏÄê" "Õý³£" "Çåµ­" "¸ß";...

"8" "ÇàÄê" "³¬ÖØ" "¾ùºâ" "Õý³£";"9" "ÇàÄê" "Õý³£" "Çåµ­" "¸ß";...

"10" "ÇàÄê" "Æ«ÖØ" "ÓÍÄå" "¸ß";"11" "ÖÐÄê" "Æ«ÖØ" "Çåµ­" "Õý³£";...

"12" "ÖÐÄê" "Æ«ÖØ" "¾ùºâ" "Õý³£";"13" "ÀÏÄê" "Õý³£" "Çåµ­" "Õý³£";...

"14" "ÀÏÄê" "Õý³£" "Çåµ­" "Õý³£"£Ý;%ÑµÁ·Ñù±¾£¬º¬ÐòºÅºÍÌØÕ÷±äÁ¿Ãû

Y=£Û1;1;1;1;1;1;1;2;2;2;2;2;2;2£Ý;           %Ñù±¾Àà±ð±êÇ©£¬1£º¸ßÑªÑ¹£¬2£ºÕý³£ÑªÑ¹

code_total=1;                                  %µ±Ç°½Úµã×ÜÊý

node{1,1}=1:size(X,1)-1;                     %´æ·Å½Úµã°üº¬µÄÑù±¾ÐòºÅ

node{1,2}=0;                                   %´æ·Å½Úµã¼¶±ð£¬µ±Ç°¸ù½Úµã£¬Îª0¼¶

node{1,3}=code_total;                         %´æ·Å½Úµã±àºÅ

node{1,4}=£Û£Ý;                                  %ÄÚ²¿½Úµã´æ·Å½Úµã·ÖÖ¦ÌØÕ÷£¬Ò¶½Úµã´æ·ÅÀà±ð±êÇ©

node_cur=1;                                     %µ±Ç°½Úµã±àºÅ

training{1,1}=X;  training{1,2}=node_cur; %´æ·Å¿É·ÖÖ¦½Úµã°üº¬µÄÑù±¾¼°¶ÔÓ¦½Úµã±àºÅ

label{1}=Y;                                    %´æ·Å¿É·ÖÖ¦½Úµã°üº¬µÄÑù±¾¶ÔÓ¦µÄÀà±ð±êÇ©

stacknum=0;                                    %´¦Àíµ½µÄ¿É·ÖÖ¦½ÚµãÐòºÅ£¬³õÊ¼»¯Îª0

while stacknum~=size(training,1)           %ÉÐÓÐÎ´´¦ÀíÍêµÄ¿É·ÖÖ¦½ÚµãÊ±½øÐÐÑ­»·´¦Àí

stacknum=stacknum+1;                     %µ±Ç°´¦Àíµ½µÄ¿É·ÖÖ¦½ÚµãÐòºÅ

level=node{stacknum,2}+1;               %µ±Ç°½ÚµãËùÔÚ¼¶±ð

label_cur=label{stacknum};              %µ±Ç°½ÚµãÑù±¾¶ÔÓ¦µÄÀà±ð±êÇ©

FatherI=calEnt(label_cur);              %µ±Ç°½ÚµãµÄÐÅÏ¢ìØ

code_cur=training{stacknum,1};         %µ±Ç°½ÚµãµÄÑµÁ·Ñù±¾

node_cur=training{stacknum,2};         %µ±Ç°½ÚµãµÄ±àºÅ

£ÛN,n£Ý=size(code_cur(2:end,2:end)); %»ñÈ¡µ±Ç°Ñù±¾¼¯µÄÑù±¾ÊýÄ¿¼°¿ÉÓÃÓÚ·ÖÖ¦µÄÌØÕ÷±äÁ¿Êý

deltaI=zeros(n,1);                       %¸÷ÌØÕ÷¶ÔÓ¦ÐÅÏ¢ÔöÒæ³õÊ¼Öµ

for i=1:n                                  %¶ÔÃ¿Ò»¸ö¿ÉÓÃÓÚ·ÖÖ¦µÄÌØÕ÷½øÐÐ¼ÆËã

data=code_cur(2:end,i+1);           %»ñÈ¡µ±Ç°Ñù±¾¼¯µÄÍ¬Ò»ÌØÕ÷

sta=tabulate(data);                  %Í³¼Æ¸ÃÌØÕ÷µÄÈ¡ÖµÇé¿ö

sonI=0;                                 %×Ó½ÚµãÐÅÏ¢ìØ³õÊ¼Öµ

for j=1:size(sta,1)                  %¶ÔÓÚ¸ÃÌØÕ÷µÄÃ¿ÖÖÈ¡Öµ½øÐÐ´¦Àí

templabel=label_cur(strcmp(data,sta(j,1)));  %»ñÈ¡¸÷¸öÈ¡Öµ¶ÔÓ¦µÄÀà±ð±êÇ©

sonI=sonI+length(templabel)/N*calEnt(templabel);%¼ÆËã°´¸ÃÌØÕ÷·ÖÖ¦¶ÔÓ¦µÄìØ

end

deltaI(i)=FatherI-sonI;             %¼ÆËã°´¸ÃÌØÕ÷·ÖÖ¦¶ÔÓ¦µÄÐÅÏ¢ÔöÒæ

end

£Û~,pos£Ý=max(deltaI);                     %ÕÒ×î´óÐÅÏ¢ÔöÒæ

node{node_cur,4}=code_cur(1,pos+1);   %´æ·Åµ±Ç°½ÚµãµÄ·ÖÖ¦ÌØÕ÷±äÁ¿Ãû

data=code_cur(2:end,pos+1);             %»ñÈ¡·ÖÖ¦ÌØÕ÷¶ÔÓ¦µÄÊý¾Ý

code_cur(:,pos+1)=£Û£Ý;           %´Óµ±Ç°Êý¾Ý¼¯ÖÐÈ¥µô¸ÃÌØÕ÷Êý¾Ý£¬ÔÚºóÐø½Úµã²»ÔÙÓÃ¸ÃÌØÕ÷·ÖÖ¦

sta=tabulate(data);                       %Í³¼Æ·ÖÖ¦ÌØÕ÷È¡ÖµÇé¿ö  

for j=1:size(sta,1)              %¶Ô·ÖÖ¦ÌØÕ÷Ã¿ÖÖÈ¡Öµ½øÐÐ´¦Àí£¬ÓÐ¼¸ÖÖÈ¡Öµ¾Í¶ÔÓ¦¼¸¸ö×Ó½Úµã

code_total=code_total+1;             %½ÚµãÊýÔö¼Ó

number=strcmp(data,sta(j,1));       %»ñÈ¡µ±Ç°È¡Öµ¶ÔÓ¦µÄÑù±¾ÐòºÅ

number=£Ûfalse;number£Ý;                %Ôö¼ÓÒ»ÐÐ£¬¶ÔÓ¦ÌØÕ÷±äÁ¿ÃûËùÔÚÐÐ

node{end+1,1}=code_cur(number,1);  

node{end,2}=level;

node{end,3}=code_total;              %Ôö¼Ó½Úµã£¬´æ·ÅÑù±¾ÐòºÅ¡¢¼¶±ðÒÔ¼°±àºÅ

templabel=label_cur(number(2:end));%ÐÂ½ÚµãÑù±¾¶ÔÓ¦µÄÀà±ð±êÇ©

if length(unique(templabel))==1     %±êÇ©Ö»ÓÐÒ»ÖÖÊ±£¬ÎªÒ¶½Úµã£¬´æ·ÅÀà±ð±êÇ©

node{end,4}=templabel(1);   

else                                    %±êÇ©ÓÐ¶àÖÖÊ±£¬´æ´¢¸Ã½ÚµãµÄÐÅÏ¢

number(1)=true;                   

training{end+1,1}=code_cur(number,:); %´æ´¢Êý¾Ý£¬º¬ÌØÕ÷±äÁ¿Ãû

training{end,2}=code_total;     %´æ´¢Êý¾Ý¶ÔÓ¦µÄ½Úµã±àºÅ

label{end+1}=templabel;          %´æ´¢Êý¾Ý¶ÔÓ¦µÄÀà±ð±êÇ©

end        

end

end

function Entroph=calEnt(source)             %¼ÆËãµ±Ç°ÐòÁÐµÄÐÅÏ¢ìØ

Entroph=0;   

sta=tabulate(source);

£Ûc,k£Ý=size(sta);

for j=1:c

if sta(j,k)~=0

Entroph=Entroph-sta(j,k)/100*log2(sta(j,k)/100);

end

end

end

ÔËÐÐ³ÌÐò£¬¿ÉÒÔÔÚ¹¤×÷Çø²é¿´node±äÁ¿£¬nodeÎª19¡Á4µÄÔª°ûÊý×é£¬Ã¿Ò»ÐÐ±íÊ¾Ò»¸ö½ÚµãµÄÐÅÏ¢£¬·Ö±ðÎª½Úµã´æ·ÅµÄÑù±¾ÐòºÅ¡¢½ÚµãµÄ¼¶±ð¡¢½ÚµãµÄ±àºÅ¡¢·ÖÖ¦ÌØÕ÷(Ò¶½Úµã´æ·ÅÀà±ð±êÇ©)£¬ºÍÍ¼5ª²8(c)ËùÊ¾Ò»ÖÂ¡£
3. C4.5Ëã·¨
C4.5Ëã·¨²ÉÓÃÐÅÏ¢ÔöÒæÂÊ(Gain Ratio)´úÌæÐÅÏ¢ÔöÒæÀ´Ñ¡Ôñ×îÓÅ»®·ÖÌØÕ÷£¬ÔöÒæÂÊµÄ¶¨ÒåÎª

¦¤HR(N)=¦¤H(N)H(N)(5ª²11)

C4.5Ëã·¨Ôö¼ÓÁË´¦ÀíÁ¬ÐøÌØÕ÷µÄ¹¦ÄÜ£¬²ÉÓÃÁË¶þ·Ö·¨½«Á¬ÐøÌØÕ÷ÀëÉ¢»¯Îª¶þÖµÌØÕ÷¡£ÉèÌØÕ÷xi£¬i=1,2,¡­,n£¬ÔÚÑµÁ·Ñù±¾ÉÏ¹²°üº¬ÁËm¸öÖµ£¬½«ÕâÐ©Öµ°´ÕÕ´ÓÐ¡µ½´óµÄË³ÐòÅÅÁÐ£¬¼ÇÎª{x1i,x2i,¡­,xmi}£» Éè¶¨Ò»¸öãÐÖµT£¬½«Êý¾Ý·ÖÎªÁ½¸ö×Ó¼¯x-i¡¢x+i£» ²»Í¬µÄãÐÖµ½«µ¼ÖÂ²»Í¬µÄ·Ö¸î×Ó¼¯£¬¶ÔÃ¿ÖÖÇé¿ö¼ÆËãÐÅÏ¢ÔöÒæÂÊ£¬Ñ¡ÔñÐÅÏ¢ÔöÒæÂÊ×î´óµÄ»®·Ö·½°¸ÊµÏÖÌØÕ÷¶þÖµ»¯£¬ÔÙ½øÐÐ¾ö²ßÊ÷µÄÉú³É¡£
ãÐÖµT¿ÉÒÔÈ¡ÏàÁÚÁ½¸öÈ¡ÖµµÄÖÐÖµ

T=xji+xj+1i2£¬j=1,2,¡­,m£­1(5ª²12)

¡¾Àý5ª²9¡¿ÒÔ±í5ª²4ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬²ÉÓÃC4.5Ëã·¨Éú³É¾ö²ßÊ÷¡£
½â£º (1) ¸ù½ÚµãìØ²»´¿¶ÈÎªH(14,7)=1¡£
(2) ¸ù½Úµã·ÖÖ¦¡£¿¼²é²ÉÓÃ²»Í¬ÌØÕ÷»®·ÖÑù±¾ºóµÄÐÅÏ¢ÔöÒæÂÊ¡£
²ÉÓÃ¡°ÌåÖØ¡±¡°ÒûÊ³Æ«ºÃ¡±¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬ÐÅÏ¢ÔöÒæÂÊ·Ö±ðÎª0.0279¡¢0.0889¡¢0.0611¡£
¶ÔÓÚ¡°ÄêÁä¡±ÌØÕ÷£¬¸ù½Úµã°üº¬µÄÑù±¾ÔÚ¸ÃÌØÕ÷ÉÏµÄÈ¡ÖµÅÅÐòÎª{27£¬28£¬31£¬34£¬36£¬42£¬43£¬44£¬45£¬50£¬61£¬61£¬65£¬66}£» ãÐÖµTÈ¡ÖµÎª{27.5£¬29.5£¬32.5£¬35£¬39£¬42.5£¬43.5£¬44.5£¬47.5£¬55.5£¬63£¬65.5}£¬µ±T=27.5Ê±£¬¡°ÄêÁä£¼T¡±×é1ÈË£¬¸ßÑªÑ¹0ÈË£» ¡°ÄêÁä£¾T¡±×é13ÈË£¬¸ßÑªÑ¹7ÈË£¬ìØ²»´¿¶ÈÎª

H1age=114H(1,0)+1314H(13,7)=0.9246

ÐÅÏ¢ÔöÒæÂÊÎª

¦¤HR,age(14)=H(14,7)£­H1ageH(14,7)=0.0754

ÒÀ´ÎÐÞ¸ÄãÐÖµT£¬¼ÆËã¡°ÄêÁä¡±ÌØÕ÷×î´óÐÅÏ¢ÔöÒæÂÊÎª0.0754£¬¶ÔÓ¦ãÐÖµT=27.5¡£
²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæÂÊ×î´ó£¬Òò´Ë£¬ÓÃ¸ÃÌØÕ÷½«¸ù½ÚµãÒ»·ÖÎªÈý£¬ÈçÍ¼5ª²9(a)ËùÊ¾¡£
(3) ÏÂÒ»¼¶½Úµã·ÖÖ¦¡£
½Úµã¢Ú£¬4¸öÑù±¾£¬¸ßÑªÑ¹3ÈË£¬ìØ²»´¿¶ÈÎªH(4,3)=0.8113¡£²ÉÓÃ¡°ÌåÖØ¡±¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬ÐÅÏ¢ÔöÒæÂÊ·Ö±ðÎª0.1511ºÍ0.3837¡£
¶ÔÓÚ¡°ÄêÁä¡±ÌØÕ÷£¬½Úµã¢Ú°üº¬µÄÑù±¾ÔÚ¸ÃÌØÕ÷ÉÏµÄÈ¡ÖµÅÅÐòÎª{27£¬34£¬50£¬61}£¬ãÐÖµTÈ¡ÖµÎª{30.5£¬42£¬55.5}£» µ±T=30.5Ê±£¬¡°ÄêÁä£¼T¡±×é1ÈË£¬¸ßÑªÑ¹0ÈË£» ¡°ÄêÁä£¾T¡±×é3ÈË£¬¸ßÑªÑ¹3ÈË£¬ìØ²»´¿¶ÈÎª0£¬ÐÅÏ¢ÔöÒæÂÊÎª1£» µ±T=42£¬T=55.5Ê±£¬ÐÅÏ¢ÔöÒæÂÊ·Ö±ðÎª0.3837ºÍ0.1511¡£²ÉÓÃ¡°ÄêÁäT=30.5¡±»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæÂÊ×î´ó£¬Ñ¡Ôñ¡°ÄêÁä¡±ÌØÕ÷½«½Úµã¢ÚÒ»·ÖÎª¶þ£¬×Ó½Úµã¢ÝÖÐÖ»ÓÐÒ»¸öÕý³£ÑªÑ¹Ñù±¾£¬ÎªÒ¶½Úµã£¬±ê¼ÇÎªÕý³£ÑªÑ¹Àà£» ×Ó½Úµã¢ÞÖÐÓÐ3¸ö¸ßÑªÑ¹ÀàÑù±¾£¬ÎªÒ¶½Úµã£¬±ê¼ÇÎª¸ßÑªÑ¹Àà£¬ÈçÍ¼5ª²9(b)ËùÊ¾¡£
(4) Í¬ÑùµÄ·½·¨ÒÀ´Î´¦ÀíÖ±µ½Ò¶½Úµã£¬Éú³ÉµÄ¾ö²ßÊ÷ÈçÍ¼5ª²9(c)ËùÊ¾¡£
C4.5Ëã·¨²»ÐèÒªÊÂÏÈ½«Á¬ÐøÌØÕ÷ÀëÉ¢»¯ÎªÉÙÁ¿¼¶±ð£¬µ«ÔÚÉú³É¾ö²ßÊ÷µÄ¹ý³ÌÖÐ£¬È¡²»Í¬ãÐÖµ½«Á¬ÐøÌØÕ÷¶þÖµ»¯£¬»®·Ö·½°¸Ôö¶à¡£ÁíÍâ£¬C4.5Ëã·¨»¹¿ÉÒÔ´¦Àí²¿·ÖÌØÕ÷È±Ê§µÄÑù±¾¡£


Í¼5ª²9ÓÃC4.5Ëã·¨¶Ô±í5ª²4ÖÐÊý¾ÝÅÐ¶ÁÊÇ·ñ¸ßÑªÑ¹µÄ¾ö²ßÊ÷


4. CARTËã·¨
·ÖÀàºÍ»Ø¹éÊ÷(Classification And Regression Tree£¬CART)Ëã·¨Ò²ÊÇÒ»¸öºÜÖøÃûµÄ¾ö²ßÊ÷Ëã·¨£¬ºËÐÄË¼ÏëºÍID3·½·¨ÏàÍ¬£¬Ö÷Òª²»Í¬Ö®´¦ÔÚÓÚ£¬CARTÔÚÃ¿Ò»¸ö½ÚµãÉÏ¶¼²ÉÓÃ¶þ·Ö·¨£¬×îÖÕ¹¹³ÉÒ»¿Ã¶þ²æÊ÷£» CART¼È¿ÉÓÃÓÚ·ÖÀà£¬Ò²¿ÉÒÔÓÃÓÚ¹¹Ôì»Ø¹éÊ÷¶ÔÁ¬Ðø±äÁ¿½øÐÐ»Ø¹é¡£ÏÂÃæÖ÷Òª½éÉÜCART¹¹½¨ÓÃÓÚ·ÖÀàµÄ¾ö²ßÊ÷¡£
CART·ÖÀàÊ÷Ëã·¨Ê¹ÓÃ»ùÄáÏµÊý(Gini Index)À´Ñ¡Ôñ½Úµã·ÖÖ¦ÌØÕ÷¡£ÉèÑù±¾¼¯X={x1,x2,¡­,xN}ÓÐc¸öÀà±ð£¬ÆäÖÐµÚjÀàµÄ¸ÅÂÊÎªPj£¬»ùÄáÏµÊý¶¨ÒåÎª

Gini(X)=¡Æcj=1Pj1£­Pj=1£­¡Æcj=1P2j(5ª²13)

´Ó¶¨Òå¿ÉÒÔ¿´³ö£¬»ùÄáÏµÊý·´Ó³ÁË´ÓÑù±¾ÖÐËæ»ú³éÈ¡Á½¸öÑù±¾£¬ÆäÀà±ð±ê¼Ç²»Ò»ÑùµÄ¸ÅÂÊ¡£Òò´Ë£¬»ùÄáÏµÊýÔ½Ð¡£¬Á½¸öÑù±¾À´×Ô²»Í¬ÀàµÄ¸ÅÂÊÔ½Ð¡£¬Ñù±¾¼¯²»´¿¶ÈÔ½µÍ¡£
Èç¹û¸÷ÀàµÄÑù±¾ÊýÎªNj£¬ÔòÑù±¾¼¯XµÄ»ùÄáÏµÊýÎª


Gini(X)=1£­¡Æcj=1NjN2(5ª²14)

¾ö²ßÊ÷Éú³ÉÖÐ¸ù¾ÝÄ³¸öÌØÕ÷xi£¬i=1,2,¡­,n½«Ñù±¾¼¯»®·ÖÎªÁ½²¿·ÖX1ºÍX2£¬¸÷×ÔµÄÑù±¾ÊýÎªN1ºÍN2£¬°´ÕÕxi»®·ÖµÄÑù±¾¼¯µÄ»ùÄáÏµÊýÎª

Gini(X,xi)=N1NGini(X1)+N2NGini(X2)(5ª²15)

Ê¹ÓÃ»ùÄáÏµÊýÀ´´úÌæÐÅÏ¢ìØ´æÔÚÒ»¶¨µÄÎó²î£¬ÊÇìØÄ£ÐÍµÄÒ»¸ö½üËÆÌæ´ú¡£µ«ÊÇ£¬ÓÉÓÚÆä±ÜÃâÁË´óÁ¿µÄ¶ÔÊýÔËËã£¬Òò´Ë¼õÉÙÁË¼ÆËãÁ¿£¬¼ò»¯ÁËÄ£ÐÍµÄÔËÓÃ¡£
¡¾Àý5ª²10¡¿ÒÔ±í5ª²4ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬²ÉÓÃCARTËã·¨Éú³É·ÖÀà¾ö²ßÊ÷¡£
½â£º (1) ¸ù½Úµã·ÖÖ¦¡£¿¼²é²ÉÓÃ²»Í¬ÌØÕ÷»®·ÖÑù±¾ºóµÄ»ùÄáÏµÊý¡£
²ÉÓÃ¡°ÌåÖØ¡±ÌØÕ÷»®·ÖÑù±¾¼¯£º Õý³£×é5ÈË£¬¸ßÑªÑ¹2ÈË£¬·ÇÕý³£×é9ÈË£¬¸ßÑªÑ¹5ÈË£» Æ«ÖØ×é6ÈË£¬¸ßÑªÑ¹3ÈË£¬·ÇÆ«ÖØ×é8ÈË£¬¸ßÑªÑ¹4ÈË£» ³¬ÖØ×é3ÈË£¬¸ßÑªÑ¹2ÈË£¬·Ç³¬ÖØ×é11ÈË£¬¸ßÑªÑ¹5ÈË¡£ÈýÖÖ»®·ÖÇé¿öµÄ»ùÄáÏµÊý·Ö²¼Îª


Gini1weight=5141-252-352+9141-592-492=0.4889

Gini2weight=6141-362-362+8141-482-482=0.5

Gini3weight=3141-232-132+11141-5112-6112=0.4848


×îÐ¡µÄ»ùÄáÏµÊýÎª0.4848¡£
Í¬Àí£¬²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬°´ÕÕÓÍÄåºÍ·ÇÓÍÄå»®·Ö£¬»ùÄáÏµÊý×îÐ¡£¬Îª0.4500¡£
²ÉÓÃ¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬»ùÄáÏµÊýÎª0.4583¡£
¶ÔÓÚ¡°ÄêÁä¡±ÌØÕ÷£¬¸ù½Úµã°üº¬µÄÑù±¾ÔÚ¸ÃÌØÕ÷ÉÏµÄÈ¡ÖµÅÅÐòÎª{27£¬28£¬31£¬34£¬36£¬42£¬43£¬44£¬45£¬50£¬61£¬61£¬65£¬66}£» ãÐÖµTÈ¡ÖµÎª{27.5£¬29.5£¬32.5£¬35£¬39£¬42.5£¬43.5£¬44.5£¬47.5£¬55.5£¬63£¬65.5}£¬µ±T=27.5Ê±£¬¡°ÄêÁä£¼T¡±×é1ÈË£¬¸ßÑªÑ¹0ÈË£» ¡°ÄêÁä£¾T¡±×é13ÈË£¬¸ßÑªÑ¹7ÈË£¬»ùÄáÏµÊýÎª

Gini1age=1141-12+13141-7132-6132=0.4615

TÈ¡ÆäËûÖµÇé¿öÏÂ£¬»ùÄáÏµÊýÒÀ´ÎÎª0.5¡¢0.4848¡¢0.5¡¢0.4889¡¢0.5¡¢0.4898¡¢0.4583¡¢0.4889¡¢0.5¡¢0.5¡¢0.4615£¬×îÐ¡»ùÄáÏµÊýÎª0.4583£¬¶ÔÓ¦»®·ÖãÐÖµT=44.5¡£
²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯»ùÄáÏµÊý×îÐ¡£¬ÓÃ¸ÃÌØÕ÷½«¸ù½ÚµãÒ»·ÖÎª¶þ¡£

(2) ÏÂÒ»¼¶½Úµã·ÖÖ¦¡£
½Úµã¢Ú£¬4¸öÑù±¾£¬ÎªÐòºÅ1¡¢5¡¢6¡¢10£¬¸ßÑªÑ¹3ÈË£¬²ÉÓÃ¡°ÌåÖØ¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬Æ«ÖØ×é3ÈË£¬¸ßÑªÑ¹2ÈË£¬³¬ÖØ×é1ÈË£¬¸ßÑªÑ¹1ÈË£¬»ùÄáÏµÊýÎª0.3333¡£
²ÉÓÃ¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯£¬»ùÄáÏµÊýÎª0.25¡£
¶ÔÓÚ¡°ÄêÁä¡±ÌØÕ÷£¬¸ù½Úµã°üº¬µÄÑù±¾ÔÚ¸ÃÌØÕ÷ÉÏµÄÈ¡ÖµÅÅÐòÎª{27£¬34£¬50£¬61}£» ãÐÖµTÈ¡ÖµÎª{30.5£¬42£¬55.5}£¬µ±T=30.5Ê±£¬»ùÄáÏµÊýÎª×îÐ¡Öµ0¡£
²ÉÓÃ¡°ÄêÁä¡±ÌØÕ÷»®·ÖÑù±¾¼¯»ùÄáÏµÊý×îÐ¡£¬ÓÃÄêÁäªû30.5½«¸ù½ÚµãÒ»·ÖÎª¶þ¡£
(3) Í¬ÑùµÄ·½·¨ÒÀ´Î´¦ÀíÖ±µ½Ò¶½Úµã£¬Éú³ÉµÄ¾ö²ßÊ÷ÈçÍ¼5ª²10ËùÊ¾£¬·½¿ò±íÊ¾Ò¶½Úµã¡£½Úµã¢à²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ºÍ¡°ÄêÁä¡±»®·Ö»ùÄáÏµÊýÏàµÈ£¬´Ë´¦²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±»®·Ö¡£×îÖÕµÄ¾ö²ßÊ÷ÓÐ8¸öÒ¶½Úµã£¬¶ÔÓ¦8Ìõ¾ö²ß¹æÔò¡£


Í¼5ª²10ÓÃCARTËã·¨¶Ô±í5ª²4ÖÐÊý¾ÝÅÐ¶ÁÊÇ·ñ¸ßÑªÑ¹µÄ¾ö²ßÊ÷


5.3.3¹ýÑ§Ï°Óë¾ö²ßÊ÷µÄ¼ôÖ¦
´Ó5.3.2½ÚµÄÀý×Ó¿ÉÒÔ¿´³ö£¬¾ö²ßÊ÷¹¹½¨µÄÍ¬Ê±£¬½¨Á¢ÁË¾ö²ß¹æÔò£¬¿ÉÒÔÀûÓÃ¾ö²ß¹æÔò¶ÔÎ´ÖªÀà±ðµÄÑù±¾½øÐÐ·ÖÀà¡£ÒÀ¾ÝÓÐÏÞÑù±¾È«²¿ÕýÈ·»®·ÖÎª×¼Ôò½¨Á¢¾ö²ß¹æÔò£¬ÐèÒª¿¼ÂÇÎªÎ´À´Êý¾Ý·ÖÎöÊ±µÄ³É¹¦ÂÊ£¬¼´·ÖÀàÆ÷µÄ·º»¯ÐÔÄÜ¡£Èç¹ûÒ»¸öËã·¨ÔÚÑµÁ·Êý¾ÝÉÏ±íÏÖÁ¼ºÃ£¬µ«ÔÚ²âÊÔÊý¾Ý»òÎ´À´µÄÐÂÊý¾ÝÉÏµÄ±íÏÖÓëÔÚÑµÁ·Êý¾ÝÉÏ²î±ðºÜ´ó£¬³Æ¸ÃËã·¨Óöµ½ÁË¹ýÑ§Ï°»ò¹ýÊÊÓ¦¡£

ÔÚÓÐÏÞµÄÑù±¾ÏÂ£¬Èç¹û¾ö²ßÊ÷Éú³¤µÃºÜ´ó(·ÖÖ¦¶à¡¢¼¶±ð¶à)£¬Ôò¿ÉÄÜ»á×¥×¡ÓÉÓÚÅ¼È»ÐÔ»òÔëÉù´øÀ´µÄ¼ÙÏó£¬µ¼ÖÂ¹ýÑ§Ï°¡£ÀýÈçÀý5ª²7ÀûÓÃID3Ëã·¨Éú³ÉµÄ¾ö²ßÊ÷£¬½ö14¸öÑµÁ·Ñù±¾£¬È´Éú³ÉÁË12Ìõ¾ö²ß¹æÔò£¬Ã¿Ìõ¾ö²ß¹æÔò¶ÔÓ¦µÄÑù±¾ÊýºÜÉÙ£¬ºÜÓÐ¿ÉÄÜÊÇÅ¼È»ÏÖÏó£¬µ¼ÖÂÁË¶ÔÓÚ5¸ö´ý²âÑù±¾½øÐÐÅÐ¶ÏÊ±´íÎóÂÊ½Ï¸ß¡£
Òò´Ë£¬Òª¿ØÖÆ¾ö²ßÊ÷¹æÄ££¬¼´¼ôÖ¦(Prunning)£¬·ÀÖ¹³öÏÖ¹ýÑ§Ï°¡£¾ö²ßÊ÷¼ôÖ¦µÄ·½·¨ÓÐÁ½ÖÖ»ù±¾²ßÂÔ£º ÏÈ¼ôÖ¦ºÍºó¼ôÖ¦¡£
1. ÏÈ¼ôÖ¦
ÏÈ¼ôÖ¦Ö¸µÄÊÇÔÚ¾ö²ßÊ÷Éú³¤¹ý³ÌÖÐÅÐ¶Ï½ÚµãÊÇ¼ÌÐø·ÖÖ¦»¹ÊÇÖ±½Ó×÷ÎªÒ¶½Úµã£¬Ä³Ð©½Úµã²»ÔÙ·ÖÖ¦£¬½«¼õÐ¡¾ö²ßÊ÷µÄ¹æÄ£¡£
ÏÈ¼ôÖ¦µÄ¹Ø¼üÔÚÓÚÈ·¶¨½ÚµãÊÇ·ñ¼ÌÐø·ÖÖ¦µÄÅÐ¶ÏÌõ¼þ£¬ÓÐ¶àÖÖ·½·¨£¬±ÈÈç£º Éè¶¨ÐÅÏ¢ÔöÒæãÐÖµ£¬ÈôÐ¡ÓÚ¸ÃÖµ£¬ÔòÍ£Ö¹Éú³¤£¬µ«¸ÃãÐÖµ²»Ò×Éè¶¨£» Í³¼ÆÒÑÓÐ½ÚµãµÄÐÅÏ¢ÔöÒæ·Ö²¼£¬Èô¼ÌÐøÉú³¤µÃµ½µÄÐÅÏ¢ÔöÒæÓë¸Ã·Ö²¼Ïà±È²»ÏÔÖø£¬ÔòÍ£Ö¹Éú³¤µÈ¡£¼ôÖ¦Ö÷ÒªÊÇÎªÁËÌá¸ß¾ö²ßÊ÷·º»¯ÐÔÄÜ£¬¿ÉÒÔÍ¨¹ýÊµÊ±¼ì²âµ±Ç°¾ö²ßÊ÷¶ÔÓÚ²âÊÔÑù±¾¼¯µÄ¾ö²ßÐÔÄÜÀ´ÅÐ¶Ï½ÚµãÊÇ·ñ¼ÌÐø·ÖÖ¦£º ÐÔÄÜÓÐËùÌá¸ß£¬Ôò¼ÌÐø·ÖÖ¦£» ÐÔÄÜÃ»ÓÐÌá¸ß£¬ÔòÖ±½Ó×÷ÎªÒ¶½Úµã¡£
Òò´Ë£¬Éú³ÉÏÈ¼ôÖ¦¾ö²ßÊ÷Ê±£¬¶ÔÓÚÃ¿¸ö½Úµã£¬½øÐÐÈçÏÂ²Ù×÷£º 
(1) ½«½ÚµãÊÓÎªÒ¶½Úµã£¬±ê¼ÇÎª¸Ã½ÚµãÑµÁ·Ñù±¾ÖÐÊýÄ¿×î¶àµÄÀà±ð¡£
(2) ¼ÆËãµ±Ç°¾ö²ßÊ÷¶ÔÓÚ²âÊÔÑù±¾¼¯µÄ·ÖÀà¾«¶È¡£
(3) Ñ°ÕÒ½øÐÐ·ÖÖ¦µÄ×îÓÅÌØÕ÷²¢½øÐÐ·ÖÖ¦¡£
(4) ¶Ô·ÖÖ¦ºóµÄ×Ó½Úµã½øÐÐ±ê¼Ç¡£
(5) ÑéÖ¤·ÖÖ¦ºóµÄ¾ö²ßÊ÷·ÖÀà¾«¶ÈÊÇ·ñÓÐÌá¸ß£º ÈôÓÐ£¬Ôò½øÐÐ·ÖÖ¦£» ÈôÃ»ÓÐ£¬Ôò¼ôÖ¦(¼´½ûÖ¹·ÖÖ¦)£¬µ±Ç°½Úµã×÷ÎªÒ¶½Úµã¡£
¡¾Àý5ª²11¡¿ÒÔ±í5ª²5ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬15~20ºÅÑù±¾Îª²âÊÔÑù±¾£¬²ÉÓÃID3Ëã·¨Éú³ÉÏÈ¼ôÖ¦¾ö²ßÊ÷¡£
½â£º (1) ¸ù½ÚµãÊÇ·ñ·ÖÖ¦ÅÐ¶Ï¡£
Ê×ÏÈ£¬±ê¼Ç¡£µ±Ç°½Úµã14¸öÑù±¾£¬7¸ö¸ßÑªÑ¹£¬7¸öÕý³£ÑªÑ¹£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡£
Æä´Î£¬¼ÆËã·ÖÀà¾«¶È¡£µ±Ç°Îª¸ù½Úµã£¬ÈÏÎªËùÓÐµÄÑù±¾¾ùÎª¡°¸ßÑªÑ¹¡±£¬¶ÔÓÚ²âÊÔÑù±¾£¬6¸öÑù±¾3¸öÅÐ¶ÏÕýÈ·£¬·ÖÀà¾«¶ÈÎª3/6¡£
ÔÙ´Î£¬Ñ°ÕÒ½øÐÐ·ÖÖ¦µÄ×îÓÅÌØÕ÷²¢·ÖÖ¦¡£ÓÉÀý5ª²7¿ÉÖª£¬²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæ×î´ó£¬ÓÃ¸ÃÌØÕ÷½«¸ù½Úµã»®·ÖÎªÈý¸ö×Ó½Úµã¢Ú¢Û¢Ü£¬¸÷×ÔµÄÑù±¾Êý¼°¸ßÑªÑ¹Ñù±¾Êý·Ö±ðÎªÓÍÄå(4,3)£¬¾ùºâ(4,2)£¬Çåµ­(6,2)¡£
È»ºó£¬½Úµã¢Ú¢Û¢Ü·Ö±ð±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡°¸ßÑªÑ¹¡±ºÍ¡°Õý³£ÑªÑ¹¡±¡£
×îºó£¬ÑéÖ¤µ±Ç°¾ö²ßÊ÷µÄ·ÖÀà¾«¶È¡£²âÊÔÑù±¾¼¯ÖÐ16¡¢17¡¢18¡¢19ºÅÑù±¾·ÖÀàÕýÈ·£¬·ÖÀà¾«¶È4/6£¬ÓÐÌá¸ß£¬½øÐÐ·ÖÖ¦¡£
(2) ½Úµã¢ÚÊÇ·ñ·ÖÖ¦ÅÐ¶Ï¡£
Ê×ÏÈ£¬Ñ°ÕÒ½øÐÐ·ÖÖ¦µÄ×îÓÅÌØÕ÷²¢·ÖÖ¦¡£²ÉÓÃ¡°ÄêÁä¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæ×î´ó£¬ÓÃ¸ÃÌØÕ÷½«¸ù½Úµã»®·ÖÎªÈý¸ö×Ó½Úµã£¬¸÷×ÔµÄÑù±¾Êý¼°¸ßÑªÑ¹Ñù±¾Êý·Ö±ðÎªÇàÄê(2,1)£¬ÖÐÄê(1,1)£¬ÀÏÄê(1,1)¡£
Æä´Î£¬±ê¼Ç¡£Èý¸ö×Ó½Úµã¾ù±»±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡£
×îºó£¬ÑéÖ¤µ±Ç°¾ö²ßÊ÷µÄ·ÖÀà¾«¶È¡£²âÊÔÑù±¾¼¯ÖÐ16¡¢17¡¢18¡¢19ºÅÑù±¾±»ÕýÈ··ÖÀà£¬·ÖÀà¾«¶ÈÎª4/6£¬Ã»ÓÐÌá¸ß£¬½ûÖ¹¸Ã·ÖÖ¦£¬½Úµã¢ÚÎªÒ¶½Úµã£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡£

(3) ½Úµã¢ÛÊÇ·ñ·ÖÖ¦ÅÐ¶Ï¡£
Ê×ÏÈ£¬Ñ°ÕÒ½øÐÐ·ÖÖ¦µÄ×îÓÅÌØÕ÷²¢·ÖÖ¦¡£²ÉÓÃ¡°ÌåÖØ¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæ×î´ó£¬ÓÃ¸ÃÌØÕ÷½«¸ù½Úµã»®·ÖÎªÈý¸ö×Ó½Úµã£¬¸÷×ÔµÄÑù±¾Êý¼°¸ßÑªÑ¹Ñù±¾Êý·Ö±ðÎªÕý³£(1,1)£¬³¬ÖØ(2,1)£¬Æ«ÖØ(1,0)¡£
Æä´Î£¬±ê¼Ç¡£×Ó½Úµã·Ö±ð±»±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡°¸ßÑªÑ¹¡±ºÍ¡°Õý³£ÑªÑ¹¡±¡£
×îºó£¬ÑéÖ¤µ±Ç°¾ö²ßÊ÷µÄ·ÖÀà¾«¶È¡£²âÊÔÑù±¾¼¯ÖÐ17¡¢18ºÅÑù±¾±»ÕýÈ··ÖÀà£¬·ÖÀà¾«¶ÈÎª2/6£¬½µµÍÁË£¬½ûÖ¹¸Ã·ÖÖ¦£¬½Úµã¢ÛÎªÒ¶½Úµã£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±¡£

(4) ½Úµã¢ÜÊÇ·ñ·ÖÖ¦ÅÐ¶Ï¡£
Ê×ÏÈ£¬Ñ°ÕÒ½øÐÐ·ÖÖ¦µÄ×îÓÅÌØÕ÷²¢·ÖÖ¦¡£²ÉÓÃ¡°¸¸±²ÑªÑ¹¡±ÌØÕ÷»®·ÖÑù±¾¼¯ÐÅÏ¢ÔöÒæ×î´ó£¬ÓÃ¸ÃÌØÕ÷½«¸ù½Úµã»®·ÖÎªÁ½¸ö×Ó½Úµã£¬¸÷×ÔµÄÑù±¾Êý¼°¸ßÑªÑ¹Ñù±¾Êý·Ö±ðÎª¸ßÑªÑ¹(3,2)£¬Õý³£ÑªÑ¹(3,0)¡£


Í¼5ª²11»ùÓÚID3Ëã·¨ÀûÓÃ±í5ª²5
ÖÐÊý¾ÝÉú³ÉÏÈ¼ôÖ¦¾ö²ßÊ÷



Æä´Î£¬±ê¼Ç¡£×Ó½Úµã·Ö±ð±»±ê¼ÇÎª¡°¸ßÑªÑ¹¡±ºÍ¡°Õý³£ÑªÑ¹¡±¡£
×îºó£¬ÑéÖ¤µ±Ç°¾ö²ßÊ÷µÄ·ÖÀà¾«¶È¡£²âÊÔÑù±¾¼¯ÖÐ16¡¢17¡¢18¡¢19ºÅÑù±¾±»ÕýÈ··ÖÀà£¬·ÖÀà¾«¶ÈÎª4/6£¬Ã»ÓÐÌá¸ß£¬½ûÖ¹·ÖÖ¦£¬½Úµã¢ÜÎªÒ¶½Úµã£¬±ê¼ÇÎª¡°Õý³£ÑªÑ¹¡±¡£
Ã»ÓÐ¿É·ÖÖ¦µÄ½Úµã£¬¾ö²ßÊ÷Éú³Éµ½´ËÎªÖ¹£¬×îÖÕÐÎ³ÉµÄÏÈ¼ôÖ¦¾ö²ßÊ÷ÈçÍ¼5ª²11ËùÊ¾¡£

ÓÉÀý5ª²11¿ÉÖª£¬¹¹½¨¾ö²ßÊ÷Ê±½øÐÐÏÈ¼ôÖ¦£¬ºÜ¶à·ÖÖ¦Î´Õ¹¿ª£¬½µµÍÁË¹ýÑ§Ï°µÄ·çÏÕ£¬¼õÉÙÁËÑµÁ·Ê±¼ä¡¢²âÊÔÊ±¼ä¿ªÏú£» ÓÐÐ©·ÖÖ¦Ëä²»ÄÜÌáÉý·º»¯ÐÔÄÜ£¬µ«ÔÚÆä»ù´¡ÉÏµÄºóÐø»®·ÖÓÐ¿ÉÄÜÌá¸ßÐÔÄÜ£¬Òò´Ë£¬ÏÈ¼ôÖ¦ÓÐ¿ÉÄÜ´øÀ´Ç·Ñ§Ï°µÄ·çÏÕ¡£

2. ºó¼ôÖ¦
ºó¼ôÖ¦Ö¸µÄÊÇÔÚ¾ö²ßÊ÷³ä·ÖÉú³¤ºó¶ÔÆä½øÐÐÐÞ¼ô£¬ºËÐÄË¼ÏëÊÇºÏ²¢·ÖÖ¦£¬´ÓÒ¶½Úµã³ö·¢£¬Èç¹ûÏû³ý¾ßÓÐÏàÍ¬¸¸½ÚµãµÄ½ÚµãºóÄÜ¹»Ìá¸ß¾ö²ßÊ÷µÄ·º»¯ÐÔÄÜÔòÏû³ý£¬²¢ÒÔÆä¸¸½Úµã×÷ÎªÐÂµÄÒ¶½Úµã£» ²»¶ÏµØ´ÓÒ¶½ÚµãÍùÉÏ»ØËÝ£¬Ö±µ½ºÏ²¢²Ù×÷²»ÔÙºÏÊÊÎªÖ¹¡£
Òò´Ë£¬Éú³Éºó¼ôÖ¦¾ö²ßÊ÷Ê±£¬½øÐÐÈçÏÂ²Ù×÷£º 
(1) Éú³ÉÒ»¿ÃÍêÕûµÄ¾ö²ßÊ÷£¬²¢¼ÆËã¾ö²ßÊ÷¶ÔÓÚ²âÊÔÑù±¾¼¯µÄ·ÖÀà¾«¶È¡£
(2) ´Ó×î¸ß¼¶¿ªÊ¼ºÏ²¢½Úµã£¬¶ÔÆä¸¸½Úµã½øÐÐ±ê¼Ç¡£
(3) ¼ÆËãºÏ²¢·ÖÖ¦ºóµÄ¾ö²ßÊ÷·ÖÀà¾«¶È£¬²¢ÅÐ¶ÏÊÇ·ñÓÐÌá¸ß£º ÈôÓÐ£¬Ôò¼ôÖ¦(¼´½øÐÐºÏ²¢)£» ÈôÃ»ÓÐ£¬Ôò²»¼ôÖ¦(±£Áô·ÖÖ¦)¡£
(4) ÏòÉÏ»ØËÝ£¬ÖØ¸´(2)¡¢(3)µÄºÏ²¢¡¢ÅÐ¶Ï²Ù×÷£¬Ö±µ½²»ÔÙÐèÒªºÏ²¢ÎªÖ¹¡£
¡¾Àý5ª²12¡¿ÒÔ±í5ª²5ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬15~20ºÅÑù±¾Îª²âÊÔÑù±¾£¬²ÉÓÃID3Ëã·¨Éú³Éºó¼ôÖ¦¾ö²ßÊ÷¡£
½â£º (1) Éú³ÉÍêÕûµÄ¾ö²ßÊ÷ÈçÍ¼5ª²12(a)ËùÊ¾£¬¶Ô²âÊÔÑù±¾½øÐÐ·ÖÀà£¬6¸öÑù±¾£¬Á½¸öÕýÈ·£¬·ÖÀà¾«¶ÈÎª2/6¡£


Í¼5ª²12»ùÓÚID3Ëã·¨ÀûÓÃ±í5ª²5ÖÐÊý¾ÝÉú³Éºó¼ôÖ¦¾ö²ßÊ÷


(2) ºÏ²¢µÚ3¼¶µÄ½ÚµãºÍ£¬Æä¸¸½Úµã¢Ý£¬2¸öÑù±¾ÖÐ1¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ2¸öÅÐ¶ÏÕýÈ·£¬¾«¶È²»±ä£¬²»¼ôÖ¦¡£
(3) ºÏ²¢µÚ3¼¶µÄ½ÚµãºÍ£¬Æä¸¸½Úµã¢á£¬2¸öÑù±¾ÖÐ1¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ2¸öÅÐ¶ÏÕýÈ·£¬¾«¶È²»±ä£¬²»¼ôÖ¦¡£
(4) ºÏ²¢µÚ3¼¶µÄ½Úµã¡¢ºÍ£¬Æä¸¸½Úµã£¬3¸öÑù±¾ÖÐ2¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ2¸öÅÐ¶ÏÕýÈ·£¬¾«¶È²»±ä£¬²»¼ôÖ¦¡£
(5) ºÏ²¢µÚ2¼¶µÄ½Úµã¢Ý¡¢¢ÞºÍ¢ß£¬Æä¸¸½Úµã¢Ú£¬4¸öÑù±¾ÖÐÓÐ3¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ2¸öÅÐ¶ÏÕýÈ·£¬¾«¶È²»±ä£¬²»¼ôÖ¦¡£
(6) ºÏ²¢µÚ2¼¶µÄ½Úµã¢à¡¢¢áºÍ¢â£¬Æä¸¸½Úµã¢Û£¬4¸öÑù±¾ÖÐÓÐ2¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ4¸öÅÐ¶ÏÕýÈ·£¬¾«¶ÈÌá¸ß£¬¼ôÖ¦¡£

(7) ºÏ²¢µÚ2¼¶µÄ½ÚµãºÍ£¬Æä¸¸½Úµã¢Ü£¬6¸öÑù±¾ÖÐÓÐ2¸ö¸ßÑªÑ¹Ñù±¾£¬±ê¼ÇÎª¡°Õý³£ÑªÑ¹¡±£» ¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ4¸öÅÐ¶ÏÕýÈ·£¬¾«¶ÈÃ»ÓÐÌá¸ß£¬²»¼ôÖ¦¡£
(8) ºÏ²¢µÚ1¼¶µÄ½Úµã¢Ú¡¢¢ÛºÍ¢Ü£¬Æä¸¸½ÚµãÎª¸ù½Úµã£¬±ê¼ÇÎª¡°¸ßÑªÑ¹¡±£¬¶Ô²âÊÔÑù±¾½øÐÐÑéÖ¤£¬6¸öÑù±¾ÖÐ3¸öÅÐ¶ÏÕýÈ·£¬¾«¶ÈÃ»ÓÐÌá¸ß£¬²»¼ôÖ¦¡£
ÖÁ´Ë£¬Ã»ÓÐ½Úµã¿ÉÒÔÔÙºÏ²¢£¬×îºóÉú³ÉµÄºó¼ôÖ¦¾ö²ßÊ÷ÈçÍ¼5ª²12(b)ËùÊ¾¡£

ÓÉÀý5ª²12¿ÉÖª£¬¹¹½¨¾ö²ßÊ÷Ê±½øÐÐºó¼ôÖ¦£¬±ÈÏÈ¼ôÖ¦±£ÁôÁË¸ü¶àµÄ·ÖÖ§£¬Ç·Ñ§Ï°·çÏÕÐ¡£¬·º»¯ÐÔÄÜÒ»°ãÓÅÓÚÏÈ¼ôÖ¦¾ö²ßÊ÷£» µ«ÊÇÓÉÓÚÐèÒªÏÈÉú³ÉÍêÕû¾ö²ßÊ÷£¬ÑµÁ·Ê±¼äºÍ²âÊÔÊ±¼ä¿ªÏú´ó¡£
5.3.4·ÂÕæÊµÏÖ
MATLABÖÐÌá¹©ÁËÉú³É·ÖÀà¾ö²ßÊ÷µÄÏàÓ¦º¯Êý£¬¶ÔÆä½øÐÐ¼òÒª½éÉÜ¡£
1) ClassificationTreeÀà
±íÊ¾ÓÃÓÚ·ÖÀàµÄ¶þ·Ö¾ö²ßÊ÷£¬Ê¹ÓÃfitctreeº¯Êý´´½¨ClassificationTreeÀà¶ÔÏó£¬Ê¹ÓÃpredictº¯Êý¶ÔÑù±¾½øÐÐ·ÖÀà¾ö²ß£¬ÓÐ¶àÖÖÊôÐÔºÍº¯Êý¡£
2) fitctreeº¯Êý
Ê¹ÓÃCARTËã·¨´´½¨ClassificationTreeÀà¶ÔÏó£¬µ÷ÓÃ¸ñÊ½ÈçÏÂ¡£
(1) TREE=fitctree(TBL,Y)£º ÀûÓÃ±íTBLÖÐµÄÊý¾ÝÑµÁ·ClassificationTreeÀàTREE£¬Y¿ÉÒÔÊÇÀà±ð±êºÅ¾ØÕó¡¢TBLÖÐ±äÁ¿Ãû»òÕßÓÃ×Ö·û´®±íÊ¾µÄ¹«Ê½¡£
(2) TREE=fitctree(X,Y)£º ÀûÓÃXÖÐµÄÊý¾ÝÑµÁ·ClassificationTreeÀàTREE¡£XÎªN¡ÁnµÄ¾ØÕó£¬YÖ¸¶¨N¸öÑù±¾µÄÀà±ð±êºÅ¡£
(3) TREE=fitctree(...,'PARAM1',val1,'PARAM2',val2,¡­)£º Ö¸¶¨²ÎÊýÑµÁ·¾ö²ßÊ÷¡£²¿·Ö²ÎÊýÈç±í5ª²6ËùÊ¾¡£


±í5ª²6fitctreeº¯Êý²¿·Ö²ÎÊý



²ÎÊýÃû³ÆÈ¡Öµ¼°º¬Òå
ClassNamesÀàÃû³Æ¾ØÕó£¬Ö¸¶¨²ÎÓëÑµÁ·µÄÀà±ð£¬Ê¹ÓÃYÖÐµÄÈ«²¿»ò²¿·ÖÔªËØ¶ÔÓ¦µÄÀà£¬Ä¬ÈÏÎªÈ«²¿
Cost·½Õó£¬Cost(i,j)Îª¦ØiÀàÑù±¾¹éÎª¦ØjÀàµÄËðÊ§£¬Ä¬ÈÏÎª0~1ËðÊ§
MaxNumSplits×î´ó·ÖÖ§½ÚµãÊý£¬Ä¬ÈÏÎªsize(X,1)-1


Ðø±í




²ÎÊýÃû³ÆÈ¡Öµ¼°º¬Òå
MinLeafSizeÖ¸¶¨Ò¶½Úµã×îÉÙÒª°üº¬µÄÑù±¾Êý£¬Ä¬ÈÏÎª1
MinParentSizeÖ¸¶¨ÄÚ²¿½Úµã×îÉÙÒª°üº¬µÄÑù±¾Êý¡£Ä¬ÈÏÎª10
PruneÈ¡'on'(Ä¬ÈÏ)£¬½øÐÐ¼ôÖ¦£» È¡'off'£¬²»¼ôÖ¦
PruneCriterionÖ¸¶¨¼ôÖ¦±ê×¼£¬¿ÉÈ¡'error'(Ä¬ÈÏ)»ò'impurity'
SplitCriterionÖ¸¶¨·ÖÖ¦×¼Ôò£¬¿ÉÈ¡'gdi'(»ùÄáµÄ¶àÑùÐÔÖ¸Êý£¬Ä¬ÈÏ)¡¢'twoing'¡¢'deviance'
WeightsÑù±¾È¨ÖµÏòÁ¿£¬Ä¬ÈÏÎªÈ«1

3) predictº¯Êý
(1) label= predict(TREE,X)£º ÀûÓÃÑµÁ·ºÃµÄClassificationTreeÄ£ÐÍTREE¶Ô¾ØÕó»ò±íXÖÐµÄÊý¾Ý½øÐÐ·ÖÀà¾ö²ß£¬·µ»Ø·ÖÀà±êÇ©ÏòÁ¿¡£
(2) label=predict(TREE,X,'Subtrees',value)£º ¸ù¾ÝSubtreesÖ¸¶¨¼¶±ðµÄ¼ôÖ¦×ÓÊ÷½øÐÐÔ¤²â¡£'Subtrees'¿ÉÈ¡°´ÉýÐòÅÅÁÐµÄ·Ç¸ºÕûÊýµÄÏòÁ¿£¬0±íÊ¾²»ÐÞ¼ôµÄÍêÕû¾ö²ßÊ÷£¬max(TREE.PruneList)±íÊ¾Ö»º¬¸ù½Úµã£» È¡'all'£¬ÒªÔÚ0:max(TREE.PruneList)Õû¸ö·¶Î§µÄ¼ôÖ¦×ÓÊ÷ÉÏ½øÐÐ¾ö²ß¡£
(3) £Ûlabel,score,node,cnum£Ý=predict(¡­)£º Í¬Ê±·µ»Ø·ÖÀàµÃ·Ö¾ØÕó(ºóÑé¸ÅÂÊ)score¡¢Ô¤²âµÄ½ÚµãÐòºÅÏòÁ¿nodeºÍÔ¤²âµÄÀà±ð±àºÅÏòÁ¿cnum¡£
4) viewº¯Êý
(1) view(TREE)£º ÔÚÃüÁî´°¿ÚÊä³ö¾ö²ßÊ÷TREEµÄÎÄ×ÖÃèÊö£¬ÒÔ²é¿´Éú³ÉµÄ¾ö²ßÊ÷¡£
(2) view(TREE,'Mode',Value)£º Ö¸¶¨¾ö²ßÊ÷µÄ²é¿´·½Ê½¡£'Mode'¿ÉÈ¡'text'(Ä¬ÈÏ)»ò'graph'£¬ºóÕß½«´ò¿ª·ÖÀàÊ÷²é¿´Æ÷ÊµÏÖ½»»¥Ê½²é¿´¡£
5) pruneº¯Êý
(1) tree1= prune(TREE)£º Éú³É¾ö²ßÊ÷TREEµÄ×î¼Ñ¼ôÖ¦¾ö²ßÊ÷¡£
(2) tree1=prune(TREE,Name,Value)£º Ö¸¶¨²ÎÊýÉú³É¼ôÖ¦¾ö²ßÊ÷¡£²ÎÊý°üÀ¨£º 'Alpha'£¬¼ôÖ¦´ú¼Û£» 'Level'£¬0µ½max(TREE.PruneList)µÄÊýÖµ£¬¼ôÖ¦¼¶±ð£¬Ò¶½Úµã¶ÔÓ¦0¼¶£¬ÄÚ²¿½ÚµãµÄ¼¶±ðÊÇÆäµ½×îÔ¶Ò¶½ÚµãµÄ¼¶²î£» 'Nodes'£¬È¡ÖµÔÚ1µ½TREE.NumNodesµÄÊýÖµÏòÁ¿£¬Ö¸¶¨µÄ½ÚµãÎªtree1µÄÒ¶½Úµã¡£
¡¾Àý5ª²13¡¿ÒÔ±í5ª²4ÖÐµÄ1~14ºÅÑù±¾ÎªÑµÁ·Ñù±¾£¬²ÉÓÃfitctreeº¯ÊýÉú³É·ÖÀà¾ö²ßÊ÷£¬²¢¶Ô15~20ºÅÑù±¾½øÐÐ²âÊÔ¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

Age=£Û34;28;42;45;50;61;65;36;31;27;44;43;61;66£Ý;             %ÄêÁäÌØÕ÷

Weight={'³¬ÖØ';'Õý³£';'Æ«ÖØ';'³¬ÖØ';'Æ«ÖØ';'Æ«ÖØ';'Õý³£';¡­

'³¬ÖØ';'Õý³£';'Æ«ÖØ';'Æ«ÖØ';'Æ«ÖØ';'Õý³£';'Õý³£¡¯'};     %ÌåÖØÌØÕ÷

Diet={'ÓÍÄå';'¾ùºâ';'Çåµ­';'¾ùºâ';'ÓÍÄå';'ÓÍÄå';'Çåµ­';¡­

'¾ùºâ';'Çåµ­';'ÓÍÄå';'Çåµ­';'¾ùºâ';'Çåµ­';'Çåµ­'};        %ÒûÊ³Æ«ºÃÌØÕ÷

Parent={'¸ß';'¸ß';'¸ß';'Õý³£';'Õý³£';'Õý³£';'¸ß';¡­

'Õý³£';'¸ß';'¸ß';'Õý³£';'Õý³£';'Õý³£';'Õý³£'};           %¸¸±²ÑªÑ¹ÌØÕ÷

X=table(Age,Weight,Diet,Parent);                                %´´½¨±í

Y={'ÊÇ';'ÊÇ';'ÊÇ';'ÊÇ';'ÊÇ';'ÊÇ';'ÊÇ';'·ñ';'·ñ';'·ñ';'·ñ';'·ñ';'·ñ';'·ñ¡¯}; %Àà±ð±êÇ©

ctree=fitctree(X,Y,'Prune','off','MinParentSize',2);  

%Éú³É²»¼ôÖ¦¾ö²ßÊ÷£¬ÄÚ²¿½Úµã×îÉÙ2¸öÑù±¾

view(ctree)                 %ÔÚÃüÁî´°¿ÚÊä³ö¾ö²ßÊ÷µÄÎÄ×ÖÃèÊö

view(ctree,'mode','graph')              %¾ö²ßÊ÷Í¼ÐÎÏÔÊ¾

Age=£Û25;35;48;40;63;62£Ý;

Weight={'Õý³£¡¯;¡¯Æ«ÖØ¡¯;¡¯³¬ÖØ¡¯;¡¯Õý³£¡¯;¡¯Æ«ÖØ¡¯;¡¯Õý³£¡¯'};

Diet={'¾ùºâ¡¯;¡¯¾ùºâ¡¯;¡¯ÓÍÄå¡¯;¡¯Çåµ­¡¯;¡¯¾ùºâ¡¯;¡¯¾ùºâ'};

Parent={'Õý³£¡¯;¡¯Õý³£¡¯;¡¯¸ß¡¯;¡¯Õý³£¡¯;¡¯¸ß¡¯;¡¯Õý³£'};

test=table(Age,Weight,Diet,Parent);    %²âÊÔÑù±¾±í

£Ûlabel,score,node,cnum£Ý=predict(ctree,test);   %¶Ô²âÊÔÑù±¾½øÐÐ¾ö²ß·ÖÀà

³ÌÐòÔËÐÐ£¬½«ÔÚÃüÁî´°¿ÚÊä³öÎÄ×ÖÃèÊöµÄ¾ö²ßÊ÷£¬Í¼ÐÎÏÔÊ¾µÄ¾ö²ßÊ÷ÈçÍ¼5ª²13ËùÊ¾£¬ºÍÍ¼5ª²10Ò»ÖÂ£¬×îºóÒ»¸ö½Úµã²ÉÓÃ¡°ÒûÊ³Æ«ºÃ¡±ºÍ¡°ÄêÁä¡±»®·Ö»ùÄáÏµÊýÏàµÈ£¬³ÌÐòÖÐ¡°ÄêÁä¡±ÌØÕ÷ÔÚÇ°£¬Òò´Ë²ÉÓÃ¡°ÄêÁä¡±»®·Ö¡£6¸ö²âÊÔÑù±¾·ÖÀà½á¹ûÒÀ´ÎÎª·ñ¡¢·ñ¡¢ÊÇ¡¢·ñ¡¢ÊÇ¡¢·ñ£¬16ºÅÑù±¾ÅÐ¶Ï´íÎó¡£


Í¼5ª²13fitctreeÉú³ÉµÄÅÐ¶ÁÊÇ·ñ¸ßÑªÑ¹µÄÎ´¼ôÖ¦¾ö²ßÊ÷


¡¾Àý5ª²14¡¿ÀûÓÃfisheririsÊý¾Ý¼¯Éè¼Æ¾ö²ßÊ÷£¬Éú³É¼ôÖ¦¾ö²ßÊ÷£¬²¢ÀûÓÃ²»Í¬¼ôÖ¦¾ö²ßÊ÷¶ÔÑù±¾£Û4.83.51.50.2£ÝT½øÐÐÅÐ±ð¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

load fisheriris 

ctree=fitctree(meas,species,'Prune','off','MinParentSize',5);%Éú³É²»¼ôÖ¦¾ö²ßÊ÷

view(ctree,'mode','graph')

subtree=prune(ctree,'Level',2);                                  %Éú³É2¼¶¼ôÖ¦¾ö²ßÊ÷

view(subtree,'Mode','graph'); 

pattern=£Û4.8 3.5 1.5 0.2£Ý;

label1=predict(ctree,pattern)                                     %Ê¹ÓÃ²»¼ôÖ¦¾ö²ßÊ÷¾ö²ß

label2=predict(ctree,pattern,'Subtrees','all')                 %Ê¹ÓÃ¸÷¼¶¼ôÖ¦¾ö²ßÊ÷¾ö²ß

label3=predict(subtree,pattern)                                   %Ê¹ÓÃ2¼¶¼ôÖ¦¾ö²ßÊ÷¾ö²ß

³ÌÐòÔËÐÐ£¬Éú³ÉµÄ¾ö²ßÊ÷ÈçÍ¼5ª²14ËùÊ¾£¬Í¬Ê±ÔÚÃüÁî´°¿ÚÊä³ö¾ö²ß½á¹û£º label1={'setosa'}£» label2 Îª1¡Á5µÄÔª°ûÊý×é£¬5¸öÔªËØ¾ùÎª{'setosa'}£¬·Ö±ð¶ÔÓ¦0~4¼¶¼ôÖ¦¾ö²ßÊ÷µÄ¾ö²ß½á¹û£» label3 ={'setosa'}¡£


Í¼5ª²14ÀûÓÃfisheririsÊý¾Ý¼¯Éú³ÉµÄ¾ö²ßÊ÷



5.4Logistic»Ø¹é
Logistic»Ø¹é(Logistic Regression)ÊÇÒ»ÖÖ¾­µä·ÖÀà·½·¨£¬Ò²³ÆÎª¶ÔÊý¸ÅÂÊ»Ø¹é(Ò²ÓÐÎÄÏ×ÒëÎª¡°Âß¼­»Ø¹é¡±¡°Âß¼­Ë¹ÚÐ»Ø¹é¡±µÈ)£¬ÊÇ²ÉÓÃ¶ÔÊý¸ÅÂÊÄ£ÐÍÃèÊöÑù±¾ÊôÓÚÄ³ÀàµÄ¿ÉÄÜÐÔÓëÑù±¾ÌØÕ÷Ö®¼äµÄ¹ØÏµ£¬ÓÃÑµÁ·Êý¾Ý¹À¼ÆÄ£ÐÍÖÐµÄÏµÊý£¬½ø¶øÊµÏÖ·ÖÀàµÄ·½·¨¡£

5.4.1»ù±¾Ô­Àí
¿¼ÂÇ¶þ·ÖÀàÈÎÎñ£¬²ÉÓÃÏßÐÔÅÐ±ðº¯Êýg(x)=wTx+w0¶ÔÑù±¾x½øÐÐ¹éÀàÅÐ±ð£¬ÉèÀà±ð±êÇ©y¡Ê{0,1}£¬½«Ñù±¾¹éÀà£¬ÐèÒª¸ù¾Ýg(x)µÄÖµÅÐ¶ÏyµÄÖµ£¬Òò´Ë£¬ÓÐ

y=f£Ûg(x)£Ý(5ª²16)

f(¡¤)³ÆÎªLinkº¯Êý(Link Function)¡£
ÀýÈç£º µ±g(x)£¾0Ê±£¬x¡Ê¦Ø1£¬y=1£» µ±g(x)£¼0Ê±£¬x¡Ê¦Ø2£¬y=0£» µ±g(x)=0Ê±£¬¿ÉÒÔÈÎÒâÅÐ±ð¡£Linkº¯Êýf(¡¤)Êµ¼ÊÊÇµ¥Î»½×Ô¾º¯Êý£¬¼´

y=0£¬g(x)£¼0

0.5£¬g(x)=0

1£¬g(x)£¾0(5ª²17)

º¯ÊýÈçÍ¼5ª²15ËùÊ¾¡£
µ¥Î»½×Ô¾º¯Êý²»Á¬Ðø£¬ÓÃµ¥µ÷¿ÉÎ¢µÄLogisticº¯Êý½üËÆ±í´ïµ¥Î»½×Ô¾º¯ÊýÎª

y=11+e£­g(x)(5ª²18)

Logisticº¯Êý½«g(x)µÄÖµ×ª»»ÎªÒ»¸ö½Ó½ü0»ò1µÄyÖµ£¬ÔÚg(x)=0¸½½ü±ä»¯ºÜ¶¸£¬Í¼ÐÎÈçÍ¼5ª²15ÖÐÐéÏßËùÊ¾¡£


Í¼5ª²15µ¥Î»½×Ô¾º¯ÊýºÍLogisticº¯Êý


ÓÉÊ½(5ª²17)¿ÉÖª£¬y¿ÉÒÔ¿´×÷½«Ñù±¾x¹éÎª¦Ø1ÀàµÄ¿ÉÄÜÐÔ£¬Ôò1-yÊÇ½«Ñù±¾¹éÎª¦Ø2ÀàµÄ¿ÉÄÜÐÔ£¬µ±y£¾1-yÊ±£¬x¡Ê¦Ø1£» µ±y£¼1-yÊ±£¬x¡Ê¦Ø2¡£¶¨Òå¸ÅÂÊÎª

y1£­y=ewTx+w0(5ª²19)

·´Ó³ÁËx¹éÎª¦Ø1ÀàµÄÏà¶Ô¿ÉÄÜÐÔ¡£
¶Ô¸ÅÂÊÈ¡¶ÔÊýµÃµ½logitº¯Êý

logit(x)=lny1£­y=wTx+w0(5ª²20)

±íÃ÷Ñù±¾ÊôÓÚÄ³ÀàµÄ¿ÉÄÜÐÔÓëÑù±¾Ö®¼ä³ÊÏßÐÔ¹ØÏµ¡£ºÜÃ÷ÏÔ

µ±logit(x)ªò0Ê±£¬x¡Ê¦Ø1

¦Ø2(5ª²21)

Èç¹ûÄÜ¹»È·¶¨wºÍw0£¬Ôò¿ÉÒÔÈ·¶¨logitº¯Êý£¬´Ó¶øÊµÏÖ·ÖÀà¡£
½øÒ»²½£¬Ñù±¾ÊôÓÚÄ³Ò»ÀàµÄ¿ÉÄÜÐÔÓÃºóÑé¸ÅÂÊÀ´±íÊ¾£¬logitº¯ÊýÖØÐ´Îª

lnPy=1|xPy=0|x=wTx+w0(5ª²22)

ÆäÖÐ£¬


P(y=1|x)=11+e£­wTx+w0=ewTx+w01+ewTx+w0(5ª²23)

P(y=0|x)=1-P(y=1|x)=e£­wTx+w01+e£­wTx+w0=11+ewTx+w0(5ª²24)


²ÉÓÃ×î´óËÆÈ»¹À¼ÆµÄ·½·¨È·¶¨wºÍw0£¬¸ø¶¨Êý¾Ý¼¯X={x1,x2,¡­,xN}£¬¶ÔÓ¦µÄÀà±ð±êºÅÎªY={y1,y2,¡­,yN}£¬¶ÔÓÚÃ¿Ò»¸öÑù±¾xi£¬i=1,2,¡­,N£¬ÓÐyi¡Ê{0,1}£¬Ôò


P(yi|xi; w,w0)=Pyi=1|xi; w,w0yi
1-Pyi=1|xi; w,w01-yi(5ª²25)


¶¨Òå¶ÔÊýËÆÈ»º¯ÊýÎª

h(w,w0)=¡ÆNi=1lnP(yi|xi; w,w0)(5ª²26)

½«Ê½(5ª²23)¡¢Ê½(5ª²24)ºÍÊ½(5ª²25)´úÈëÊ½(5ª²26)£¬µÃ

h(w,w0)=¡ÆNi=1£­yiln1+e£­(wTxi+w0)£­(1£­yi)ln(1+ewTxi+w0)(5ª²27)

¶ÔÊýËÆÈ»º¯ÊýÇó×î´óÖµµÃµ½×îÓÅµÄwºÍw0£¬»òÕß¶Ô¸º¶ÔÊýËÆÈ»º¯ÊýÇó×îÐ¡Öµ£¬¼´

-h(w,w0)=¡ÆNi=1yiln1+e£­(wTxi+w0)+1£­yiln1+ewTxi+w0(5ª²28)

¿ÉÒÔÍ¨¹ýµü´ú²ßÂÔÇó½â¡£
¡¾Àý5ª²15¡¿ÈýÎ¬¿Õ¼äÁ½Àà·ÖÀàÎÊÌâ£¬Ñù±¾¼¯Îª

¦Ø1:000T,101T,100T,110T

¦Ø2:001T,011T,010T,111T

ÊÔÓÃLogistic»Ø¹éÇó½âÅÐ±ðº¯ÊýÈ¨ÏòÁ¿£¬²¢¶ÔÑù±¾£Û00.60.8£ÝT½øÐÐÅÐ±ð¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

gX=@(W,X) W(1)*X(:,1)+W(2)*X(:,2)+W(3)*X(:,3)+W(4);    %ÏßÐÔº¯Êý

logisticfun=@(W,X) 1./(1+exp(-gX(W,X)));                 %Logisticº¯Êý

training=£Û0 0 0;1 0 0;1 0 1;1 1 0;0 0 1;0 1 1;0 1 0;1 1 1£Ý;

label=£Û1;1;1;1;0;0;0;0£Ý;                                     %ÑµÁ·Ñù±¾¼¯Àà±ð±êÇ©

negloglikfun=@(W) -sum(label.*log(logisticfun(W,training))+...

(1-label).*log(1-logisticfun(W,training)));%¸º¶ÔÊýËÆÈ»º¯Êý

W0=£Û0;0;0;0£Ý;                                                  %µü´úÇó½â³õÊ¼Öµ

opts=optimset('fminsearch');

opts.MaxFunEvals=Inf;

opts.MaxIter=10000;                                           %Çó×îÐ¡ÖµµÄÏà¹ØÉèÖÃ

WHatML=fminsearch(negloglikfun,W0,opts)         %ÇóÎÞÔ¼Êø¶à±äÁ¿º¯ÊýµÄ×îÐ¡Öµ

pattern=£Û0 0.6 0.8£Ý;                                          %´ý²âÑù±¾

logitX=WHatML(1)*pattern(1)+WHatML(2)*pattern(2)+WHatML(3)*pattern(3)+WHatML(4);

if logitX>0                                       %¼ÆËãlogitº¯ÊýÖµ²¢ÅÐ¶ÏÀà±ð

result=1;

else 

result=0;

end

³ÌÐòÖÐÀûÓÃÁËfminsearchº¯ÊýÊµÏÖ¸º¶ÔÊýËÆÈ»º¯ÊýÇó×îÐ¡Öµ£¬¸Ãº¯ÊýÀûÓÃNelderª²Meadµ¥´¿ÐÔËã·¨Çó¼«Öµ¡£³ÌÐòÖÐ×îÐ¡Öµ¶ÔÓ¦µÄÈ¨ÏòÁ¿WHatMLÎª£Û23.5306-24.3546-24.086212.5739£ÝT£¬µ«ÊÇÊÜ³õÖµµÄÓ°Ïì»á·¢Éú±ä»¯¡£´ý²âÑù±¾Àà±ð±êÇ©Îª0£¬¹éÎªµÚ¶þÀà¡£
5.4.2¶à·ÖÀàÈÎÎñ
ÉèÑµÁ·Ñù±¾¼¯ÎªX={x1,x2,¡­,xN}£¬¸÷×ÔµÄÀà±ð±êºÅyi¡Ê{1,2,¡­,c}£¬c£¾2ÎªÀà±ðÊý¡£¼Ç½«Ñù±¾x±ê¼ÇÎªjµÄ¸ÅÂÊÎªPj=P(y=j|x)£¬j=1,2,¡­,c£¬¡Æcj=1Pj=1£¬¸ÄÐ´Ê½(5ª²22)Îª




lnPj¡Æl¡ÙjPl=wTjx+wj0(5ª²29)

Pj=11+e£­wTjx+wj0=ewTjx+wj01+ewTjx+wj0(5ª²30)

¡Æl¡ÙjPl=1-Pj=e£­wTjx+w01+e£­wTjx+w0=11+ewTjx+w0(5ª²31)


Í¬Ñù²ÉÓÃ×î´óËÆÈ»¹À¼ÆµÄ·½·¨È·¶¨wTjºÍwj0¡£
5.4.3·ÂÕæÊµÏÖ
MATLABÌá¹©ÁËmnrfitº¯ÊýÄâºÏ¶à·ÖÀàLogistic»Ø¹éÄ£ÐÍ£¬mnrvalº¯Êý¼ÆËãÔ¤²â¸ÅÂÊ£¬Ö÷ÒªµÄµ÷ÓÃ¸ñÊ½ÈçÏÂ£º 
(1) B=mnrfit(X,Y)£º ¸ù¾Ý¾ØÕóXÖÐµÄÊý¾ÝºÍ¶ÔÓ¦µÄÏìÓ¦±äÁ¿YÄâºÏ¶à·ÖÀàLogistic»Ø¹éÄ£ÐÍ¡£XÎªN¡ÁnµÄ¾ØÕó£¬º¯Êý×Ô¶¯ÊµÏÖÑù±¾µÄÔö¹ã»¯£» Y¿ÉÒÔÊÇN¡ÁcµÄ¾ØÕó£¬Y(i,j)±íÊ¾XÖÐµÚiÐÐµÄÊý¾Ý¶ÔÓ¦µÚjÀàµÄÊä³ö£» Y¿ÉÒÔÊÇÒ»¸öNÎ¬µÄÁÐÏòÁ¿£¬ÔªËØÖµÎª1µ½cµÄÕûÊýÖµ£¬Ò²¿ÉÒÔÊÇÒ»¸öNÎ¬µÄcategoricalÊý×é£¬±íÃ÷Ã¿¸öÑù±¾µÄÀà±ð£» Êä³ö±äÁ¿BÎª¹À¼ÆµÄ(n+1)¡Á(c-1)µÄÈ¨ÏòÁ¿¾ØÕó£¬µÚÒ»ÐÐÎª³£ÊýÏî£¬ÆäÓàÐÐÒÀ´Î¶ÔÓ¦Êý¾ÝµÄ¸÷Î¬±äÁ¿£» BµÄÃ¿Ò»ÁÐÎª¸ÃÀàÏà¶ÔÓÚÆäÓàc-1ÀàµÄLogistic»Ø¹é·ÖÀàÈ¨ÏòÁ¿¡£
(2) PHAT=mnrval(B,X)£º ¸ù¾Ý¶à·ÖÀàLogistic»Ø¹éÄ£ÐÍÏµÊýB£¬¶ÔXÖÐµÄÊý¾Ý½øÐÐÔ¤²â£¬·µ»ØN¡ÁcµÄÔ¤²â¸ÅÂÊ¾ØÕóPHAT¡£
ÁíÓÐfitglmº¯Êý´´½¨¹ãÒåÏßÐÔ»Ø¹éÄ£ÐÍGeneralizedLinearModel£¬ÉèÖÃ²ÎÊý'Link'Îª'logit'£¬ÊµÏÖLogistic»Ø¹é·ÖÎö£» Ê¹ÓÃpredictº¯ÊýÊµÏÖÔ¤²â¡£
¡¾Àý5ª²16¡¿ÀûÓÃMATLABº¯Êý¶ÔÀý5ª²15ÖÐµÄÊý¾Ý½øÐÐLogistic»Ø¹é·ÖÎö¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

gX=@(W,X) W(1)+W(2)*X(:,1)+W(3)*X(:,2)+W(4)*X(:,3); %ÏßÐÔº¯Êý£¬³£ÊýÏîÎªµÚÒ»Ïî

logisticfun=@(W,X) 1./(1+exp(-gX(W,X)));                %Logisticº¯ÊýP(y=1|X)

training=£Û0 0 0;1 0 0;1 0 1;1 1 0;0 0 1;0 1 1;0 1 0;1 1 1£Ý;

label=£Û1;1;1;1;2;2;2;2£Ý;

B=mnrfit(training,label);                       %ÄâºÏÄ£ÐÍ£¬Êä³öÏµÊý¾ØÕóB£¬Í¬ÏßÐÔº¯ÊýÖÐµÄw

pattern=£Û0 0.6 0.8£Ý;                              %´ý²âÑù±¾

P=mnrval(B,pattern);                              %Ô¤²â£¬Êä³ö¸ÅÂÊ¾ØÕó

Py1=logisticfun(B,pattern);                     %¸ù¾ÝÊ½(5-23)¼ÆËãP(y=1|X)

Py2=1-Py1;                                          %¼ÆËãP(y=2|X)

logitX=log(Py1/Py2); %¼ÆËãlogitº¯Êý£¬»òlogitX=log(P(1)/P(2))»òlogitX=gX(B,pattern);

if logitX>0

result=1

else 

result=2

end

³ÌÐòÔËÐÐ£¬ÏµÊý¾ØÕóBÎª£Û37.0123148.2485-93.8968-141.8509£ÝT£¬¼´
lnP(y=1|x)Py=2|x=37.0123+148.2485x1-93.8968x2-141.8509x3¡£Ô¤²â¸ÅÂÊ¾ØÕóPÎª£Û01£Ý£¬¼´P(y=1|x)=0£¬Py=2|x=1£¬ÓëPy1¡¢Py2Ò»ÖÂ¡£¶Ô´ý²âÑù±¾¼ÆËãlogitº¯ÊýÖµÎª¸ºÖµ£¬Êä³öresult=2£¬¼´½«´ý²âÑù±¾¹éÎªµÚ2Àà¡£
¡¾Àý5ª²17¡¿ÀûÓÃfisheririsÊý¾Ý¼¯ÄâºÏLogistic»Ø¹éÄ£ÐÍ£¬²¢¶ÔÑù±¾£Û6.32.84.91.7£ÝT½øÐÐ¹éÀà¡£
³ÌÐòÈçÏÂ£º

clc,clear,close all;

load fisheriris

sp=categorical(species);                       %½«Àà±ð±ê¼Çspecies×ª»¯ÎªcategoricalÊý×é

iris=£Û"setosa" "versicolor" "virginica"£Ý;   %ÀàÃû³Æ

B=mnrfit(meas,sp);                              %ÄâºÏLogistic»Ø¹éÄ£ÐÍ

pattern=£Û6.3 2.8 4.9 1.7£Ý;                     %´ý²âÑù±¾

P=mnrval(B,pattern);                            %¶Ô´ý²âÑù±¾½øÐÐÔ¤²â£¬Êä³öÔ¤²â¸ÅÂÊ¾ØÕóP

£Û~,pos£Ý=max(P);                                  %ÕÒ³ö×î´ó¸ÅÂÊ¶ÔÓ¦µÄÀà

result=iris(pos);                                %Êä³ö¹éÀà½á¹û

disp('Logistic»Ø¹é·ÖÀà£º')

disp(result)

³ÌÐòÔËÐÐ£¬Ô¤²â¸ÅÂÊ¾ØÕóPÎª£Û00.39770.6023£Ý£¬¼´´ý²âÑù±¾ÊôÓÚsetosa¡¢versicolorºÍvirginicaÀàµÄ¸ÅÂÊ·Ö±ðÎª0¡¢0.3977ÒÔ¼°0.60230£¬¹éÈë×î´ó¸ÅÂÊ¶ÔÓ¦µÄÀà£¬ÔÚÃüÁî´°¿ÚÊä³ö£º 
Logistic»Ø¹é·ÖÀà£º

virginica

5.5·ÇÏßÐÔÅÐ±ð·ÖÎöµÄÊµÀý
¡¾Àý5ª²18¡¿¶ÔÓÉ²»Í¬×ÖÌåµÄÊý×ÖÍ¼Ïñ¹¹³ÉµÄÍ¼Ïñ¼¯£¬ÊµÏÖ»ùÓÚ×î½üÁÚ·¨ºÍLogistic»Ø¹éµÄ·ÖÀàÆ÷Éè¼Æ¼°ÅÐ±ð¡£
1. Éè¼ÆË¼Â·
Á½ÖÖ·ÖÀà·½·¨¾ù²ÉÓÃºÍÀý2ª²16ÏàÍ¬µÄÔ¤´¦Àí·½·¨£¬ÌáÈ¡Í¬ÑùµÄÌØÕ÷¡£ÔÚ×î½üÁÚ·¨ÖÐ£¬²âÊÔÑù±¾ÔÚÑµÁ·Ñù±¾¼¯ÖÐÑ°ÕÒ×î½üÁÚ£¬¸ù¾Ý½üÁÚµÄÀà±ð¹éÀà¡£Éè¼Æ·½°¸ÈçÍ¼5ª²16ËùÊ¾¡£Logistic»Ø¹é·ÖÀàÒªÏÈÄâºÏ¶à·ÖÀàLogistic»Ø¹éÄ£ÐÍ£¬ÔÙ¸ù¾Ý¸ÅÂÊÊµÏÖ·ÖÀà¾ö²ß£¬Éè¼Æ·½°¸ÈçÍ¼5ª²17ËùÊ¾¡£


Í¼5ª²16×î½üÁÚ¹éÀàÉè¼Æ·½°¸¿òÍ¼




Í¼5ª²17Logistic»Ø¹é·ÖÀàÉè¼Æ·½°¸¿òÍ¼


2. ³ÌÐòÉè¼Æ
1) Éú³ÉÑµÁ·Ñù±¾
¶ÁÈ¡ÑµÁ·Í¼ÏñÎÄ¼þ£¬¾­¹ýÍ¼ÏñÔ¤´¦Àí£¬ÌáÈ¡ÌØÕ÷£¬Éú³ÉÑµÁ·Ñù±¾¡£Í¬Àý2ª²16¡£
2) ÄâºÏ¶à·ÖÀàLogistic»Ø¹éÄ£ÐÍ

Labeltrain1=categorical(labeltrain);  %½«0~9µÄÊý×Ö×ª»»ÎªcategoricalÊý×é

B=mnrfit(training,labeltrain1);

3) Éú³É²âÊÔÑù±¾
¶ÁÈ¡²âÊÔÍ¼ÏñÎÄ¼þ£¬¾­¹ýÍ¼ÏñÔ¤´¦Àí£¬ÌáÈ¡ÌØÕ÷£¬Éú³É²âÊÔÑù±¾¡£Í¬Àý2ª²16¡£
4) ¶Ô²âÊÔÑù±¾½øÐÐ¾ö²ß¹éÀà
(1) ÀûÓÃÑµÁ·Ñù±¾Éú³ÉKDTreeSearcherÄ£ÐÍ£¬²¢Ñ°ÕÒ×î½üÁÚ£¬¸ù¾Ý×î½üÁÚµÄÀà±ð¾ö²ß¹éÀà£¬²¢²âËã¼ì²âÂÊ¡£

Mdl=KDTreeSearcher(training); 

£ÛIdx,D£Ý=knnsearch(Mdl,testing);

testnb=labeltrain(Idx);

ratio1=sum(testnb==labeltest)/N

(2) ÀûÓÃLogistic»Ø¹éÄ£ÐÍÏµÊýB¶Ô²âÊÔÑù±¾½øÐÐÔ¤²â£¬¸ù¾ÝÔ¤²â¸ÅÂÊ´óÐ¡¹éÀà£¬²¢²âËã¼ì²âÂÊ¡£

P=mnrval(B,testing);

£Û~,testlogit£Ý=max(P,£Û£Ý,2);    %Ô¤²â¸ÅÂÊ¾ØÕóPÃ¿Ò»ÐÐÇó×î´ó£¬¶ÔÓ¦µÄÎ»ÖÃ¼´ÊÇÀà±ð¶ÔÓ¦µÄÕýÕûÊý

testlogit=testlogit-1;

ratio2=sum(testlogit==labeltest)/N

3. ÊµÑé½á¹û
ÔËÐÐ³ÌÐò£¬²ÉÓÃ10¸öÊý×ÖµÄ¹²50·ùÍ¼Ïñ½øÐÐÑµÁ·£¬²ÉÓÃ30·ùÍ¼Ïñ½øÐÐ²âÊÔ£¬ÔÚÃüÁî´°¿ÚÊä³öratio1=0.7667ºÍratio2=0.8000£¬¼´¶ÔÓÚ²âÊÔÍ¼Ïñ£¬×î½üÁÚ·¨ÕýÈ·ÂÊ´ïµ½76.67%£¬Logistic»Ø¹é·ÖÀàÕýÈ·ÂÊ´ïµ½80%¡£

Ï°Ìâ
1. ¼òÊö×îÐ¡¾àÀë·ÖÀàÆ÷µÄ·ÖÀà·½·¨¼°ÌØµã¡£
2. ¼òÊö½üÁÚ·¨µÄ·ÖÀàË¼Â·¼°ÌØµã¡£
3. ¼òÊö¾ö²ßÊ÷·½·¨µÄ·ÖÖ¦¹ý³ÌºÍ¾ö²ß¹ý³Ì£¬²¢ËµÃ÷¾ö²ßÊ÷¼ôÖ¦ÓÅ»¯µÄË¼Â·¡£
4. ¶ÔÀý5ª²10ÖÐCARTËã·¨Éú³ÉµÄ¾ö²ßÊ÷½øÐÐ¼ôÖ¦¡£
5. ÒÑÖª¶þÎ¬¿Õ¼äÈýÀàÑù±¾¾ù·þ´ÓÕýÌ¬·Ö²¼¦Ì1=£Û11£ÝT£¬¦Ì2=£Û44£ÝT£¬¦Ì3=£Û81£ÝT£¬¦²1=¦²2=¦²3=2I£¬±àÐ´³ÌÐò£¬»ùÓÚÕâÈýÀàÉú³É1000¸ö¶þÎ¬ÏòÁ¿µÄÊý¾Ý¼¯£¬·Ö±ð²ÉÓÃÅ·ÊÏ¾àÀëºÍÂíÊÏ¾àÀë£¬ÀûÓÃÊý¾Ý¼¯Éè¼Æ×îÐ¡¾àÀë·ÖÀàÆ÷¡£
6. ±àÐ´³ÌÐò£¬Ëæ»úÉú³É¶þÎ¬ÏòÁ¿×÷Îª´ý²âÑù±¾£¬ÀûÓÃÉÏÌâµÄÑµÁ·Ñù±¾£¬²ÉÓÃ×î½üÁÚºÍ5½üÁÚ·½·¨¶Ô´ý²âÑù±¾½øÐÐ¹éÀà¡£
7. ÀûÓÃ3ÀàÑù±¾¦Ø1£º -5

-5,-5

-4,-4

-5,-5

-6,-6

-5£¬¦Ø2£º 5

5,5

4,4

5,5

6,



6

5£¬¦Ø3£º -5

5,-5

4,-4

5,-5

6,-6

5£¬ÄâºÏLogistic»Ø¹éÄ£ÐÍ£¬²¢¶ÔÊý¾Ý£Û-2-2£ÝT½øÐÐ¹éÀà¡£