µÚ3ÕÂ»úÆ÷Ñ§Ï°»ù´¡Êµ¼ù


»úÆ÷Ñ§Ï°ÊÇÈË¹¤ÖÇÄÜÁìÓòÄÚµÄÒ»¸öÖØÒª·ÖÖ§£¬Ö¼ÔÚÍ¨¹ý¼ÆËãµÄÊÖ¶Î£¬ÀûÓÃ¾­ÑéÀ´¸ÄÉÆ¼ÆËã»úÏµÍ³µÄÐÔÄÜ£¬Í¨³££¬ÕâÀïµÄ¾­Ñé¼´ÀúÊ·Êý¾Ý¡£´Ó´óÁ¿µÄÊý¾ÝÖÐ³éÏó³öÒ»¸öËã·¨Ä£ÐÍ£¬È»ºó½«ÐÂÊý¾ÝÊäÈëµ½Ä£ÐÍÖÐ£¬µÃµ½Ä£ÐÍ¶ÔÆäµÄÅÐ¶Ï(ÀýÈçÀàÐÍ¡¢Ô¤²âÊµÊýÖµµÈ)£¬Ò²¾ÍÊÇËµ£¬»úÆ÷Ñ§Ï°ÊÇÒ»ÃÅÖ÷ÒªÑÐ¾¿Ñ§Ï°Ëã·¨µÄÑ§¿Æ¡£
Êµ¼ù°Ë£º »ùÓÚÏßÐÔ»Ø¹éÊµÏÖ·¿¼ÛÔ¤²â
»Ø¹éËã·¨ÊÇ»úÆ÷Ñ§Ï°ÁìÓòÒ»¸ö·Ç³£¾­µäµÄÑ§Ï°Ëã·¨£¬Ö÷ÒªÓÃÓÚ¶ÔÊäÈë×Ô±äÁ¿²úÉúÒ»¸ö¶ÔÓ¦µÄÊä³öÒò±äÁ¿Öµ£¬Í¨³££¬Òò±äÁ¿ÎªÊµÊý·¶Î§ÄÚµÄÊýÖµÀàÐÍÊý¾Ý£¬ÐÎÊ½ÉÏ£¬¶ÔÓÚÒ»¸öµã¼¯£¬ÓÃÒ»ÌõÇúÏßÈ¥ÄâºÏÆä·Ö²¼µÄ¹ý³Ì£¬¾Í½Ð×÷»Ø¹é¡£¶øÏßÐÔ»Ø¹éËã·¨ÊÇÖ¸×Ô±äÁ¿Ö®¼äÍ¨¹ýÒ»¸öÏßÐÔ×éºÏ±ã¿ÉµÃµ½Òò±äÁ¿µÄÔ¤²â½á¹ûµÄËã·¨£¬ÊÇ»Ø¹éËã·¨ÖÐ×îÎª¼òµ¥µÄÒ»ÖÖ£¬¶ÔÓÚÒ»Ð©ÏßÐÔ¿É·ÖµÄÊý¾Ý¼¯£¬¿ÉÒÔ³¢ÊÔÊ¹ÓÃÏßÐÔ»Ø¹éÄ£ÐÍ½øÐÐ½¨Ä£¡£
ÏßÐÔ»Ø¹éËã·¨µÄ±í´ïÐÎÊ½Îªy=wTx+b£¬w¼´ÎªËùÑ§Ï°µÄ²ÎÊý£¬x¡¢y·Ö±ðÎª×Ô±äÁ¿ÓëÒò±äÁ¿£¬ÔÚ»úÆ÷Ñ§Ï°ÈÎÎñÖÐ£¬³ÆÖ®ÎªÊäÈëÌØÕ÷ÓëÊä³ö½á¹û¡£»Ø¹éÈÎÎñ×î³£ÓÃµÄÐÔÄÜ¶ÈÁ¿·½Ê½Îª¾ù·½Îó²î£¬¼´¼ÆËãÕæÊµÖµÓëÔ¤²âÖµÖ®¼äµÄ²îÆ½·½µÄ¾ùÖµ£¬Ò²¾ÍÊÇÕæÊµÖµÓëÔ¤²âÖµÖ®¼äµÄÅ·ÊÏ¾àÀë£¬×îÐ¡»¯¸ÃÖµ¿ÉÒÔÊ¹Ô¤²âÎó²î¾¡¿ÉÄÜÐ¡£¬²¢ÇÒ¶Ô¾ù·½Îó²îÖµµÄÓÅ»¯ÊÇÒ»¸öÍ¹ÓÅ»¯¹ý³Ì(¶þ´ÎËðÊ§º¯Êý£¬¿ÉÒÔÇóµÃ×îÐ¡Öµ)£¬¿ÉÒÔÊ¹ÓÃ×îÐ¡¶þ³Ë·¨¶ÔÄ£ÐÍ½øÐÐÇó½â£¬Ê¹µÃËùÓÐÑù±¾µ½ËùÄâºÏÇúÏßÉÏµÄ¾àÀëÖ®ºÍ×îÐ¡¡£
±¾Êé¾Í¼òµ¥µÄÏßÐÔ»Ø¹éÄ£ÐÍ½øÐÐ´úÂëÑÝÊ¾£¬ÔÚ²¨Ê¿¶Ù·¿¼ÛÊý¾Ý¼¯ÉÏ½øÐÐÏßÐÔ½¨Ä££¬¶ÔÓÚÄ£ÐÍÎ´¼û¹ýµÄÊý¾Ý£¬Ê¹ÓÃ½¨Ä£µÄÏßÐÔ»Ø¹éÄ£ÐÍÔ¤²âÆä·¿¼Û£¬¸Ã½¨Ä£¹ý³ÌÖ÷Òª·ÖÎªÒÔÏÂËÄ¸ö²½Öè£º Êý¾Ý¼ÓÔØ¡¢Ä£ÐÍÅäÖÃ¡¢Ä£ÐÍÑµÁ·¡¢Ä£ÐÍÆÀ¹À£¬±¾´ÎÊµÑéÆ½Ì¨Îª°Ù¶ÈAI Studio£¬ÊµÑé»·¾³ÎªPython 3.7£¬sklearn¡£
²½Öè1£º Êý¾Ý¼ÓÔØ
(1) Êý¾Ý¼¯ÏÂÔØ£º Ê×ÏÈ£¬´ÓÍøÂçÖÐ»ñÈ¡¿ªÔ´²¨Ê¿¶Ù·¿¼ÛÊý¾Ý¼¯¡£¸ÃÊý¾Ý¼¯°üº¬ 506ÌõÊý¾Ý£¬Ã¿ÌõÊý¾Ý°üº¬13¸öÊäÈë±äÁ¿ºÍ1¸öÊä³ö±äÁ¿£¬ÊäÈë±äÁ¿°üº¬·¿ÎÝÒÔ¼°·¿ÎÝÖÜÎ§µÄÏêÏ¸ÐÅÏ¢£¬ÀýÈç£º ³ÇÕò·¸×ïÂÊ£¬Ò»Ñõ»¯µªÅ¨¶È£¬×¡Õ¬Æ½¾ù·¿¼äÊý£¬µ½ÖÐÐÄÇøÓòµÄ¼ÓÈ¨¾àÀëÒÔ¼°×Ô×¡·¿Æ½¾ù·¿¼ÛµÈ¡£ÔÚAI StudioÏîÄ¿NotebookÒ³ÃæµÄ´úÂëÄ£¿éÊäÈëÏÂÁÐÃüÁî£¬¼´¿É»ñµÃ¸ÃÊý¾Ý¼¯£º 

!wget  https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data -O housing.data

(2) Êý¾ÝÔ¤´¦Àí£º ¶ÔÓÚÏÂÔØµÄÊý¾Ý¼¯£¬ÓÉÓÚ¸ÃÊý¾Ý¼¯ÖÐÔ­Ê¼µÄÌØÕ÷³ß¶È²»Ò»£¬Òò´ËÊ×ÏÈÐèÒª¶ÔÔ­Ê¼Êý¾Ý½øÐÐ¹éÒ»»¯²Ù×÷£¬·½¿É½øÐÐºóÐøµÄÄ£ÐÍÑµÁ·£¬±¾ÊµÑé½«Ã¿Ò»¸öÌØÕ÷Öµ½øÐÐÈçÏÂ¹éÒ»»¯´¦Àí£º (Ô­Ê¼Öµª²¸ÃÌØÕ÷¾ùÖµ)/(¸ÃÌØÕ÷×î´óÖµª²¸ÃÌØÕ÷×îÐ¡Öµ)£¬¹éÒ»»¯ºó£¬½«ÆäÇÐ·ÖÎªÑµÁ·¼¯Óë²âÊÔ¼¯Á½¸ö×Ó¼¯£º 






# ¼ÓÔØÏà¹Ø°ü

import numpy as np

import os

import matplotlib

import matplotlib.pyplot as plt

import pandas as pd

from sklearn import linear_model



# ´ÓÎÄ¼þµ¼ÈëÊý¾Ý

datafile = './housing.data'

housing_data = np.fromfile(datafile, sep=' ')

feature_names = £Û'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE','DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'£Ý

feature_num = len(feature_names)

# ½«Ô­Ê¼Êý¾Ý½øÐÐReshape£¬±ä³É£ÛN, 14£ÝÕâÑùµÄÐÎ×´

housing_data = housing_data.reshape(£Ûhousing_data.shape£Û0£Ý // feature_num, feature_num£Ý)

print(housing_data£Û:2£Ý)

# Êä³öÊý¾Ý¸ñÊ½ÈçÍ¼3ª²1ËùÊ¾



Í¼3ª²1²¨Ê¿¶Ù·¿¼ÛÔ­Ê¼Êý¾Ý¸ñÊ½


# ¶¨Òå¹éÒ»»¯²Ù×÷£º È¡×î´ó¡¢×îÐ¡¡¢¾ùÖµ²Ù×÷

features_max = housing_data.max(axis=0)

features_min = housing_data.min(axis=0)

features_avg = housing_data.sum(axis=0) / housing_data.shape£Û0£Ý



# ¹éÒ»»¯º¯Êý

def feature_norm(input):

f_size = input.shape

output_features = np.zeros(f_size, np.float32)

for batch_id in range(f_size£Û0£Ý):

for index in range(13):

output_features£Ûbatch_id£Ý£Ûindex£Ý = (input£Ûbatch_id£Ý£Ûindex£Ý - features_avg£Ûindex£Ý) / (features_max£Ûindex£Ý - features_min£Ûindex£Ý)

return output_features



# µ÷ÓÃ¹éÒ»»¯º¯Êý

housing_features = feature_norm(housing_data£Û:, :13£Ý)

# Æ´½ÓÌØÕ÷Óë±êÇ©Öµ

housing_data = np.c_£Ûhousing_features, housing_data£Û:-1£Ý£Ý.astype(np.float32)

# ½«Êý¾Ý¼¯°´ÕÕ8:2µÄ±ÈÀý·ÖÎªÑµÁ·¼¯ºÍ²âÊÔ¼¯

ratio = 0.8

offset = int(housing_data.shape£Û0£Ý * ratio)

train_data = housing_data£Û:offset£Ý

test_data = housing_data£Ûoffset:£Ý

print(train_data£Û:2£Ý)

# ¹éÒ»»¯ºóµÄÊý¾ÝÈçÍ¼3ª²2ËùÊ¾



Í¼3ª²2²¨Ê¿¶Ù·¿¼Û¹éÒ»»¯Êý¾Ý

²½Öè2£º Ä£ÐÍÅäÖÃ
±¾ÊµÑéÊ¹ÓÃsklearn.linear_model.LinearRegressionÀàÊµÏÖÏßÐÔ»Ø¹é£º 

# ÊµÀý»¯Ä£ÐÍº¯Êý

def Model():

model = linear_model.LinearRegression()

return model

# ÄâºÏº¯Êý

def train(model,x,y):

model.fit(x,y)

²½Öè3£º Ä£ÐÍÑµÁ·
Ê×ÏÈ½«ÑµÁ·¼¯µÄÌØÕ÷ÖµÓë»Ø¹éÖµ·Ö¿ª£¬È»ºóÊµÀý»¯Ä£ÐÍ£¬µ÷ÓÃfit()º¯ÊýÑµÁ·Ä£ÐÍ£º 

# ½«ÑµÁ·¼¯µÄÌØÕ÷Óë»Ø¹éÖµ·Ö¿ª

x,y = train_data£Û:,:13£Ý,train_data£Û:,-1:£Ý

model = Model()# ÊµÀý»¯Ò»¸öÄ£ÐÍ

train(model,x,y)     # ÔÚÑµÁ·Êý¾ÝÉÏÄâºÏÄ£ÐÍ

²½Öè4£º Ä£ÐÍÆÀ¹À
Ä£ÐÍÑµÁ·½áÊøºó£¬¸ù¾ÝÑµÁ·ºÃµÄÄ£ÐÍ£¬ÔÚ²âÊÔÊý¾ÝÉÏ½øÐÐÆÀ¹À¡£ÀíÏë×´Ì¬ÏÂ£¬Ä£ÐÍµÄÔ¤²âÖµÓëÕæÊµÖµÏàµÈ£¬¼´y¡ä=y£¬¼´Á½ÕßÓ¦¸ÃÔÚÖ±Ïßy=xÉÏ·Ö²¼£¬»æÖÆÍ¼Ïñ£¬¹Û²ìÔ¤²âÖµÓëÕæÊµÖµÓëy=xÖ±ÏßµÄ·Ö²¼²îÒì£¬¿ÉÖ±¹ÛÅÐ¶ÏÏßÐÔ»Ø¹éÄ£ÐÍµÄÐÔÄÜ£º 

# ¶¨Òåº¯Êý»æÖÆÔ¤²âÖµÓëÕæÊµÖµµÄ·Ö²¼

def draw_infer_result(ground_truths,infer_results):

title='Boston'

plt.title(title, fontsize=24)

x = np.arange(1,40)

y = x

plt.plot(x, y)

plt.xlabel('ground truth', fontsize=14)

plt.ylabel('infer result', fontsize=14)

plt.scatter(ground_truths, infer_results,color='green',label='training cost')

plt.grid()

plt.show()

# ²âÊÔÊý¾ÝÌØÕ÷ÖµÓë»Ø¹éÖµÇÐ·Ö

x_test,y_test = test_data£Û:,:13£Ý,test_data£Û:,-1:£Ý

# Ô¤²â

predict = model.predict(x_test)

# »æÖÆ¶Ô±ÈÍ¼

draw_infer_result(y_test,predict)

# ¶Ô±ÈÍ¼Êä³öÈçÍ¼3ª²3ËùÊ¾



Í¼3ª²3ÏßÐÔ»Ø¹éÕæÊµÖµÓëÔ¤²âÖµ·Ö²¼½á¹û

ÏßÐÔ»Ø¹éËã·¨Ö»ÄÜ´¦ÀíÏßÐÔ¿É·ÖµÄÊý¾Ý£¬¶ÔÓÚÏßÐÔ²»¿É·ÖÊý¾Ý£¬ÐèÒªÊ¹ÓÃ¶ÔÊýÏßÐÔ»Ø¹é¡¢¹ãÒåÏßÐÔ»Ø¹é»òÕßÆäËû»Ø¹éËã·¨£¬¸ÐÐËÈ¤µÄ¶ÁÕß¿ÉÒÔ×ÔÐÐ²éÔÄ×ÊÁÏÑ§Ï°¡£
Êµ¼ù¾Å£º »ùÓÚÂß¼­»Ø¹éÄ£ÐÍÊµÏÖÊÖÐ´Êý×ÖÊ¶±ð
Âß¼­»Ø¹éÊÇÏßÐÔ»Ø¹éµÄÒ»¸ö±äÌå°æ±¾£¬¼´½¨Ä£º¯Êýlny1-y=wTx-b£¬´Ë´¦£¬yÎªÑù±¾x×÷ÎªÕýÑù±¾µÄ¿ÉÄÜÐÔ£¬1-yÎªÆäÎª¸ºÑù±¾µÄ¿ÉÄÜÐÔ£¬Á½ÕßµÄ±ÈÖµy1-y³ÆÎª¼¸ÂÊ£¬·´Ó³ÁËx×÷ÎªÕýÑù±¾µÄÏà¶Ô¿ÉÄÜÐÔ£¬Òò´Ë£¬Âß¼­»Ø¹éÓÖ³Æ×÷¶ÔÊý¼¸ÂÊ»Ø¹é¡£
Âß¼­»Ø¹éËäÈ»³Æ×÷»Ø¹é£¬µ«Êµ¼ÊÉÏÊÇÒ»ÖÖ·ÖÀàÑ§Ï°Ëã·¨£¬ÎÞÐèÊÂÏÈ¼ÙÉèÊý¾ÝµÄ·Ö²¼¼´¿É½øÐÐ½¨Ä££¬±ÜÃâÁËÏÈÑé¼ÙÉè·Ö²¼Æ«²î´øÀ´µÄÓ°Ïì£¬²¢ÇÒµÃµ½µÄÊÇ½üËÆ¸ÅÂÊÔ¤²â£¬¶ÔÐèÒª¸ÅÂÊ½á¹û¸¨Öú¾ö²ßµÄÈÎÎñÊ®·ÖÓÑºÃ¡£Âß¼­»Ø¹éÊ¹ÓÃ¼«´óËÆÈ»¹À¼Æ½øÐÐ²ÎÊýÑ§Ï°£¬¼´×î´ó»¯Ä£ÐÍµÄ¶ÔÊýËÆÈ»Öµ£¬Ê¹µÃÃ¿¸öÑù±¾ÊôÓÚÕæÊµ±êÇ©µÄ¸ÅÂÊÔ½´óÔ½ºÃ£¬¸ÃÓÅ»¯Ä¿±ê¿ÉÒÔÍ¨¹ýÅ£¶Ù·¨¡¢ÌÝ¶ÈÏÂ½µ·¨µÈÇóµÃ×îÓÅ½â¡£
sklearnÊÇPythonµÄÒ»¸ö»úÆ÷Ñ§Ï°¿â£¬ËüÓÐ±È½ÏÍêÕûµÄ¼à¶½Ñ§Ï°Óë·Ç¼à¶½Ñ§Ï°µÄËã·¨ÊµÏÖ£¬±¾½Ú½«ÀûÓÃsklearnÖÐµÄÂß¼­»Ø¹éËã·¨£¬ÊµÏÖMNISTÊÖÐ´Êý×ÖÊ¶±ð£¬±¾´ÎÊµÑéÆ½Ì¨Îª°Ù¶ÈAI Studio£¬ÊµÑé»·¾³ÎªPython 3.7¡£
²½Öè1£º Êý¾Ý¼¯¼ÓÔØ¼°Ô¤´¦Àí
MNISTÊý¾Ý¼¯À´×ÔÃÀ¹ú¹ú¼Ò±ê×¼Óë¼¼ÊõÑÐ¾¿Ëù£¬ÑµÁ·¼¯ÓÉÀ´×Ô 250 ¸ö²»Í¬ÈËÊÖÐ´µÄÊý×Ö¹¹³É£¬ÆäÖÐ50%ÊÇ¸ßÖÐÑ§Éú£¬50%ÎªÈË¿ÚÆÕ²é¾ÖµÄ¹¤×÷ÈËÔ±£¬²âÊÔ¼¯Ò²°üº¬Í¬Ñù±ÈÀýÈËÈºµÄÊÖÐ´Êý×ÖÍ¼Æ¬¡£ÓÉÓÚÊý¾Ý¼¯´æ´¢¸ñÊ½Îª¶þ½øÖÆ£¬Òò´ËÔÚ¶ÁÈ¡Ê±ÐèÒªÖð×Ö½Ú½øÐÐ½âÎö¡£Ê×ÏÈ½«Êý¾Ý¼¯¹ÒÔÚµ½µ±Ç°¹¤×÷¿Õ¼äÏÂ£¬È»ºó½âÑ¹(ÔÚAI Studio¿É±à¼­ Notebook½çÃæÖÐ£¬ÈôÒªÖ´ÐÐLinuxÃüÁî£¬Ö»ÐèÔÚÃüÁîÇ°¼Ó ¡°!¡± ¼´¿É)£¬¶ÁÈ¡Í¼Æ¬Êý¾Ý£º 

!unzip data/data7869/mnist.zip

!gzip -dfq mnist/train-labels-idx1-ubyte.gz

!gzip -dfq mnist/t10k-labels-idx1-ubyte.gz

!gzip -dfq mnist/train-images-idx3-ubyte.gz

!gzip -dfq mnist/t10k-images-idx3-ubyte.gz



# µ¼ÈëÏà¹Ø°ü

import struct,os

import numpy as np

from array import array as pyarray

from numpy import append, array, int8, uint8, zeros

from sklearn.metrics import accuracy_score,classification_report

import matplotlib.pyplot as plt



# ¶¨Òå¼ÓÔØMNISTÊý¾Ý¼¯µÄº¯Êý

def load_mnist(image_file, label_file, path="mnist"):

digits=np.arange(10)



fname_image = os.path.join(path, image_file)

fname_label = os.path.join(path, label_file)



flbl = open(fname_label, 'rb')    # ¶ÁÈ¡±êÇ©ÎÄ¼þ

magic_nr, size = struct.unpack(">II", flbl.read(8))

lbl = pyarray("b", flbl.read())

flbl.close()



fimg = open(fname_image, 'rb')  # ¶ÁÈ¡Í¼Æ¬ÎÄ¼þ

magic_nr, size, rows, cols = struct.unpack(">IIII", fimg.read(16))

img = pyarray("B", fimg.read())

fimg.close()



ind = £Û k for k in range(size) if lbl£Ûk£Ý in digits £Ý

N = len(ind)



images = zeros((N, rows*cols), dtype=uint8)

labels = zeros((N, 1), dtype=int8)

for i in range(len(ind)):   # ½«Í¼Æ¬×ª»»ÎªÏñËØ¾ØÕó¸ñÊ½

images£Ûi£Ý = array(img£Û ind£Ûi£Ý*rows*cols : (ind£Ûi£Ý+1)*rows*cols £Ý).reshape((1, rows*cols))

labels£Ûi£Ý = lbl£Ûind£Ûi£Ý£Ý



return images, labels



# ¶¨ÒåÍ¼Æ¬Õ¹Ê¾º¯Êý

def show_image(imgdata, imgtarget, show_column, show_row):

# ×¢ÒâÕâÀïµÄshow_column*show_row==len(imgdata)

for index,(im,it) in enumerate(list(zip(imgdata,imgtarget))):

xx = im.reshape(28,28)

plt.subplots_adjust(left=1, bottom=None, right=3, top=2, wspace=None, hspace=None)

plt.subplot(show_row, show_column, index+1)

plt.axis('off')

plt.imshow(xx , cmap='gray',interpolation='nearest')

plt.title('label:%i' % it)



# µ÷ÓÃº¯Êý£¬¼ÓÔØÑµÁ·¼¯Êý¾Ý

train_image, train_label = load_mnist("train-images-idx3-ubyte", "train-labels-idx1-ubyte")

# µ÷ÓÃº¯Êý£¬¼ÓÔØ²âÊÔ¼¯Êý¾Ý

test_image, test_label = load_mnist("t10k-images-idx3-ubyte", "t10k-labels-idx1-ubyte")

# ÏÔÊ¾ÑµÁ·¼¯Ç°50Êý×Ö

show_image(train_image£Û:50£Ý, train_label£Û:50£Ý, 10,5)

# »Ò¶ÈÍ¼Õ¹Ê¾ÈçÍ¼3ª²4ËùÊ¾



Í¼3ª²4MINSTÊÖÐ´Êý×Ö

²½Öè2£º Ä£ÐÍ¶¨Òå
´Ë´¦Ö±½Ó½«sklearn.linear_modelÖÐµÄLogisticRegressionµ¼Èë¼´¿É£¬×¢Òâ£¬ËäÈ»Âß¼­»Ø¹é²¢Ã»ÓÐÖ±½Ó½¨Ä£Êä³öyÓëÊäÈëÌØÕ÷xÖ®¼äµÄÓ³Éä¹ØÏµ£¬µ«Ëü±¾ÖÊÉÏÊÇÏßÐÔ»Ø¹éËã·¨µÄÒ»ÖÖ±äÌå£¬ÇÒ»Ø¹é²ÎÊýw¶ÔÓÚÊäÈëÌØÕ÷¶øÑÔÈÔÊÇÏßÐÔµÄ£¬Òò´ËÒ²ÊôÓÚÏßÐÔÄ£ÐÍµÄ·¶³ë¡£

# µ¼ÈëLogisticRegressionÀà

from sklearn.linear_model import LogisticRegression

# ÊµÀý»¯LogisticRegressionÀà

lr = LogisticRegression()

²½Öè3£º Ä£ÐÍÑ§Ï°
ÓÉÓÚÍ¼Æ¬Êý¾ÝµÄÏñËØÖµÈ¡Öµ·¶Î§Îª0~255£¬¹ý´óµÄ¼ÆËãÖµ¿ÉÄÜµ¼ÖÂ¼ÆËã½á¹û·Ç³£´ó£¬»òÕßÌÝ¶È±ä»¯¾çÁÒ£¬Òò´Ë²»ÀûÓÚÄ£ÐÍµÄÑ§Ï°ÓëÊÕÁ²¡£Îª±ÜÃâÉÏÊöÇé¿ö³öÏÖ£¬Ê×ÏÈÐèÒª¶ÔÑµÁ·Êý¾Ý×öÔ¤´¦Àí£¬Ò²¾ÍÊÇ³ß¶ÈËõ·Å£¬±ÈÈç¶ÔÃ¿¸öÏñËØÖµ¶¼³ýÒÔÆä×î´óÏñËØÖµ255£¬½«ËùÓÐÏñËØÖµÑ¹Ëõµ½0~1µÄ·¶Î§ÄÚ£¬È»ºóÔÙ½øÐÐÑ§Ï°¡£

# Êý¾ÝËõ·Å

train_image=£Ûim/255.0 for im in train_image£Ý

# ÑµÁ·Ä£ÐÍ

lr.fit(train_image,train_label)

²½Öè4£º Ä£ÐÍÑéÖ¤
Ä£ÐÍÑµÁ·½áÊøºó£¬¿ÉÔÚÑéÖ¤¼¯»ò²âÊÔ¼¯ÉÏ²âÊÔÆäÐÔÄÜ£¬¶ÔÓÚ·ÖÀàÈÎÎñ£¬×î³£¼ûµÄÆÀ¼ÛÖ¸±ê°üÀ¨×¼È·ÂÊ(Accuracy)¡¢¾«È·ÂÊ(Precision)¡¢ÕÙ»ØÂÊ(Recall)¡¢F1Öµ(F1ª²Score)µÈ£¬ÆäÖÐ£¬¾«È·ÂÊ·´Ó³ÕýÑù±¾µÄÅÐ¶Ï×¼È·ÂÊ£¬ÕÙ»ØÂÊ·´Ó³ÕýÑù±¾ÖÐ±»Êµ¼ÊÊ¶±ðµÄÑù±¾±ÈÀý£¬¶øFÖµÔòÊÇ¾«È·ÂÊÓëÕÙ»ØÂÊµÄÕÛÖÐ£¬ÔÚ¸÷ÀàÐÍÑù±¾ÊýÁ¿²»¾ùºâÊ±£¬¸ÃÖ¸±ê¿ÉÒÔºÜºÃµØ·´Ó³Ä£ÐÍµÄÐÔÄÜ¡£

# Êý¾ÝËõ·Å

test_image=£Ûim/255.0 for im in test_image£Ý

# ²âÊÔ¼¯½á¹ûÔ¤²â

predict = lr.predict(test_image)

# ´òÓ¡×¼È·ÂÊ¼°¸÷·ÖÀàÆÀ¼ÛÖ¸±ê

print("accuracy_score: %.4lf" % accuracy_score(predict,test_label))

print("Classification report for classifier %s:£Ün%s£Ün" % (lr, classification_report(test_label, predict)))

# ¸÷Ö¸±êÊä³öÈçÍ¼3ª²5ËùÊ¾



Í¼3ª²5Âß¼­»Ø¹éÊÖÐ´Êý×ÖÊ¶±ð½á¹û


Êµ¼ùÊ®£º »ùÓÚÆÓËØ±´Ò¶Ë¹ÊµÏÖÎÄ±¾·ÖÀà
±´Ò¶Ë¹·ÖÀàËã·¨ÊÇÒÔ±´Ò¶Ë¹¶¨ÀíÎª»ù´¡µÄÒ»ÏµÁÐ·ÖÀàËã·¨£¬°üº¬ÆÓËØ±´Ò¶Ë¹Ëã·¨ÓëÊ÷ÔöÇ¿ÐÍÆÓËØ±´Ò¶Ë¹Ëã·¨£¬ÆÓËØ±´Ò¶Ë¹Ëã·¨ÊÇ×î¼òµ¥µ«ÊÇÊ®·Ö¸ßÐ§µÄ±´Ò¶Ë¹·ÖÀàËã·¨£¬ÒòÎªÆä¼ÙÉèÊäÈëÌØÕ÷Ö®¼äÏà»¥¶ÀÁ¢£¬Òò´ËµÃÃû¡°ÆÓËØ¡±¡£
ÔÚÎÄ±¾·ÖÀàÖÐ£¬¸ù¾Ý±´Ò¶Ë¹¶¨ÀíP(c|d)=P(d|c)¡¤P(c)P(d)£¬ÎÄµµdÊôÓÚÀàÐÍcµÄ¸ÅÂÊµÈÓÚÎÄµµd¶ÔÀàÐÍcµÄÌõ¼þ¸ÅÂÊ³ËÒÔÀàÐÍcµÄ³öÏÖ¸ÅÂÊ£¬ÔÙ³ýÒÔÎÄµµdµÄ³öÏÖ¸ÅÂÊ£¬È¡¸ÅÂÊ×î´óµÄÀàÐÍ×÷ÎªÎÄ±¾µÄÅÐ±ðÀàÐÍ£¬¿ÉÐÎÊ½»¯Îªy¡ä=argmaxc¡ÊCP(d|c)P(c)P(d)£¬ÆäÖÐÍ¬Ò»ÎÄµµ¼ÆËã¸ÅÂÊ´óÐ¡Ê±£¬P(d)ÏàÍ¬£¬¹Ê¿ÉÊ¡ÂÔ£¬Òò´Ëy¡ä=argmaxc¡ÊCP(d|c)P(c)£¬¼ÙÉèÎÄµµµÄÌØÕ÷Îªd=(x1,x2,x3,¡­,xn)£¬¸ù¾ÝÆÓËØ±´Ò¶Ë¹µÄºËÐÄË¼Ïë£¬¸÷±äÁ¿Ö®¼äÏà»¥¶ÀÁ¢£¬ÔòÓÐP(d|c)=P(x1|c)P(x2|c)P(x3|c)¡­P(xn|c)£¬Òò´Ë£¬×îÖÕµÄ·ÖÀà½á¹û±äÎª£º y¡ä=argmaxc¡ÊCP(x1|c)P(x2|c)P(x3|c)¡­P(xn|c)P(c)= argmaxc¡ÊCP(c)¡Çx¡ÊdP(x|d)¡£¸ù¾ÝÉÏÊö¹Û²ì£¬Ö»ÐèÔÚÈ«¾ÖÊý¾Ý¼¯ÉÏÍ³¼ÆP(c)ÒÔ¼°P(x|c)£¬±ã¿ÉÇáËÉ»ñµÃÎÄ±¾µÄÀàÐÍ¡£
±¾½ÚÒÀ¾ÉÊ¹ÓÃsklearn°üÖÐ·â×°ºÃµÄÆÓËØ±´Ò¶Ë¹Ëã·¨£¬ÊµÏÖÎÄ±¾·ÖÀà£¬±¾´ÎÊµÑéÆ½Ì¨Îª°Ù¶ÈAI Studio£¬ÊµÑé»·¾³ÎªPython 3.7¡£
²½Öè1£º Êý¾Ý¼¯¼ò½é
±¾ÊµÑé²ÉÓÃµÄÊý¾Ý¼¯ÎªÍøÉÏ¹«¿ªµÄ´ÓÖÐÎÄÐÂÎÅÍøÕ¾ÉÏÅÀÈ¡56821ÌõÐÂÎÅÕªÒªÊý¾Ý£¬Êý¾Ý¼¯ÖÐ°üº¬10¸öÀàÐÍ(¸÷ÀàÐÍÊý¾ÝÁ¿Í³¼ÆÈç±í3ª²1ËùÊ¾)£¬±¾´ÎÊµÑé½«ÆäÖÐ90%×÷ÎªÑµÁ·¼¯£¬10%×÷ÎªÑéÖ¤¼¯¡£


±í3ª²1ÐÂÎÅÊý¾Ý¼¯Ñù±¾ÊýÍ³¼Æ



¹ú¼Ê
4354
Æû³µ
7469
ÎÄ»¯
5110
½ÌÓý
8066
ÓéÀÖ
6043
¿Æ¼¼
6017
ÌåÓý
4818
Ö¤È¯
3654
²Æ¾­
7432
·¿²ú
3858

²½Öè2£º ÎÄ±¾Êý¾ÝÔ¤´¦Àí
ÎÄ±¾Êý¾ÝÓÉÓÚÆä×ÔÈ»ÓïÑÔÐÎÊ½£¬ÎÞ·¨Ö±½ÓÊäÈëµ½¼ÆËã»ú½øÐÐ´¦Àí£¬ÐèÒª¶ÔÆë½øÐÐ×ÔÈ»ÓïÑÔµ½Êý×ÖµÄ×ª»¯¡£±¾ÊµÑé×îÖÕ½«ÎÄ±¾±íÊ¾Îªoneª²hotÐÎÊ½£¬¼´£¬¶ÔÓÚ¸ø¶¨´Ê±í£¬ÈôÎÄ±¾ÖÐ³öÏÖÁË´Ê±íÖÐµÄ´Ê£¬Ôò½«Óë´Ê±í´óÐ¡ÏàÍ¬µÄÏòÁ¿ÖÐ¸Ã´Ê¶ÔÓ¦µÄÎ»ÖÃÖÃÎª1£¬·ñÔòÎª0¡£Òò´Ë£¬ÐèÒªÔÚÈ«¾ÖÓïÁÏÉÏ¹¹½¨Ò»¸ö´Ê±í£¬Ê×ÏÈÊ¹ÓÃjieba·Ö´Ê¶ÔÓïÁÏ½øÐÐ·Ö´Ê£¬ÎªÁË²»Ê¹´Ê±í¹ý´óÔì³É¹ý¶È¸´ÔÓµÄ¼ÆËã£¬±¾ÊµÑéÖ»²ÉÑùÒ»¶¨ÊýÁ¿µÄ¸ßÆµ´Ê×÷Îª´Ê±í¼¯ºÏ£¬Í¬Ê±£¬ÎªÁË±ÜÃâÒ»Ð©¸ßÆµÎÞÒâÒåµÄ´Ê¸ÉÈÅÎÄ±¾±íÊ¾£¬ÔÚ¹¹½¨´Ê±íÊ±£¬Ê×ÏÈÒ²»á½«ÉÏÊö¸ßÆµÎÞÒâÒåµÄÍ£ÓÃ´ÊÈ¥³ý¡£

#µ¼Èë±ØÒªµÄ°ü

import random

import jieba# ´¦ÀíÖÐÎÄ

from sklearn import model_selection

from sklearn.naive_bayes import MultinomialNB

from sklearn.metrics import accuracy_score,classification_report

import re,string

Ê×ÏÈ£¬¼ÓÔØÎÄ±¾£¬¹ýÂËÆäÖÐµÄÌØÊâ×Ö·û£º 

# jieba·Ö´Ê£¬½«ÎÄ±¾×ª»»Îª´ÊÁÐ±í

def text_to_words(file_path):

sentences_arr = £Û£Ý

lab_arr = £Û£Ý

with open(file_path,'r',encoding='utf8') as f:

for line in f.readlines():

lab_arr.append(line.split('_!_')£Û1£Ý)    # ÎÄ±¾ËùÊô±êÇ©

sentence = line.split('_!_')£Û-1£Ý.strip()

# È¥³ý±êµã·ûºÅ

sentence = re.sub("£Û£Üs+£Ü.£Ü!£Ü/_,$%^*(+£Ü"£Ü')£Ý+|£Û+¡ª¡ª()?¡¾¡¿¡° ¡±!£¬¡££¿¡¢~@#£¤%¡­&*()¡¶¡·£º £Ý+", "",sentence)

sentence = jieba.lcut(sentence, cut_all=False)

sentences_arr.append(sentence)

return sentences_arr, lab_arr

¼ÓÔØÍ£ÓÃ´Ê±í£¬¶ÔÎÄ±¾´ÊÆµ½øÐÐÍ³¼Æ£¬¹ýÂËµôÍ£ÓÃ´Ê¼°´ÊÆµ½ÏµÍµÄ´Ê£¬¹¹½¨´Ê±í£º 

# ¼ÓÔØÍ£ÓÃ´Ê±í

def load_stopwords(file_path):

stopwords = £Ûline.strip() for line in open(file_path, encoding='UTF-8').readlines()£Ý

return stopwords



# ´ÊÆµÍ³¼Æ

def get_dict(sentences_arr,stopswords):

word_dic = {}

for sentence in sentences_arr:

for word in sentence:

if word != ' ' and word.isalpha():

if word not in stopswords:  # Í£ÓÃ´Ê´¦Àí

word_dic£Ûword£Ý = word_dic.get(word,1) + 1

# °´´ÊÆµÐòÅÅÁÐ  

word_dic=sorted(word_dic.items(),key=lambda x:x£Û1£Ý,reverse=True)

return word_dic



# ¹¹½¨´Ê±í£¬¹ýÂËµôÆµÂÊµÍÓÚword_numµÄµ¥´Ê

def get_feature_words(word_dic,word_num):

'''

´Ó´ÊµäÖÐÑ¡È¡N¸öÌØÕ÷´Ê£¬ÐÎ³ÉÌØÕ÷´ÊÁÐ±í¡£

return: ÌØÕ÷´ÊÁÐ±í

'''

n = 0

feature_words = £Û£Ý

for word in word_dic:

if n < word_num:

feature_words.append(word£Û0£Ý)

n += 1

return feature_words



# ÎÄ±¾ÌØÕ÷±íÊ¾

def get_text_features(train_data_list, test_data_list, feature_words):

# ¸ù¾ÝÌØÕ÷´Ê£¬½«Êý¾Ý¼¯ÖÐµÄ¾ä×Ó×ª»»ÎªÌØÕ÷ÏòÁ¿

def text_features(text, feature_words):

text_words = set(text)

features = £Û1 if word in text_words else 0 for word in feature_words£Ý

return features  # ·µ»ØÌØÕ÷

train_feature_list = £Ûtext_features(text, feature_words) for text in train_data_list£Ý

test_feature_list = £Ûtext_features(text, feature_words) for text in test_data_list£Ý

return train_feature_list, test_feature_list



# µ÷ÓÃÉÏÊöº¯Êý£¬Íê³É´Ê±í¹¹½¨

sentences_arr, lab_arr = text_to_words('data/data6826/news_classify_data.txt')

#¼ÓÔØÍ£ÓÃ´Ê

stopwords = load_stopwords('data/data43470/stopwords_cn.txt')

# Éú³É´Êµä

word_dic = get_dict(sentences_arr,stopwords)

#Éú³ÉÌØÕ÷´ÊÁÐ±í£¬´Ë´¦Ê¹ÓÃ´ÊÎ¬¶ÈÎª10000

feature_words =  get_feature_words(word_dic,10000)

ÇÐ·ÖÊý¾Ý¼¯£¬²¢½«ÎÄ±¾Êý¾Ý×ª»»Îª¹Ì¶¨³¤¶ÈµÄidÏòÁ¿£º 

#Êý¾Ý¼¯»®·Ö

train_data_list, test_data_list, train_class_list, test_class_list = model_selection.train_test_split(sentences_arr,lab_arr, test_size=0.1)

#Éú³ÉÌØÕ÷ÏòÁ¿

train_feature_list,test_feature_list = get_text_features(train_data_list,test_data_list,feature_words)

²½Öè3£º Ä£ÐÍ¶¨ÒåÓëÑµÁ·
ÉÏÊö¸ÅÂÊ¼ÆËãÖÐ£¬¿ÉÄÜ´æÔÚÄ³Ò»¸öµ¥´ÊÔÚÄ³¸öÀàÐÍÖÐ´ÓÀ´Ã»ÓÐ³öÏÖ¹ý£¬¼´Ä³¸öÊôÐÔµÄÌõ¼þ¸ÅÂÊÎª0(P(x|c)=0)£¬´ËÊ±»áµ¼ÖÂÕûÌå¸ÅÂÊÎªÁã£¬ÎªÁË±ÜÃâÕâÖÖÇé¿ö³öÏÖ£¬ÒýÈëÀ­ÆÕÀ­Ë¹Æ½»¬²ÎÊý£¬½«Ìõ¼þ¸ÅÂÊÎª0µÄÊôÐÔµÄ¸ÅÂÊÉè¶¨Îª¹Ì¶¨Öµ£¬¾ßÌåµÄ£¬¶ÔÃ¿¸öÀàÐÍÏÂËùÓÐµ¥´ÊµÄ¼ÆÊý¼Ó1£¬µ±ÑµÁ·Ñù±¾¼¯ÊýÁ¿³ä·Ö´óÊ±£¬²¢²»»á¶Ô½á¹û²úÉúÓ°Ïì¡£ÏÂÃæµ÷ÓÃ½Ó¿ÚµÄ²ÎÊýÖÐ£¬alphaÎª1Ê±£¬±íÊ¾Ê¹ÓÃÀ­ÆÕÀ­Ë¹Æ½»¬·½Ê½£¬ÈôÉèÖÃÎª0£¬Ôò²»Ê¹ÓÃÆ½»¬£» fit_prior´ú±íÊÇ·ñÑ§Ï°ÏÈÑé¸ÅÂÊP(Y=c)£¬Èç¹ûÉèÖÃÎªFalse£¬ÔòËùÓÐµÄÑù±¾Àà±ðÊä³ö¶¼ÓÐÏàÍ¬µÄÀà±ðÏÈÑé¸ÅÂÊ£» class_priorÎª¸÷ÀàÐÍµÄÏÈÑé¸ÅÂÊ£¬Èç¹ûÃ»ÓÐ¸ø³ö¾ßÌåµÄÏÈÑé¸ÅÂÊÔò×Ô¶¯¸ù¾ÝÊý¾ÝÀ´½øÐÐ¼ÆËã¡£

# »ñÈ¡ÆÓËØ±´Ò¶Ë¹·ÖÀàÆ÷

classifier = MultinomialNB(alpha=1.0,     # À­ÆÕÀ­Ë¹Æ½»¬

fit_prior=True,  # ÊÇ·ñÒª¿¼ÂÇÏÈÑé¸ÅÂÊ

class_prior=None)



#½øÐÐÑµÁ·                        

classifier.fit(train_feature_list, train_class_list)

²½Öè4£º Ä£ÐÍÑéÖ¤
Ä£ÐÍÑµÁ·½áÊøºó£¬¿ÉÊ¹ÓÃÑéÖ¤¼¯²âÊÔÄ£ÐÍµÄÐÔÄÜ£¬Í¬ÉÏÒ»Ð¡½Ú£¬Êä³ö×¼È·ÂÊµÄÍ¬Ê±£¬¶Ô¸÷¸öÀàÐÍµÄ¾«È·ÂÊ¡¢ÕÙ»ØÂÊÒÔ¼°F1ÖµÒ²½øÐÐÊä³ö¡£

# ÔÚÑéÖ¤¼¯ÉÏ½øÐÐÑéÖ¤

test_accuracy = classifier.score(test_feature_list, test_class_list)

print(test_accuracy)

predict = classifier.predict(test_feature_list)

print(classification_report(test_class_list, predict))

# Êä³ö½á¹ûÈçÍ¼3ª²6ËùÊ¾



Í¼3ª²6ÆÓËØ±´Ò¶Ë¹ÎÄ±¾·ÖÀà½á¹û


²½Öè5£º Ä£ÐÍÔ¤²â
Ê¹ÓÃÉÏÊöÑµÁ·ºÃµÄÄ£ÐÍ£¬¶ÔÈÎÒâ¸ø¶¨µÄÎÄ±¾Êý¾Ý£¬¿É½øÐÐÔ¤²â£¬¹Û²ìÄ£ÐÍµÄ·º»¯ÐÔÄÜ¡£

# ¼ÓÔØ¾ä×Ó£¬¶Ô¾ä×Ó½øÐÐÔ¤´¦Àí£º È¥³ý±êµã¡¢·Ö´Ê

def load_sentence(sentence):

# È¥³ý±êµã·ûºÅ

sentence = re.sub("£Û£Üs+£Ü.£Ü!£Ü/_,$%^*(+£Ü"£Ü')£Ý+|£Û+¡ª¡ª()?¡¾¡¿¡° ¡±!£¬¡££¿¡¢~@#£¤%¡­&*()¡¶¡·£º £Ý+", "",sentence)

sentence = jieba.lcut(sentence, cut_all=False)

return sentence



lab = £Û 'ÎÄ»¯', 'ÓéÀÖ', 'ÌåÓý', '²Æ¾­','·¿²ú', 'Æû³µ', '½ÌÓý', '¿Æ¼¼', '¹ú¼Ê', 'Ö¤È¯'£Ý



p_data = '¡¾ÖÐ¹úÎÈ½¡Ç°ÐÐ¡¿Ó¦¶Ô·çÏÕÌôÕ½±ØÐë·¢»ÓÖÆ¶ÈÓÅÊÆ'

sentence = load_sentence(p_data)

sentence= £Ûsentence£Ý

print('·Ö´Ê½á¹û:', sentence)

#ÐÎ³ÉÌØÕ÷ÏòÁ¿

p_words = get_text_features(sentence,sentence,feature_words)

res = classifier.predict(p_words£Û0£Ý)

print(lab£Ûint(res)£Ý)

# Êä³ö½á¹ûÈçÍ¼3ª²7ËùÊ¾



Í¼3ª²7ÎÄ±¾·ÖÀàÔ¤²â½á¹û

Êµ¼ùÊ®Ò»£º »ùÓÚÖ§³ÖÏòÁ¿»úÊµÏÖð°Î²»¨·ÖÀà
Ö§³ÖÏòÁ¿»ú(SVM)ÊÇ»úÆ÷Ñ§Ï°ÖÐ¾­µäµÄ·ÖÀàËã·¨£¬Ö÷ÒªË¼ÏëÎª×î´ó»¯²»Í¬ÀàÐÍµÄÑù±¾µ½·ÖÀà³¬Æ½ÃæÖ®¼äµÄ¾àÀëºÍ¡£µ±Êý¾ÝÍêÈ«ÏßÐÔ¿É·ÖÊ±£¬µÃµ½µÄ×î´ó¼ä¸ôÊÇÓ²¼ä¸ô£¬¼´Á½¸öÆ½ÐÐµÄ³¬Æ½Ãæ(¼ä¸ô´ø)Ö®¼ä²»´æÔÚÑù±¾µã£» µ±Êý¾Ý²¿·ÖÏßÐÔ¿É·ÖÊ±£¬Á½¸ö³¬Æ½ÃæÖ®¼äÔÊÐí´æÔÚÒ»Ð©Ñù±¾µã£¬´ËÊ±µÃµ½µÄ×î´ó¼ä¸ôÆ½ÃæÊÇÈí¼ä¸ôÆ½Ãæ¡£¶ÔÓÚÍêÈ«ÏßÐÔ²»¿É·ÖµÄÊý¾Ý£¬Ò»°ãµÄÖ§³ÖÏòÁ¿»úËã·¨ÎÞ·¨Âú×ãÒªÇó£¬µ«ÊÇÊÊµ±Ê¹ÓÃºË¼¼ÇÉ£¬½«·ÇÏßÐÔÑù±¾ÌØÕ÷Ó³Éäµ½¸ßÎ¬ÏßÐÔ¿É·Ö¿Õ¼ä£¬È»ºó±ã¿ÉÓ¦ÓÃÖ§³ÖÏòÁ¿»ú½øÐÐ·ÖÀà£¬´ËÊ±µÄÖ§³ÖÏòÁ¿»ú³ÆÎª·ÇÏßÐÔÖ§³ÖÏòÁ¿»ú£¬³£ÓÃµÄºË¼¼ÇÉ°üÀ¨£º ÏßÐÔºËº¯Êý¡¢¶àÏîÊ½ºËº¯Êý¡¢¸ßË¹ºËº¯Êý(¾¶Ïò»ùº¯Êý)£¬ÆäÖÐ£¬¸ßË¹ºËº¯ÊýÐèÒª½øÐÐµ÷²Î£¬¼´ºË±ä»»µÄ´ø¿í£¬Ëü¿ØÖÆ¾¶Ïò×÷ÓÃ·¶Î§¡£
±¾½ÚÈÔ¾ÉÊ¹ÓÃsklearnÖÐ·â×°ºÃµÄÖ§³ÖÏòÁ¿»úËã·¨£¬ÊµÏÖð°Î²»¨·ÖÀà£¬²¢»æÖÆ·ÖÀà³¬Æ½Ãæ£¬¿ÉÊÓ»¯·ÖÀàÐ§¹û¡£±¾´ÎÊµÑéÆ½Ì¨Îª°Ù¶ÈAI Studio£¬ÊµÑé»·¾³ÎªPython 3.7¡£
²½Öè1£º Êý¾Ý¼¯¼ÓÔØ
ÔÚÊµ¼ù¾ÅÖÐ£¬±¾ÊéÖ±½Ó´Ósklearn.datasetsÖÐ¼ÓÔØ¼¯³ÉµÄÊý¾Ý¼¯£¬ÏÖÔÚ²ÉÓÃÁíÒ»ÖÖÊý¾Ý¼ÓÔØ·½Ê½£¬´Ó¹ÒÔØÔÚµ±Ç°Ä¿Â¼ÏÂµÄÊý¾Ý¼¯ÎÄ¼þÖÐ¶ÁÈ¡Êý¾Ý£¬ÓÃÓÚÑµÁ·¡£

# ¼ÓÔØÏà¹Ø°ü

import numpy as np

from matplotlib import colors

from sklearn import svm

from sklearn import model_selection

import matplotlib.pyplot as plt

import matplotlib as mpl



# ½«×Ö·û´®×ª»»ÎªÕûÐÍ

def iris_type(s):

it = {b'Iris-setosa':0, b'Iris-versicolor':1, b'Iris-virginica':2}

return it£Ûs£Ý



# ¼ÓÔØÊý¾Ý

data = np.loadtxt('/home/aistudio/data/data2301/iris.data',

dtype=float,    # Êý¾ÝÀàÐÍ

delimiter=',',    # Êý¾Ý·Ö¸î·û

converters={4:iris_type}) # ½«±êÇ©ÓÃiris_type½øÐÐ×ª»»

# Êý¾Ý·Ö¸î£¬½«Ñù±¾ÌØÕ÷ÓëÑù±¾±êÇ©½øÐÐ·Ö¸î

x, y = np.split(data, (4, ), axis=1) 

x = x£Û:, :2£Ý         # È¡Ç°Á½¸öÌØÕ÷½øÐÐ·ÖÀà

# µ÷ÓÃmodel_selectionº¯Êý½øÐÐÑµÁ·¼¯¡¢²âÊÔ¼¯ÇÐ·Ö

x_train, x_test, y_train, y_test = model_selection.train_test_split(x, y, random_state=1, test_size=0.2)

²½Öè2£º Ä£ÐÍÅäÖÃ¼°ÑµÁ·
sklearn.svm.SVC()º¯ÊýÌá¹©¶à¸ö¿ÉÅäÖÃ²ÎÊý£¬ÆäÖÐ£¬CÎª´íÎóÏîµÄ³Í·£ÏµÊý¡£CÔ½´ó£¬¶ÔÑµÁ·¼¯´íÎóÏîµÄ³Í·£Ô½´ó¡£Ä£ÐÍÔÚÑµÁ·¼¯ÉÏµÄ×¼È·ÂÊÔ½¸ß£¬Ô½ÈÝÒ×¹ýÄâºÏ¡£CÔ½Ð¡£¬Ô½ÔÊÐíÑµÁ·Ñù±¾ÖÐÓÐÒ»Ð©Îó·ÖÀà´íÎóÑù±¾£¬·º»¯ÄÜÁ¦Ç¿¡£¶ÔÓÚÑµÁ·Ñù±¾´øÓÐÔëÉùµÄÇé¿ö£¬Ò»°ã²ÉÓÃ½ÏÐ¡µÄC£¬°ÑÑµÁ·Ñù±¾¼¯ÖÐ´íÎó·ÖÀàµÄÑù±¾×÷ÎªÔëÉù£» KernelÎª²ÉÓÃµÄºËº¯Êý£¬Ä¬ÈÏÎªÏßÐÔºË£¬¿ÉÑ¡µÄÎªlinear/poly/rbf/sigmoid/precomputed£¬decision_function_shapeÎªovr£¬Ò»¶Ô¶à·ÖÀà¾ö²ßº¯Êý¡£

# SVM·ÖÀàÆ÷¹¹½¨

def classifier():

clf = svm.SVC(C=0.8,                         # Îó²îÏî³Í·£ÏµÊý

kernel='linear',               

decision_function_shape='ovr')   # ¾ö²ßº¯Êý

return clf



# ÑµÁ·Ä£ÐÍº¯Êý

def train(clf, x_train, y_train):

clf.fit(x_train, y_train.ravel()) # ÑµÁ·¼¯ÌØÕ÷ÏòÁ¿ºÍ ÑµÁ·¼¯Ä¿±êÖµ



#  SVMÄ£ÐÍ¶¨Òå

clf = classifier()

# µ÷ÓÃº¯ÊýÑµÁ·Ä£ÐÍ

train(clf, x_train, y_train)

²½Öè3£º Ä£ÐÍÑéÖ¤
ÔÚ»®·ÖºÃµÄ²âÊÔ¼¯ÉÏ²âÊÔÄ£ÐÍµÄ×¼È·ÂÊ£¬Ê¹ÓÃÁ½ÖÖ·½·¨¼ÆËãÄ£ÐÍÔ¤²â½á¹ûµÄ×¼È·ÂÊ£º ×Ô¶¨Òå·½·¨show_accuracy()ÒÔ¼°sklearnÖÐ»úÆ÷Ñ§Ï°Ä£ÐÍ·â×°ºÃµÄ·½·¨score()£¬ÑéÖ¤Á½ÕßµÄÒ»ÖÂÐÔ£¬²¢ÇÒÊä³öÑù±¾xµ½¸÷¸ö¾ö²ß³¬Æ½ÃæµÄ¾àÀë£¬Ñ¡ÔñÕýµÄ×î´óÖµ¶ÔÓ¦µÄÀàÐÍ×÷Îª·ÖÀà½á¹û¡£

# ×Ô¶¨Òå×¼È·ÂÊ¼ÆËã·½·¨

def show_accuracy(a, b, tip):

acc = a.ravel() == b.ravel()

print('%s Accuracy:%.3f' %(tip, np.mean(acc)))



# µ÷ÓÃÁ½ÖÖ×¼È·ÂÊ¼ÆËã·½·¨£¬Êä³ö¶Ô±È

def print_accuracy(clf, x_train, y_train, x_test, y_test):

# Êä³ö·â×°º¯Êýscore()µÄ½á¹û

print('training prediction:%.3f' %(clf.score(x_train, y_train)))

print('test data prediction:%.3f' %(clf.score(x_test, y_test)))

# Êä³ö×Ô¶¨Òå·½·¨×¼È·ÂÊ¼ÆËã½á¹û

show_accuracy(clf.predict(x_train), y_train, 'traing data')

show_accuracy(clf.predict(x_test), y_test, 'testing data')

# ¼ÆËã¾ö²ßº¯ÊýµÄÖµ£¬±íÊ¾xµ½¸÷¸ö·Ö¸îÆ½ÃæµÄ¾àÀë

print('decision_function:£Ün', clf.decision_function(x_train)£Û:2£Ý)



# Ä£ÐÍÆÀ¹À£º µ÷ÓÃprint_accuracy()º¯Êý

print_accuracy(clf, x_train, y_train, x_test, y_test)

# Êä³ö½á¹ûÈçÍ¼3ª²8ËùÊ¾



Í¼3ª²8SVMð°Î²»¨·ÖÀà½á¹û


²½Öè4£º Ä£ÐÍ¿ÉÊÓ»¯Õ¹Ê¾
ÈôÒª»æÖÆ¸÷¸öÀàÐÍ¶ÔÓ¦µÄ¿Õ¼äÇøÓò£¬ÐèÒª²ÉÑù´óÁ¿µÄÑù±¾µã£¬µ«ÊÇ±¾Êý¾Ý¼¯½ö°üº¬150ÌõÊý¾Ý£¬»æÖÆµÄÇøÓò²»Ì«¾«Ï¸£¬Òò´Ë£¬ÐèÒªÉú³É´ó¹æÄ£µÄÑù±¾Êý¾Ý£¬¸ù¾ÝÉú³ÉµÄÊý¾Ý½øÐÐ·ÖÀàÇøÓòµÄ»æÖÆ£¬¹ý³ÌÈçÏÂ(±¾ÊµÑé²ÉÓÃÑù±¾µÄÇ°Á½Î¬ÌØÕ÷½øÐÐ·ÖÀà)£º Ê×ÏÈÔÚ¸÷Î¬ÌØÕ÷µÄ×î´óÖµÓë×îÐ¡ÖµÇø¼äÄÚ½øÐÐ²ÉÑù£¬Éú³ÉÐÐÏàÍ¬¾ØÕó(¾ØÕóÃ¿ÐÐÏòÁ¿ÖÐ¸÷ÔªËØÖµ¶¼ÏàÍ¬)ÓëÁÐÏàÍ¬¾ØÕó(¾ØÕóÃ¿ÁÐÏòÁ¿ÖÐ¸÷ÔªËØÖµ¶¼ÏàÍ¬)£¬È»ºó½«Á½¾ØÕóÀ­Æ½ÎªÁ½¸ö³¤ÏòÁ¿£¬Á½¸ö³¤ÏòÁ¿Ã¿¸öÔªËØ·Ö±ð×÷ÎªÑù±¾µÄµÚÒ»¸öÌØÕ÷ÓëµÚ¶þ¸öÌØÕ÷£¬Ê¹ÓÃÑµÁ·ºÃµÄSVMÄ£ÐÍ¶ÔÉú³ÉµÄÑù±¾µã½øÐÐÔ¤²â£¬½«Éú³ÉµÄÑù±¾µãÊ¹ÓÃ²»Í¬µÄÑÕÉ«É¢ÂäÔÚ×ø±ê¿Õ¼äÖÐ£¬µ±Ñù±¾µã×ã¹»¶àÊ±£¬·ÖÀà±ß½ç±ã»áÏÔÊ¾µØ¸ü¼Ó¾«Ï¸¡£ÆäÖÐ£¬Éú³ÉµÄ¸¨Öú»æÍ¼µÄÑù±¾µã¼°ÆäÔ¤²â½á¹ûÈçÍ¼3ª²9ËùÊ¾£¬ÎÒÃÇÈ¡Ç°Á½¸öÑùµã½øÐÐÕ¹Ê¾£¬×îÖÕ»æÖÆµÄ¿ÉÊÓ»¯Õ¹Ê¾½á¹ûÈçÍ¼3ª²10ËùÊ¾¡£

def draw(clf, x): 

iris_feature = 'sepal length', 'sepal width', 'petal length', 'petal width'

# »ñÈ¡µÚ1¡¢2Î¬ÌØÕ÷µÄ×î´óÖµÓë×îÐ¡Öµ

x1_min, x1_max = x£Û:, 0£Ý.min(), x£Û:, 0£Ý.max()

x2_min, x2_max = x£Û:, 1£Ý.min(), x£Û:, 1£Ý.max()

# Éú³ÉÍø¸ñ²ÉÑùµã

x1, x2 = np.mgrid£Ûx1_min:x1_max:200j, x2_min:x2_max:200j£Ý 

# Éú³ÉÑù±¾µã

grid_test = np.stack((x1.flat, x2.flat), axis = 1)

print('grid_test:£Ün', grid_test£Û:2£Ý)

# ¼ÆËãÑù±¾µ½¾ö²ßÃæµÄ¾àÀë

z = clf.decision_function(grid_test)

print('the distance to decision plane:£Ün', z£Û:2£Ý)

grid_hat = clf.predict(grid_test)

# Ô¤²â·ÖÀàÖµ£º µÃµ½£Û0, 0, ¡­, 2, 2£Ý

print('grid_hat:£Ün', grid_hat£Û:2£Ý)

# Ê¹µÃgrid_hat ºÍ x1 ÐÎ×´Ò»ÖÂ

grid_hat = grid_hat.reshape(x1.shape)

cm_light = mpl.colors.ListedColormap(£Û'#A0FFA0', '#FFA0A0', '#A0A0FF'£Ý)

cm_dark = mpl.colors.ListedColormap(£Û'g', 'b', 'r'£Ý)

# »æÖÆ·ÖÀàÇøÓò£º ÄÜ¹»Ö±¹Û±íÏÖ³ö·ÖÀà±ß½ç

plt.pcolormesh(x1, x2, grid_hat, cmap = cm_light)

# ÑµÁ·¼¯Óë²âÊÔ¼¯Êý¾Ý£º É¢µãÍ¼

plt.scatter(x£Û:, 0£Ý, x£Û:, 1£Ý, c=np.squeeze(y), edgecolor='k', s=50, cmap=cm_dark )

plt.scatter(x_test£Û:, 0£Ý, x_test£Û:, 1£Ý, s=120, facecolor='none',zorder=10)

plt.xlabel(iris_feature£Û0£Ý, fontsize=20) # ×¢Òâµ¥´ÊµÄÆ´Ð´label

plt.ylabel(iris_feature£Û1£Ý, fontsize=20)

plt.xlim(x1_min, x1_max)

plt.ylim(x2_min, x2_max)

plt.title('Iris data classification via SVM', fontsize=30)

plt.grid()

plt.show()

draw(clf, x)



Í¼3ª²9SVMð°Î²»¨·ÖÀàª²Ô¤²â½á¹û




Í¼3ª²10SVMð°Î²»¨·ÖÀà¿ÉÊÓ»¯Õ¹Ê¾

Êµ¼ùÊ®¶þ£º »ùÓÚKª²meansÊµÏÖð°Î²»¨¾ÛÀà
Kª²meansÊÇÒ»ÖÖ¾­µäµÄÎÞ¼à¶½¾ÛÀàËã·¨£¬¶ÔÓÚ¸ø¶¨µÄÑù±¾¼¯£¬°´ÕÕÑù±¾Ö®¼äµÄ¾àÀë´óÐ¡£¬½«Ñù±¾¼¯»®·ÖÎªK¸ö´Ø£¬ÈÃ´ØÄÚµÄµã¾¡Á¿½ôÃÜµØÁ¬ÔÚÒ»Æð£¬¶øÈÃ´Ø¼äµÄ¾àÀë¾¡Á¿´ó¡£Kª²meansµÄÑ§Ï°¹ý³Ì±¾ÖÊÉÏÊÇ²»Í£¸üÐÂ´ØÐÄµÄ¹ý³Ì£¬Ò»µ©´ØÐÄÈ·¶¨£¬¸ÃËã·¨±ãÍê³ÉÁËÑ§Ï°¹ý³Ì¡£KµÄÈ¡ÖµÒ²ÐèÒªÈËÎª¶¨Òå£¬KºÜ´óÊ±£¬Ä£ÐÍÇ÷ÏòÓÚÔÚÑµÁ·¼¯ÉÏ±íÏÖµØºÃ£¬¼´¹ýÄâºÏ£¬µ«ÔÚ²âÊÔ¼¯ÉÏÐÔÄÜ¿ÉÄÜ½Ï²î¡£K¹ýÐ¡Ê±£¬¿ÉÄÜµ¼ÖÂ´ØÐÄ²»×¼È·£¬ÔÚÑµÁ·¼¯Óë²âÊÔ¼¯ÉÏµÄÐÔÄÜ¾ù½Ï²î¡£Òò´Ë£¬ËäÈ»Kª²meansËã·¨½ÏÎª¼òµ¥£¬µ«ÊÇÒ²´æÔÚÌìÈ»µÄ±×¶Ë£¬ÇÒ¶ÔÀëÈºµãºÜÃô¸Ð¡£
Kª²meansËã·¨Ê×ÏÈËæ»ú³õÊ¼»¯»òËæ»ú³éÈ¡K¸öÑù±¾µã×÷Îª´ØÐÄ£¬È»ºóÒÔÕâK¸ö´ØÐÄ½øÐÐ¾ÛÀà£¬¾ÛÀàºóÖØÐÂ¼ÆËã´ØÐÄ(Ò»°ãÎªÍ¬Ò»´ØÄÚÑù±¾µÄ¾ùÖµ)£¬ÖØ¸´ÉÏÊö²Ù×÷£¬Ö±ÖÁ´ØÐÄÇ÷ÓÚÎÈ¶¨»òÕß´ïµ½Ö¸¶¨µü´ú´ÎÊýÊ±Í£Ö¹µü´ú¡£±¾ÊéÊ¹ÓÃÁ½ÖÖ·½·¨ÊµÏÖKª²meansµÄ¾ÛÀà£¬Ç°ÕßÊÖ¶¯ÊµÏÖ£¬ºóÕßÍ¨¹ýµ÷ÓÃsklearn·â×°ºÃµÄ¿â¿ìËÙÊµÏÖ¡£±¾´ÎÊµÑéÆ½Ì¨Îª°Ù¶ÈAI Studio£¬ÊµÑé»·¾³ÎªPython 3.7¡£
²½Öè1£º ¼ÓÔØÊý¾Ý¼¯
±¾ÊéÊ¹ÓÃð°Î²»¨Êý¾Ý¼¯½øÐÐ¾ÛÀàÑÝÊ¾£¬ð°Î²»¨Êý¾Ý¼¯ÖÐ°üº¬ÈýÖÖÀàÐÍ£¬¹²150ÌõÊý¾Ý£¬Ã¿ÌõÊý¾Ý°üº¬4ÏîÌØÕ÷£º »¨Ýà³¤¶È¡¢»¨Ýà¿í¶È¡¢»¨°ê³¤¶È¡¢»¨°ê¿í¶È£¬sklearn.datasets ÒÑ¾­¼¯³ÉÁË¸ÃÊý¾Ý¼¯£¬Òò´Ë¿ÉÖ±½Ó¼ÓÔØÊ¹ÓÃ£º 

# ¼ÓÔØÏàÓ¦µÄ°ü

import matplotlib.pyplot as plt

import numpy as np

from sklearn.cluster import KMeans

from sklearn import datasets



# Ö±½Ó´ÓsklearnÖÐ»ñÈ¡Êý¾Ý¼¯

iris = datasets.load_iris()

X = iris.data£Û:, :4£Ý      # ±íÊ¾È¡ÌØÕ÷¿Õ¼äÖÐµÄ4¸öÎ¬¶È

²½Öè2£º ÊÖ¶¯ÊµÏÖKª²means
(1) Ê×ÏÈ¶¨Òå¾àÀë²âÁ¿±ê×¼£¬±¾ÊéÊ¹ÓÃÅ·ÊÏ¾àÀëºâÁ¿Á½Ñù±¾Ö®¼äµÄ¾àÀë£¬¶¨ÒåÈçÏÂ£º 

# Å·ÊÏ¾àÀë¼ÆËã

def distEclud(x,y):

return np.sqrt(np.sum((x-y)**2))  # ¼ÆËãÅ·ÊÏ¾àÀë

(2) ¶¨Òå´ØÐÄ£¬´Ë´¦Ê¹ÓÃËæ»ú³éÈ¡µÄk¸öÑù±¾µãÎª´ØÐÄ£¬½øÐÐºóÐø¼ÆËã£º 

# Îª¸ø¶¨Êý¾Ý¼¯¹¹½¨Ò»¸ö°üº¬K¸öËæ»ú´ØÐÄcentroidsµÄ¼¯ºÏ

def randCent(dataSet,k):

m,n = dataSet.shape       # m=150,n=4

centroids = np.zeros((k,n))  # k*4

for i in range(k): # Ö´ÐÐËÄ´Î

index = int(np.random.uniform(0,m))  # ²úÉú0µ½150µÄËæ»úÊý

centroids£Ûi,:£Ý = dataSet£Ûindex,:£Ý # °Ñ¶ÔÓ¦ÐÐµÄËÄ¸öÎ¬¶È¸³Öµµ½´ØÐÄ

return centroids

(3) ÊµÏÖKª²meansËã·¨£º Ê×ÏÈ³õÊ¼»¯´ØÐÄ£¬È»ºó±éÀúËùÓÐµã£¬ÕÒµ½Æä¶ÔÓ¦µÄ´Ø£¬¸üÐÂ´ØÐÄ£¬ÖØ¸´µü´úÉÏÊö¹ý³Ì£¬Ö±µ½´ØÐÄ²»ÔÙ·¢Éú±ä»¯¡£

# k¾ùÖµ¾ÛÀàËã·¨

def KMeans(dataSet, k):

m = np.shape(dataSet)£Û0£Ý  # Ñù±¾Êý

# np.mat()´´½¨150*2µÄ¾ØÕó

# µÚÒ»ÁÐ´æÃ¿¸öÑù±¾ÊôÓÚÄÄÒ»´Ø£¬µÚ¶þÁÐ´æÃ¿¸öÑù±¾µ½´ØÐÄµÄÎó²î

clusterAssment = np.mat(np.zeros((m,2)))

clusterChange = True  



# ³õÊ¼»¯ÖÊÐÄcentroids

centroids = randCent(dataSet,k)

while clusterChange:

# Ñù±¾ËùÊô´Ø²»ÔÙ¸üÐÂÊ±Í£Ö¹µü´ú

clusterChange = False

# ±éÀúËùÓÐµÄÑù±¾

for i in range(m):

minDist = 100000.0

minIndex = -1

# ±éÀúËùÓÐµÄ´ØÐÄ

# ÕÒ³ö×î½üµÄ´ØÐÄ

for j in range(k):

# ¼ÆËã¸ÃÑù±¾µ½k¸ö´ØÐÄµÄÅ·Ê½¾àÀë

# ÕÒµ½¾àÀë×î½üµÄÄÇ¸ö´ØÐÄminIndex

distance = distEclud(centroids£Ûj,:£Ý,dataSet£Ûi,:£Ý)

if distance < minDist:

minDist = distance

minIndex = j

# ¸üÐÂ¸ÃÐÐÑù±¾ËùÊôµÄ´Ø

if clusterAssment£Ûi,0£Ý != minIndex:

clusterChange = True

clusterAssment£Ûi, :£Ý = minIndex, minDist**2

# ¸üÐÂ´ØÐÄ

for j in range(k):

# »ñÈ¡¶ÔÓ¦´ØÀàËùÓÐµÄµã

pointsInCluster = dataSet£Ûnp.nonzero(clusterAssment£Û:, 0£Ý.A == j)£Û0£Ý£Ý

# Çó¾ùÖµ£¬²úÉúÐÂµÄÖÊÐÄ

centroids£Ûj, :£Ý = np.mean(pointsInCluster, axis=0) 



return centroids, clusterAssment

(4) ¿ÉÊÓ»¯Õ¹Ê¾º¯Êý¶¨Òå£¬·Ö±ðÈ¡Ç°Á½¸öÎ¬¶ÈµÄÌØÕ÷ÓëºóÁ½¸öÎ¬¶ÈµÄÌØÕ÷»æÍ¼£¬±ãÓÚ¹Û²ì¾ÛÀàÐ§¹û£º 

def draw(data,center,assment):

length=len(center)

fig=plt.figure

data1=data£Ûnp.nonzero(assment£Û:,0£Ý.A == 0)£Û0£Ý£Ý

data2=data£Ûnp.nonzero(assment£Û:,0£Ý.A == 1)£Û0£Ý£Ý

data3=data£Ûnp.nonzero(assment£Û:,0£Ý.A == 2)£Û0£Ý£Ý

# Ñ¡È¡Ç°Á½¸öÎ¬¶È»æÖÆÔ­Ê¼Êý¾ÝµÄÉ¢µãÍ¼

plt.scatter(data1£Û:,0£Ý,data1£Û:,1£Ý,c="red",marker='o',label='label0')

plt.scatter(data2£Û:,0£Ý,data2£Û:,1£Ý,c="green", marker='*', label='label1')

plt.scatter(data3£Û:,0£Ý,data3£Û:,1£Ý,c="blue", marker='+', label='label2')

# »æÖÆ´ØµÄÖÊÐÄµã

for i in range(length):

plt.annotate('center',xy=(center£Ûi,0£Ý,center£Ûi,1£Ý),xytext=£Ü

(center£Ûi,0£Ý+1,center£Ûi,1£Ý+1),arrowprops=dict(facecolor='yellow'))

#  plt.annotate('center',xy=(center£Ûi,0£Ý,center£Ûi,1£Ý),xytext=£Ü

# (center£Ûi,0£Ý+1,center£Ûi,1£Ý+1),arrowprops=dict(facecolor='red'))

plt.show()



# Ñ¡È¡ºóÁ½¸öÎ¬¶È»æÖÆÔ­Ê¼Êý¾ÝµÄÉ¢µãÍ¼

plt.scatter(data1£Û:,2£Ý,data1£Û:,3£Ý,c="red",marker='o',label='label0')

plt.scatter(data2£Û:,2£Ý,data2£Û:,3£Ý,c="green", marker='*', label='label1')

plt.scatter(data3£Û:,2£Ý,data3£Û:,3£Ý,c="blue", marker='+', label='label2')

# »æÖÆ´ØµÄÖÊÐÄµã

for i in range(length):

plt.annotate('center',xy=(center£Ûi,2£Ý,center£Ûi,3£Ý),xytext=£Ü

(center£Ûi,2£Ý+1,center£Ûi,3£Ý+1),arrowprops=dict(facecolor='yellow'))

plt.show()

(5) Ö´ÐÐKª²means¹ý³Ì£¬ÊµÏÖð°Î²»¨Êý¾Ý¼¯µÄ¾ÛÀà£¬ÒòÎªð°Î²»¨Êý¾Ý¼¯Ò»¹²°üº¬ÈýÖÖÀàÐÍ£¬Òò´Ë´Ë´¦Ö±½ÓÉèÖÃK=3£º 

dataSet = X

k = 3

centroids, clusterAssment = KMeans(dataSet,k)

draw(dataSet, centroids, clusterAssment)

# ¿ÉÊÓ»¯½á¹ûÈçÏÂ£¬ÆäÖÐ»ÆÉ«¼ýÍ·Ö¸Ïò´ØÐÄ£¬ÈçÍ¼3ª²11ËùÊ¾



Í¼3ª²11ÊÖ¶¯ÊµÏÖKª²means¶Ôð°Î²»¨¾ÛÀàµÄ½á¹û

²½Öè3£º µ÷ÓÃsklearn¿âÊµÏÖKª²means
sklearn.cluster.KMeans°ü·â×°ÁËKª²meansµÄÊµÏÖ£¬Òò´Ë£¬¶ÁÕß¿ÉÒÔ·Ç³£·½±ãµØÊµÏÖKª²means¾ÛÀà£º 

def Model(n_clusters):

estimator = KMeans(n_clusters=n_clusters)    # ¹¹Ôì¾ÛÀàÆ÷

return estimator



def train(estimator):

estimator.fit(X)  # ¾ÛÀà



# ³õÊ¼»¯ÊµÀý£¬²¢¿ªÆôÑµÁ·µü´ú¼ÆËã´ØÐÄ

estimator=Model(3)   

train(estimator)



label_pred = estimator.labels_  # »ñÈ¡¾ÛÀà±êÇ©

# »æÖÆk-means½á¹û

x0 = X£Ûlabel_pred == 0£Ý

x1 = X£Ûlabel_pred == 1£Ý

x2 = X£Ûlabel_pred == 2£Ý

plt.scatter(x0£Û:, 0£Ý, x0£Û:, 1£Ý, c="red", marker='o', label='label0')

plt.scatter(x1£Û:, 0£Ý, x1£Û:, 1£Ý, c="green", marker='*', label='label1')

plt.scatter(x2£Û:, 0£Ý, x2£Û:, 1£Ý, c="blue", marker='+', label='label2')

plt.xlabel('sepal length')

plt.ylabel('sepal width')

plt.legend(loc=2)

plt.show()

# ¿ÉÊÓ»¯½á¹ûÈçÍ¼3ª²12ËùÊ¾



Í¼3ª²12sklearn¿âKª²means½øÐÐð°Î²»¨¾ÛÀàµÄ½á¹û