µÚ3ÕÂÍ¼ÊéÀàÄ¿×Ô¶¯±êÒýÏµÍ³
21ÊÀ¼ÍÒÔÀ´£¬Ëæ×ÅÐÅÏ¢×ÊÔ´Á¿µÄ²»¶ÏÔö³¤£¬ÊÀ½ç¸÷µØµÄÍ¼Êé¹ÝÆÕ±éÊ¹ÓÃ´óÁ¿Êý×Ö×ÊÔ´½øÐÐÊý×Ö»¯½¨Éè£¬ÈçºÎ¶ÔÊý×Ö×ÊÔ´½øÐÐ¼Ó¹¤ÕûÀí³ÉÎªÊý×Ö»¯Í¼Êé¹Ý½¨ÉèµÄÖØÒª·½ÏòÖ®Ò»¡£ÎªÁËÊ¹Êý×Ö×ÊÔ´ÏñÖ½ÖÊÎÄÏ×Ò»ÑùÄÜ¹»±»¿ìËÙ°´Àà±ð½øÐÐ¼ìË÷£¬Êý×Ö×ÊÔ´Ò²ÐèÒª½øÐÐ±êÒý¡£
ÎÞÂÛÊÇÖ½ÖÊ×ÊÔ´»¹ÊÇÊý×Ö×ÊÔ´£¬Æä·ÖÀà¶¼²»ÊÇÓëÉú¾ãÀ´µÄ£¬Í¼ÊéÎÄÏ×µÄ±êÒýÈËÔ±ÐèÒª¾­¹ýÅàÑµ£¬¼´Ê¹ÊÇ¾­Ñé·á¸»µÄÍ¼Êé±êÒýÈËÔ±Ò²Òª¸ù¾ÝÖ½ÖÊ×ÊÔ´»òÊý×Ö×ÊÔ´µÄÖ÷ÒªÄÚÈÝ£¬²ÎÕÕ¡¶ÖÐÍ¼·ÖÀà·¨¡·µÄ·ÖÀà¹æÔò½øÐÐ·ÖÀà±êÒý¡£Ä¿Ç°Êý×Ö×ÊÔ´ÔÚÍ¼Êé¹Ý¹Ý²Ø×ÊÔ´ÖÐËùÕ¼µÄ±ÈÀýÒÑ¾­Ô½À´Ô½´ó£¬Êý×Ö×ÊÔ´µÄ±êÒý¹¤×÷Ò²±äµÃÔ½À´Ô½ÖØÒª£¬ÈçºÎÔÚÊý×Ö×ÊÔ´ÖÖÀàºÍ¹æÄ£¶¼ÔÚÑ¸ËÙÔö³¤µÄÇé¿öÏÂÈÔÈ»¼æ¹Ë±êÒýµÄÖÊÁ¿ºÍËÙ¶È£¬ÊÇÈÎºÎÒ»¸öÊý×Ö»¯Í¼Êé¹Ý¶¼²»¿ÉºöÊÓµÄÖØÒªÏîÄ¿¡£
3.1ÒµÎñ±³¾°·ÖÎö
Ä¿Ç°¶ÔÓÚÍ¼Êé¹ÝÊÕÂ¼µÄÊý×Ö×ÊÔ´£¬´ó²¿·ÖÍ¼Êé¹ÝÈÔÈ»ÔÚ²ÉÈ¡ÈË¹¤·ÖÀàµÄ·½Ê½¶ÔÊý×Ö×ÊÔ´½øÐÐ±êÒý£¬ÕâÖÖ·½·¨ÐèÒª¾­Ñé·Ç³£·á¸»µÄ±êÒýÈËÔ±ºÄ·Ñ´óÁ¿Ê±¼ä²ÅÄÜÍê³É¡£Òò´ËÊý×Ö×ÊÔ´µÄ×Ô¶¯±êÒý·½·¨²»½ö¿ÉÒÔ½ÚÊ¡ÈËÁ¦ºÍ²ÆÁ¦£¬¶øÇÒ»¹ÄÜ¹»´ó´óÌá¸ßÊý×Ö×ÊÔ´±êÒýµÄËÙ¶È£¬Ëõ¶Ì×ÊÔ´ÉÏ¼ÜÖÜÆÚ£¬±»¶ÁÕß¸üºÃµØÀûÓÃ£¬ÓÐÀûÓÚÖªÊ¶µÄ´«²¥¡£¶øÄ¿Ç°Í¼Êé¹ÝËùÄÜ¹»Ê¹ÓÃµÄÊý×Ö×ÊÔ´×Ô¶¯±êÒýÏµÍ³¾ù½ÏÎª³Â¾É£¬ÆäËã·¨ÒÀÀµ´Ê±íºÍÖªÊ¶¿âµÄ¹¹½¨£¬ÇÒ²¢Î´Ê¹ÓÃ½üÄêÀ´»úÆ÷Ñ§Ï°ºÍ×ÔÈ»ÓïÑÔ´¦ÀíÁìÓòµÄ×îÐÂ³É¹û¡£ÕâÐ©ÏµÍ³µÄ±êÒý×¼È·ÂÊµÍÏÂ£¬ÇÒ¶ÔÓÚ²¿·ÖÊý×Ö×ÊÔ´ÐèÒªÈË¹¤²ÎÓë½øÐÐÐ­Öú·ÖÀà»òÕß¼ìÑé£¬²¢²»ÄÜ´ÓÕæÕýÒâÒåÉÏ½â·ÅÈËÁ¦×ÊÔ´£¬´ï²»µ½×Ô¶¯±êÒýµÄÒªÇó¡£¶ø½üÄêÀ´¿ìËÙ·¢Õ¹µÄ»ùÓÚ»úÆ÷Ñ§Ï°ºÍ×ÔÈ»ÓïÑÔ´¦ÀíµÄËã·¨£¬²¢Ã»ÓÐÔÚÊý×Ö×ÊÔ´±êÒýÏµÍ³ÉÏÓÐÐ§Ó¦ÓÃ¡£
3.2Êý¾ÝÌáÈ¡
ÕâÀï½«Ê¹ÓÃÄ³ÊÐÍ¼Êé¹ÝÌá¹©µÄF¾­¼Ã´óÀà¹Ý²ØÊý×Ö×ÊÔ´×÷ÎªÓïÁÏËØ²Ä¡£Êý×Ö×ÊÔ´µÄÎÄÏ×±êÌâ¡¢ÆÚ¿¯»ò»áÒéÃû³Æ¡¢×÷Õß¡¢µ¥Î»¡¢Ê±¼ä¡¢ÎÄÏ×ÕªÒªºÍ×÷Õß¸ø³öµÄ¹Ø¼ü´Ê×é³ÉÁËÈ«²¿Êý×Ö×ÊÔ´µÄË÷ÒýÊý¾Ý¿â²¿·Ö£¬¶øÊý×Ö×ÊÔ´µÄÈ«ÎÄÔòÒÔ¶þ½øÖÆ´óÎÄ¼þµÄÐÎÊ½µ¥¶À½øÐÐ´æ´¢¡£
ÓÉÓÚ¶àÊý×Ö¶Î¿ÕÖµ±ÈÀý½Ï¸ß£¬´ÓÖÐÑ¡Ôñ²¿·Ö×Ö¶Î×÷Îª»úÆ÷±êÒýµÄÊäÈëÌØÕ÷£¬¾­¹ýÉ¸Ñ¡£¬Ñ¡Ôñ±êÌâ¡¢³ö°æÉç¡¢¹Ø¼ü´Ê¡¢ÕªÒª×÷ÎªºóÐø·ÖÀà±êÒýµÄÒÀ¾Ý£¬ÈçÍ¼3.1ËùÊ¾¡£


Í¼3.1´ý±êÒýÎÄÏ×Êý¾ÝÊ¾Àý









Í¼Êé¹ÝÌá¹©µÄ³õÊ¼Êý¾Ý¿âÎÄ¼þÎªAccessÊý¾Ý¿â£¬ÎÄ¼þÀàÐÍÎªmdb£¬Ò»¹²ÓÐ74ÍòÌõÑù±¾ÊýÁ¿¡£Ê×ÏÈ°²×°AccessÊý¾ÝÇý¶¯ÒÔ¼°pyobdc¹¤¾ß°ü£¬Á¬½ÓAccessÊý¾Ý¿â²¢½«Êý¾Ýµ¼³öÎªcsvÎÄ¼þ¡£ ÔÚWindowsÏµÍ³ÉÏÔËÐÐÒÔÏÂ´úÂë£º

import pyodbc

print(£Ûx for x in pyodbc.drivers() if x.startswith('Microsoft Access Driver')£Ý)

Èç¹û¿´µ½Ò»¸ö¿ÕÁÐ±í£¬ÄÇÃ´ÕýÔÚÔËÐÐ64Î»Python£¬²¢ÇÒÐèÒª°²×°64Î»°æ±¾µÄACEÇý¶¯³ÌÐò¡£Èç¹ûÖ»¿´µ½£Û'Microsoft Access Driver (*.mdb)'£Ý²¢ÇÒÐèÒªÊ¹ÓÃ.accdbÎÄ¼þ£¬ÄÇÃ´ÐèÒª°²×°32Î»°æ±¾µÄACEÇý¶¯³ÌÐò¡£ 
Êý¾ÝÌáÈ¡²¿·ÖµÄ´úÂë¼ûextract.py£¬ÆäÖÐÃ»ÓÐ³éÈ¡Ô­±¾Êý¾Ý¿âÖÐÈ«²¿µÄ×Ö¶Î£¬Ö»Ê¹ÓÃÁË¶ÔÓÚ·ÖÀà×îÖØÒªµÄ¼¸¸ö×Ö¶Î£¬¼´ÕýÎÄµØÖ·¡¢target¡¢title¡¢abstract¡¢keyword¡£

import pyodbc

import csv



path = 'D:£Ü£Üdata£Ü£Ü'

cnxn = pyodbc.connect(r'DRIVER={Microsoft Access Driver (*.mdb, *.accd b)};DBQ=' + path + 'F´óÀà08µ½18ÄêÊý¾Ý.mdb')

crsr = cnxn.cursor()

for table_info in crsr.tables(tableType='TABLE'):

print(table_info.table_name)



rows = crsr.execute("SELECT Fulltext_store_path, attribute_string_14, attribute_string_1, a ttribute_string_13, attribute_text_1 FROM FÊý¾Ý")



csv_writer = csv.writer(open('F08_18.csv', 'w', newline='', encoding='utf8'))

for row in rows:

list = £Û£Ý

for item in row:

if item != None:

list.append(item)

else:

list.append('')

csv_writer.writerow(list)

ÆäÖÐ£¬Ê×ÏÈ¶ÁÈ¡ËùÓÐ±íµÄÃû³Æ£¬È»ºóÔÙÖ´ÐÐSQLÓÎ±ê²éÑ¯(crsr.execute)£¬ÖðÐÐ¶ÁÈ¡²¢½«ÆäÐ´µ½ÎÄ±¾ÎÄ¼þÖÐ(csv.writer)¡£
Èç¹ûÊÇÆ»¹û²Ù×÷ÏµÍ³£¬ÐèÒªÍ¨¹ýHomebrew°²×°unixodbc£¬°²×°·½·¨Îªbrew install unixodbc£¬È»ºó°²×°mdbtools(brew install mdbtools)£¬Ê¹ÓÃÃüÁî¡°mdbª²export F´óÀà08µ½18ÄêÊý¾Ý.mdb 'F08ª²18Êý¾Ý'>output_file.csv¡±¼´¿Éµ¼³öÎªcsv¸ñÊ½¡£

3.3Êý¾ÝÔ¤´¦Àí
¶ÔÊý¾Ý½øÐÐ·ÖÎöºó·¢ÏÖÔ¼ÓÐ5%µÄÎÄÏ×¹Ø¼ü´ÊÈ±Ê§£¬Ô¼ÓÐ20%µÄÎÄÏ×ÕªÒªÈ±Ê§£¬½öÓÐÔ¼30%µÄÎÄÏ×´æÔÚÕýÎÄ²¿·Ö¡£
¶ÔÊý¾ÝÖÐµÄÎÄÏ×±êÌâ¡¢ÕªÒªÊ¹ÓÃjieba·Ö´Ê£¬²¢É¾È¥¶Ô·ÖÀàÏÔÈ»Ã»ÓÐ°ïÖúµÄ´ÊÐÔ¡£¶ÔÊý¾ÝÖÐ×÷Õß¸ø³öµÄ¹Ø¼ü´Ê²»×ö´¦Àí¡£Ê¹ÓÃjieba·Ö´ÊµÄÊ¾Àý·½·¨ÈçÏÂ£º 

import jieba

import jieba.posseg as pseg

abstract = getAbstract() #ÎÄÏ×ÕªÒª

words = pseg.cut(abstract)

for word, flag in words:

print('%s %s' % (word, flag))

¶ÔÓÚ·Ö´ÊºóµÄ´ÊÓï£¬ÔÚÍ£ÓÃ´Ê±íÖÐ½øÐÐËÑË÷£¬É¾È¥´¿Êý×ÖÒÔ¼°ÔÚÍ£ÓÃ´Ê±íÖÐµÄ´Ê¡£Í£ÓÃ´ÊÊÇÖ¸ÔÚÐÅÏ¢¼ìË÷ÖÐ£¬Îª½ÚÊ¡´æ´¢¿Õ¼äºÍÌá¸ßËÑË÷Ð§ÂÊ£¬ÔÚ´¦Àí×ÔÈ»ÓïÑÔÊý¾ÝÖ®Ç°»òÖ®ºó»á×Ô¶¯¹ýÂËµôÄ³Ð©×Ö»ò´Ê£¬ÕâÐ©×Ö»ò´Ê±»³ÆÎªÍ£ÓÃ´Ê¡£¶ÔÖÐÎÄÎÄ±¾·ÖÀàÈÎÎñÀ´Ëµ´ó²¿·ÖÊÇÖú´Ê¡¢¸±´Ê¡¢½é´Ê¡¢Á¬½Ó´Ê£¬±¾ÉíÎÞÊµ¼Êº¬Òå¡£Ô¤´¦Àí²¿·ÖµÄ´úÂë¼ûpre.py£¬¾­Ô¤´¦ÀíºóµÃµ½F08_18_pre.csv¡£
È»ºó¶ÔÊý¾ÝÖÐµÄÎÄÏ×ÕýÎÄ²¿·Ö£¬Ê¹ÓÃÖÐÎÄÎ¬»ùÓïÁÏ¿âÑµÁ·Nª²GramÄ£ÐÍ£¬ÑµÁ·ÓïÑÔÄ£ÐÍµÄ´úÂëÈçÏÂ£º 

import pickle

file = open('ngram_char.txt', 'r', encoding='utf8')

dict1 = {}

dict2 = {}

num = 0

for line in file:	num += 1

if num % 10000 == 0:

print(num)

words = line.strip().split(' ')

for i in range(len(words)):

word = words£Ûi£Ý

if word not in dict1:

continue

dict1£Ûword£Ý += 1

for i in range(1, len(words)):

word1 = words£Ûi-1£Ý

word2 = words£Ûi£Ý

if (word1, word2) not in dict2:

dict2£Û(word1, word2)£Ý = 1

continue

dict2£Û(word1, word2)£Ý += 1

picklestring1 = pickle.dump(dict1, open('ngram1.pkl', 'wb'), pickle.HIGH EST_PROTOCOL)

picklestring2 = pickle.dump(dict2, open('ngram2.pkl', 'wb'), pickle.HIGH EST_PROTOCOL)	

dict1£Ûword£Ý = 1

Ê¹ÓÃÓïÑÔÄ£ÐÍ¹ýÂËºó£¬³¢ÊÔÌáÈ¡ÆäÖÐ¶Ô·ÖÀàÓÐ°ïÖúµÄ´Ê¡£Ê¹ÓÃÓïÑÔÄ£ÐÍ¹ýÂËµÄ´úÂëÈçÏÂ£º 

def is_sentence(s):

global charList, dict1, dict2

p = 0

words_cut = jieba.cut(s)

words = £Û'<b>'£Ý

for item in words_cut:

if item not in charList and item != '¡¸':

words.append(item)

words.append('<e>')

for i in range(1, len(words)-1):

if (words£Ûi-1£Ý, words£Ûi£Ý) not in dict2:

num1 = 1

else:

num1 = dict2£Û(words£Ûi-1£Ý, words£Ûi£Ý)£Ý + 1

if words£Ûi£Ý not in dict1:

num2 = len(dict2)

else:

num2 = dict1£Ûwords£Ûi£Ý£Ý + len(dict2)

p = p + math.log(num1 / num2, 10)

print(' '.join(words), ' ', s, ' ', p)

#ÉèÖÃãÐÖµ

if p > ©\6 * len(words):

return True

else:

return False


È»ºóÊ¹ÓÃ¹ýÂËºóµÄÕýÎÄ²¿·ÖÌáÈ¡¹Ø¼ü´Ê£¬ÊµÏÖ¹ý³Ì°üÀ¨ÒÔÏÂ¼¸²½£º 
(1) ÀûÓÃÌá¹©µÄ¹Ø¼ü´Ê¹¹½¨¹Ø¼ü´Ê±í£¬ÔÚÎÄÏ×ÕýÎÄÖÐ½øÐÐËÑË÷£¬Ñ¡Ôñ³öÏÖ´ÎÊý´óÓÚãÐÖµµÄ´Ê£¬¼ÓÈëµ½Êý¾Ý¼¯ÖÐ¡£¹Ø¼ü´úÂëÈçÏÂ£º 

keywords = ''

for keyword in keyword_dict.keys():

c = content.count(keyword)

#ÉèÖÃãÐÖµ

if c > 5:

keywords += ' ' + keyword


(2) Ê¹ÓÃTFª²IDFËã·¨´ÓÎÄÏ×ÕýÎÄÌáÈ¡¹Ø¼ü´Ê£¬¼ÓÈëµ½Êý¾Ý¼¯ÖÐ¡£Ê¹ÓÃjiebaµÄTFª²IDFµÄ¹Ø¼ü´ÊÌáÈ¡·½·¨ÈçÏÂ£º 

import jieba

import jieba.analyse

sentence = getText() #ÎÄÏ×È«ÎÄ²¿·Ö

keywords = jieba.analyse.extract_tags(text, withWeight=True)

for item in keywords:

print(item£Û0£Ý,item£Û1£Ý)


×îºó½«ËùÓÐÊý¾Ý´òÂÒË³Ðòºó·ÖÎªÑµÁ·¼¯¡¢ÑéÖ¤¼¯ºÍ²âÊÔ¼¯£¬ÆäÖÐÑµÁ·¼¯Õ¼90%£¬ÑéÖ¤¼¯ºÍ²âÊÔ¼¯¸÷Õ¼5%¡£
¶ÔF´óÀàÏÂµÄ¶þ¼¶·ÖÀàÊýÁ¿½øÐÐ¿ÉÊÓ»¯£¬½á¹ûÈçÍ¼3.2ËùÊ¾¡£


Í¼3.2F´óÀàÖÐ¶þ¼¶ÀàÄ¿Ñù±¾ÊýÁ¿


¸ø¶¨µÄÊý¾Ý´æÔÚÑù±¾²»Æ½ºâÎÊÌâ£¬ÀýÈçÔÚF´óÀà¶þ¼¶·ÖÀàÖÐ³öÏÖµÄF8²ÆÕþ¡¢¾­¼ÃÀàÓÐ17Íò¶àÌõÊý¾Ý£¬¶ø³öÏÖ×îÉÙµÄF6ÓÊµç¾­¼Ã½öÓÐÁ½Ç§¶àÌõÊý¾Ý¡£ÎªÁËÔö¼Ó³öÏÖ½ÏÉÙÀà±ðÊý¾ÝµÄÊý¾ÝÁ¿£¬Í¬Ê±Ôö¼ÓÔëÉù·ÀÖ¹¹ýÄâºÏ²¢ÌáÉý·º»¯ÄÜÁ¦¡£¶Ô³öÏÖ´ÎÊý½Ï¶àÀà±ðµÄÊý¾Ý½øÐÐËæ»úµÄÇ·²ÉÑù£¬ÇÒÔÚ¶ÔÄ³ÌõÊý¾Ý½øÐÐÇ·²ÉÑùÊ±£¬Ëæ»úÉ¾È¥¸ÃÌõÊý¾ÝµÄ²¿·Ö´ÊÓï¡£ÕâÖÖËæ»úÉ¾³ýÑµÁ·¼¯ÖÐ´ÊµÄ·½·¨Ïàµ±ÓÚ´ÓÊý¾ÝÔ´Í·²É¼¯ÁË¸ü¶àµÄÊý¾Ý£¬Ò²¿ÉÒÔ·ÀÖ¹¹ýÄâºÏ¡£
È»ºó£¬¿¼ÂÇÊ¹ÓÃ´ÊÏòÁ¿½øÐÐÏûÆç£¬Ê¹ÓÃgensimÑµÁ·´ÊÏòÁ¿µÄ·½·¨ÈçÏÂ£º 

import os

from gensim.models import word2vec



print("word2vecÄ£ÐÍÑµÁ·ÖÐ...")

#¼ÓÔØÎÄ¼þ

sentence = word2vec.Text8Corpus('wiki_segmented.txt')

#ÑµÁ·Ä£ÐÍ

model = word2vec.Word2Vec(sentence, size=400, window=5, min_count=5, work ers=4, sg=1)

#±£´æÄ£ÐÍ

model.save('models/wiki.zh.text.model')

model.wv.save_word2vec_format('models/wiki.zh.text.vector', binary=False)

print("Word2vecÄ£ÐÍÒÑ´æ´¢Íê±Ï")

½«ÎÄÏ×µÄ±êÌâ¡¢×÷Õß¸ø³öµÄ¹Ø¼ü´Ê¡¢ÕªÒªÈý²¿·Ö·Ö±ðÊ¹ÓÃTFª²IDFÌáÈ¡ÌØÕ÷ºó£¬ÔÙÊ¹ÓÃ±´Ò¶Ë¹·ÖÀà½øÐÐÑµÁ·ºÍ²âÊÔ£¬×¼È·ÂÊÈç±í3.1ËùÊ¾¡£


±í3.1²»Í¬Êý¾ÝÀ´Ô´×¼È·ÂÊ


Êý ¾Ý À´ Ô´Acc(×¼È·ÂÊ)


±êÌâ
0.71%
¹Ø¼ü´Ê
0.76%
ÕªÒª
0.70%
´Ó±í3.1ÖÐ¿ÉÒÔ¿´µ½£¬×¼È·ÂÊ´Ó¸ßµ½µÍÎª×÷Õß¸ø³öµÄ¹Ø¼ü´Ê¡¢±êÌâ¡¢ÕªÒª£¬¿É¼û²»Í¬²¿·ÖÊý¾ÝµÄÖÊÁ¿Ò²ÓÐËù²»Í¬¡£

3.4»ùÓÚ±´Ò¶Ë¹·ÖÀàµÄÎÄÏ×±êÒý
ÎÄ±¾·ÖÀàÊÇ×ÔÈ»ÓïÑÔ´¦Àí×îÖØÒªÒ²ÊÇ×î»ù´¡µÄÓ¦ÓÃÖ®Ò»¡£20ÊÀ¼Í90Äê´úÒÔÀ´£¬Ëæ×ÅÐÅÏ¢×ÊÔ´Á¿µÄ²»¶ÏÔö³¤£¬¿ÉÓÃÓÚÑµÁ·µÄÓïÁÏ¿âÔ½À´Ô½¶à£¬Îª»ùÓÚÍ³¼Æ·½·¨µÄ·ÖÀàËã·¨Ìá¹©ÁË´óÁ¿µÄÊý¾Ý¡£»ùÓÚÍ³¼ÆÑ§Ï°µÄËã·¨Èç±´Ò¶Ë¹·ÖÀàÖð½¥³ÉÎªÎÄ±¾·ÖÀàµÄÖ÷ÒªËã·¨¡£
±´Ò¶Ë¹ÀíÂÛµÄ»ù±¾Ë¼Ïë×îÔçÓÉÓ¢¹úÖøÃûÊýÑ§¼ÒThomas BayesÓÚ1764ÄêÌá³ö£¬Ö±ÖÁ20ÊÀ¼Í£¬ÐÅÏ¢ÂÛºÍÍ³¼Æ¾ö²ßÀíÂÛµÄ·¢Õ¹ÍÆ¶¯ÁË±´Ò¶Ë¹ÀíÂÛµÄ½øÒ»²½·¢Õ¹¡£±´Ò¶Ë¹·½·¨ÓÃ¸ÅÂÊ±íÊ¾²»È·¶¨ÐÔ£¬¸ÅÂÊ¹æÔò±íÊ¾ÍÆÀí»òÑ§Ï°£¬Ëæ»ú±äÁ¿µÄ¸ÅÂÊ·Ö²¼±íÊ¾ÍÆÀí»òÑ§Ï°µÄ×îÖÕ½á¹û¡£±´Ò¶Ë¹ÀíÂÛÏÖÒÑ±»Ó¦ÓÃµ½ÈË¹¤ÖÇÄÜµÄÖÚ¶àÁìÓò£¬Õë¶ÔºÜ¶àÁìÓòµÄºËÐÄµÄ·ÖÀàÎÊÌâ£¬´óÁ¿×¿ÓÐ³ÉÐ§µÄËã·¨¶¼ÊÇ»ùÓÚ±´Ò¶Ë¹ÀíÂÛÉè¼Æ¡£ÕâÀïÒª½â¾öµÄÎÊÌâ¼´ÎªµäÐÍµÄÎÄ±¾·ÖÀàÎÊÌâ£¬¿¼ÂÇÊ¹ÓÃ±´Ò¶Ë¹·ÖÀà½â¾ö¸ÃÎÊÌâ¡£
ÕâÀïÊ¹ÓÃµÄ»úÆ÷Ñ§Ï°¿âÎªscikitª²learn¡£scikitª²learnÊÇÒ»¸ö¹¦ÄÜÇ¿´óµÄÍ¨ÓÃ»úÆ÷Ñ§Ï°¿â£¬·â×°ÁË´óÁ¿³£ÓÃµÄ»úÆ÷Ñ§Ï°Ëã·¨£¬°üÀ¨¸÷ÖÖÌØÕ÷¹¤³ÌÒÔ¼°·ÖÀàËã·¨£¬·Ç³£ÊÊºÏÏñ¸ÃÏîÄ¿Ò»ÑùÐèÒª¶ÔÊý¾Ý½øÐÐ´óÁ¿´¦ÀíµÄÏîÄ¿¡£ÕâÀïÊ¹ÓÃµÄTFª²IDFÌØÕ÷ÌáÈ¡¡¢¿¨·½¼ìÑéÒÔ¼°±´Ò¶Ë¹·ÖÀà¶¼¿ÉÒÔÀûÓÃ¸Ã»úÆ÷Ñ§Ï°¿â½ÏÎªÈÝÒ×µØÊµÏÖ¡£
Ê¹ÓÃTFª²IDFÌáÈ¡ÌØÕ÷ºó£¬Ê¹ÓÃ±´Ò¶Ë¹·ÖÀàÆ÷½øÐÐ·ÖÀà£¬¶þ¼¶·ÖÀà×¼È·ÂÊ½öÎª76%£¬È«²¿´úÂë¼ûbayes1.py£º

def train(train_data, train_target):

#TfidfVectorizerÖÐÄ¬ÈÏµÄtoken_pattern²»°üÀ¨µ¥¸ö×ÖµÄ´Ê

#µ«¿¼ÂÇµ½ÖÐÎÄÖÐµ¥¸ö×Ö¶Ô·ÖÀàÒ²ÓÐ°ïÖú£¬ÐèÒª¶ÔÆä½øÐÐÐÞ¸Ä

tfidf = TfidfVectorizer(token_pattern=r"(?u)£Üb£Üw+£Üb")

tfidf_train = tfidf.fit_transform(train_data)



mnb = MultinomialNB(alpha=1.0)

l = tfidf_train.shape£Û0£Ý

#ÒòÊý¾ÝÁ¿¹ý´ó£¬ÐèÒªÊ¹ÓÃpartial_fit½øÐÐÔöÁ¿Ñ§Ï°

for i in range(0, l, 100000):

data = tfidf_train£Ûi:min(i + 100000, l)£Ý

label = train_target£Ûi:min(i + 100000, l)£Ý

mnb.partial_fit(data, label, classes=classes)



return tfidf, mnb



def pre(tfidf, mnb, test_data, test_target):

tfidf_test = tfidf.transform(test_data)

predict = mnb.predict(tfidf_test)

count = 0

for left, right in zip(predict, test_target):

if left == right:

count += 1

return count / len(test_target)

¾ßÌåµÄ·ÖÀàÖ¸±êÈç±í3.2ËùÊ¾¡£


±í3.2²»Í¬Ñù±¾ÊýµÄ¾«È·ÂÊ¡¢ÕÙ»ØÂÊ¡¢F1·ÖÖµ¶Ô±È1


Àà±ðPrecision

(¾«È·ÂÊ)Recall

(ÕÙ»ØÂÊ)F1ª²Score

(F1·ÖÖµ)Support

(Ñù±¾Êý)


F
0
0
0
14
F0
0.96
0.14
0.24
961
F1
0.69
0.71
0.7
4296
F2
0.66
0.89
0.76
8959
F3
0.88
0.8
0.84
3338
F4
0.91
0.53
0.67
3011
F5
0.97
0.65
0.78
1805
F6
0
0
0
123
F7
0.86
0.57
0.68
2942
F8
0.82
0.9
0.86
8233
avg/total
0.79
0.76
0.75
33682
ÆäÖÐ,PrecisionÎª·ÖÀàµÄ¾«È·ÂÊ£¬RecallÎª·ÖÀàµÄÕÙ»ØÂÊ£¬F1ª²ScoreÎªPrecisionºÍRecallµÄµ÷ºÍÆ½¾ùÊý£¬SupportÎªÑù±¾Êý¡£ÔÚÁ½¸öÑù±¾Êý×îÉÙµÄ·ÖÀàFÓëF6ÉÏµÄ¾«È·ÂÊºÍÕÙ»ØÂÊ¾ùÎª0£¬ËµÃ÷²¢Ã»ÓÐ²âÊÔ¼¯ÉÏµÄÑù±¾±»±êÒýÎªF»òF6¡£ÔÚÑù±¾Êý½ÏÉÙµÄ·ÖÀàF0ÓëF5ÉÏËäÈ»¾«È·ÂÊºÜ¸ß£¬µ«ÕÙ»ØÂÊ¼«µÍ£¬ËµÃ÷±êÒýÎªÕâÁ½¸ö·ÖÀàµÄÑù±¾´ó²¿·ÖÊÇ·ÖÀàÕýÈ·µÄ£¬µ«»¹ÓÐºÜ¶àÊôÓÚËüÃÇµÄÑù±¾»®·Öµ½ÁË±ðµÄ·ÖÀà¡£¶þ¼¶·ÖÀà¾«È·ÂÊÉõÖÁµÍÓÚ80%£¬Ô¶Ô¶Ã»ÓÐ´ïµ½¸ÃÏîÄ¿µÄÔ¤ÆÚ£¬¿ÉÄÜÐèÒª²¹³ä¸ü¶àµÄÊý¾Ý»òÕßÊ¹ÓÃ¸üºÃµÄËã·¨¡£ÏÂÃæ´ÓÑµÁ·¹ý³Ì¡¢ÌØÕ÷½µÎ¬ÒÔ¼°È¨ÖØµ÷½ÚÈý¸ö½Ç¶ÈÌá³öÈýÖÖ²»Í¬µÄËã·¨£¬ÓÃÓÚÌá¸ßÀà±ð±êÒýµÄ¾«È·ÂÊ¡£
3.4.1ÔöÁ¿ÑµÁ·
ÔöÁ¿ÑµÁ·Ö¸µÄÊÇ»úÆ÷Ñ§Ï°·½·¨²»½ö¿ÉÒÔ±£ÁôÖ®Ç°ÒÑ¾­Ñ§Ï°¹ýµÄÖªÊ¶£¬Ò²¿ÉÒÔ´ÓÐÂµÄÑù±¾ÖÐÑ§Ï°ÐÂµÄÖªÊ¶£¬ÕâÖÖÑµÁ··½·¨µÄÑ§Ï°ÊÇ¿ÉÒÔÖð²½½øÐÐµÄ¡£ÔöÁ¿Ñ§Ï°²»½ö¿ÉÒÔ¼°Ê±ÀûÓÃÐÂµÄÊý¾Ý£¬Ò²¿ÉÒÔ±ÜÃâÒòÊý¾Ý¹ý´óµ¼ÖÂMemoryErrorµÄ´íÎó¡£
¶ÔÓÚ±´Ò¶Ë¹·ÖÀàÆ÷µÄ³õ´ÎÑµÁ·£¬ÑµÁ·Êý¾ÝÊ¹ÓÃµÄÊÇÑµÁ·¼¯ÖÐ¸÷²¿·ÖÊý¾ÝÆ´½Ó¾­¹ýTFª²IDFÌØÕ÷ÌáÈ¡Æ÷ºó»ñµÃµÄÌØÕ÷ÏòÁ¿¡£ÔÚ³õ²½ÑµÁ·½áÊøºó£¬½«ÑµÁ·Êý¾ÝµÄÌØÕ÷ÏòÁ¿ÔÚÑµÁ·ºÃµÄ±´Ò¶Ë¹·ÖÀàÆ÷ÉÏ½øÐÐÔ¤²â£¬ÈôÔ¤²â½á¹ûÓëÊµ¼Ê½á¹û²»Ò»ÖÂ£¬Ôò½«¸ÃÌõÊý¾Ý¼ÓÈëµ½ÐÂµÄÑµÁ·¼¯ÖÐ£¬Ö®ºó½«ËùÓÐÑµÁ·¼¯ÖÐÔ¤²âÊ§°ÜµÄÊý¾Ý×÷ÎªÐÂµÄÑµÁ·Êý¾Ý½øÐÐÔöÁ¿ÑµÁ·£¬ÒÔÉÏ¹ý³ÌÖØ¸´¶à´Î¡£¸ÃËã·¨µÄË¼ÏëÊÇÔö¼ÓÄÑÒÔÔ¤²âµÄÑµÁ·¼¯Ñù±¾µÄÈ¨ÖØ£¬ÆäÊµÏÖµÄºËÐÄ´úÂëÈçÏÂ£º 

for item in range(0, iterNum): #µü´ú´ÎÊý

print(item, pre(tfidf, mnb, test_data, test_target)) #ÔÚÑéÖ¤¼¯ÉÏÔ¤²â

tfidf_train = tfidf.transform(train_data)

predict_target = mnb.predict(tfidf_train) #ÔÚÑµÁ·¼¯ÉÏÔ¤²â

for i in range(0, l, 100000): #ÔöÁ¿ÑµÁ·

data = tfidf_train£Ûi:min(i + 100000, l)£Ý

label = train_target£Ûi:min(i + 100000, l)£Ý

predict = predict_target£Ûi:min(i + 100000, l)£Ý

num = 0

weight = £Û£Ý

for a, b in zip(predict, label):

if a != b: #ÈôÔ¤²â´íÎóÔò½«Æä¼ÓÈëµ½ÑµÁ·¼¯ÖÐÖØÐÂÑµÁ·

weight.append(1)

else: #ÈôÔ¤²âÕýÈ·Ôò½«ÆäÈ¨ÖØÉèÖÃÎª0²»½øÐÐÑµÁ·

weight.append(0)

num += 1

mnb.partial_fit(data, label, sample_weight=weight, classes=classes)

print('res', pre(tfidf, mnb, test_data, test_target))


¾­¹ýÉÏÊö¹ý³ÌÖ®ºó£¬½«µü´ú´ÎÊý·Ö±ðÔÚÑµÁ·¼¯ºÍÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊ±ä»¯Ç÷ÊÆ¿ÉÊÓ»¯³öÀ´£¬½á¹ûÈçÍ¼3.3ËùÊ¾¡£


Í¼3.3µü´ú´ÎÊýÓëÑµÁ·¼¯ºÍÑéÖ¤¼¯ÉÏ×¼È·ÂÊµÄ¹ØÏµ


´ÓÍ¼3.3ÖÐÃ¿´Îµü´ú±´Ò¶Ë¹·ÖÀàÆ÷ÔÚÑµÁ·¼¯ºÍÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊ¿ÉÒÔ¿´³ö£¬ÔÚÑµÁ·¼¯ÉÏµÄ×¼È·ÂÊÔÚÃ¿ÂÖÔöÁ¿ÑµÁ·Ê±¾ùÔÚÉÏÉý£¬¶øÔÚÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊÔÚÇ°¼¸ÂÖÔöÁ¿ÑµÁ·Ê±Í¬²½ÉÏÉý£¬¶øÔÚºóÃæµÄµü´úÊ±²»ÔÙÉÏÉý£¬·´¶øÔÚµÚ8´Îµü´úºóÂÔÓÐÏÂ½µ¡£ÔÚÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊÔÚµÚÒ»´ÎÔöÁ¿ÑµÁ·Ê±´ó´óÌáÉýÖÁ½Ó½ü80%£¬ÔÚµÚ5´Îµ½µÚ6´ÎÔöÁ¿ÑµÁ·Ê±´ïµ½×î´óÖµ¡£µ«ÈçÍ¼ËùÊ¾ÏÔÈ»ÕâÖÖ·½·¨»á³öÏÖ¹ýÄâºÏµÄÇé¿ö£¬Ëæ×ÅÔöÁ¿ÑµÁ·µÄÂÖÊýÔö¼Ó£¬ÔÚÑµÁ·¼¯ÉÏµÄ×¼È·ÂÊ¸ßÓÚÔÚÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊ£¬¶øÔÚÑéÖ¤¼¯ÉÏµÄ×¼È·ÂÊÒ²»áËæÖ®ÏÂ½µ¡£
¿¼ÂÇ½«Êý¾ÝÔöÇ¿·½·¨ÓÃÓÚÔöÁ¿Ñ§Ï°µÄÃ¿´Îµü´úÖÐ£¬Ã¿´Îµü´ú¶¼¸ù¾ÝÔ­ÑµÁ·Êý¾Ý»ñÈ¡²»Í¬µÄÐÂµÄÑµÁ·Êý¾Ý£¬ÈôÄ³ÌõÊý¾ÝËùÊô·ÖÀà³öÏÖ´ÎÊý½ÏÉÙ£¬Ôò½«¸ÃÌõÊý¾ÝËæ»úÉ¾È¥²¿·Ö´ÊµÃµ½µÄÐÂÊý¾Ý¼ÓÈëµ½ÐÂµÄÑµÁ·Êý¾ÝÖÐ£¬¸Ã¹ý³Ì¿ÉÄÜËæ»ú½øÐÐ¶à´Î£» ÈôÄ³ÌõÊý¾ÝËùÊô·ÖÀà³öÏÖ´ÎÊý½Ï¶à£¬Ôò¿ÉÄÜ½«¸ÃÌõÊý¾ÝËæ»úÉ¾È¥²¿·Ö´ÊµÃµ½µÄÐÂÊý¾Ý¼ÓÈëµ½ÐÂµÄÑµÁ·Êý¾ÝÖÐ£¬Ò²¿ÉÄÜ½«ÆäÖ±½ÓÉ¾³ý£¬ÊµÏÖ´úÂëÈçÏÂ£º 

#¸ù¾ÝÔ­ÑµÁ·¼¯Éú³ÉÐÂµÄÑµÁ·¼¯£¬thrÎªÃ¿¸ö´Ê±£ÁôµÄ¸ÅÂÊ

def chuli(train_data, train_target, thr):

#Ä³Ð©Ñù±¾½ÏÉÙµÄÊý¾Ý¿ÉÄÜÉú³É¶àÌõÊý¾Ý£¬Ä³Ð©Ñù±¾½Ï¶àµÄÊý¾Ý¿ÉÄÜ²»Éú³ÉÊý¾Ý

gcy = {'F': 100, 'F0': 100, 'F1': 100, 'F2': 100, 'F3': 100, 'F4': 100,

'F5': 100, 'F6': 100, 'F7': 100, 'F8': 50}



new_train_data = £Û£Ý

new_train_target = £Û£Ý



for i in range(len(train_data)):

text = train_data£Ûi£Ý

new_text = ''

rand = random.randint(1, 100)

k = gcy£Ûtrain_target£Ûi£Ý£Ý

#ÅÐ¶ÏÊÇ·ñÉú³É»òÊÇ·ñ¶à´ÎÉú³ÉÄ³ÌõÊý¾Ý

while rand <= k:

for word in text.split():

#¶ÔÄ³¸ö´ÊÓïÓÐthrµÄ¸ÅÂÊ½«Æä±£Áô

if random.randint(1, 100) <= thr:

new_text += ' ' + word

new_train_data.append(new_text)

new_train_target.append(train_target£Ûi£Ý)

k ©\= 100

return new_train_data, new_train_target

Í¨¹ýÕâÖÖÊý¾ÝÔöÇ¿ÓëÔöÁ¿ÑµÁ·µÄÑ§Ï°·½Ê½Ê¹±´Ò¶Ë¹·ÖÀàµÄ×¼È·ÂÊÌáÉýÖÁ82%×óÓÒ£¬µü´ú´ÎÊýÓëÔÚÑµÁ·¼¯ºÍÑéÖ¤¼¯ÉÏ×¼È·ÂÊµÄ¹ØÏµÈçÍ¼3.4ËùÊ¾¡£


Í¼3.4µü´ú´ÎÊýÓëÑµÁ·¼¯ºÍÑéÖ¤¼¯ÉÏ×¼È·ÂÊµÄ¹ØÏµ


´ÓÍ¼3.4ÖÐ¿ÉÒÔ¿´³öËäÈ»Ò²´æÔÚÒ»¶¨µÄ¹ýÄâºÏ£¬µ«¹ýÄâºÏµÄÇé¿öÔ¶Ã»ÓÐÖ®Ç°ÄÇÃ´Ã÷ÏÔ¡£ÇÒ×¼È·ÂÊÔ¶¸ßÓÚ²»Ê¹ÓÃÊý¾ÝÔöÇ¿µÄ×¼È·ÂÊ¡£

3.4.2ÌØÕ÷½µÎ¬ÓëÏûÆç
Í¼Êé¹ÝÌá¹©µÄÊý×Ö×ÊÔ´Á¿¸ß´ï70¶àÍò£¬½«ÑµÁ·¼¯ÖÐ¸÷²¿·ÖÊý¾ÝÆ´½Óºó´ÊÓïµÄÖÖÀà¼´ÌØÕ÷Î¬¶È¸ß´ï40¶àÍò£¬ÐèÒª½øÐÐÌØÕ÷½µÎ¬¡£Êý¾Ý½µÎ¬¼È¿ÉÒÔÈ¥³ýÒ»Ð©Óë·ÖÀà¹ØÏµ²»´óµÄÎÞ¹ØÌØÕ÷£¬ÒÔ±ã»ñÈ¡¸üÓÐ¼ÛÖµµÄÐÅÏ¢£¬Ò²¿ÉÒÔ´ó´ó½µµÍËã·¨µÄ¸´ÔÓ¶È¡£
½«¿¨·½¼ìÑéÓÃÓÚÌØÕ÷½µÎ¬£¬¶ÔÓÚËùÓÐÊý¾ÝÊ¹ÓÃTFª²IDFÌØÕ÷ÌáÈ¡·½·¨ÌáÈ¡³öµÄÌØÕ÷£¬Ê¹ÓÃ¿¨·½¼ìÑéµÄ·½·¨¼ìÑéÃ¿¸öÌØÕ÷Óë·ÖÀàµÄÏà¹ØÐÔ£¬¸ù¾Ý¿¨·½ÖµÅÅÐòºóµÄ½á¹û±£ÁôÅÅÃû¿¿Ç°µÄ´Ê¼ÓÈëµ½´Ê±íÖÐ£¬½«´Ê±íÖÐµÄ´Ê×÷Îª±£ÁôµÄÌØÕ÷¡£¸Ã·½·¨¶Ô·ÖÀà×¼È·ÂÊÓÐÒ»¶¨³Ì¶ÈµÄÌáÉý¡£ÊµÏÖ´úÂëÈçÏÂ£º 

def train(train_data, train_target):

tfidf = TfidfVectorizer(token_pattern=r"(?u)£Üb£Üw+£Üb")

tfidf_train = tfidf.fit_transform(train_data)



#½¨Á¢ÐÂ´Ê±í

words_set = set()

dict = {}

for item in tfidf.vocabulary_:

dict_2£Ûtfidf.vocabulary_£Ûitem£Ý£Ý = item



selectKBest = SelectKBest(chi2, k=1) #Ñ¡Ôñk¸ö×î¼ÑÌØÕ÷

selectKBest.fit_transform(tfidf_train, train_target)

max_score = np.argsort(selectKBest.scores_)£Û::©\1£Ý

 #µÃµ½ÐÂ´Ê±í

 for i in range(maxNum):

 words_set.add(dict_2£Ûmax_score£Ûi£Ý£Ý)

 max_label = £Û£Ý

 for item in new_words_set:

 max_label.append(tfidf.vocabulary_£Ûitem£Ý)

 new_tfidf_train = tfidf_train£Û:, max_label£Ý

 mnb = MultinomialNB(alpha=1.0)

 l = tfidf_train.shape£Û0£Ý

 for i in range(0, l, 100000):

 data = new_tfidf_train£Ûi:min(i + 100000, l)£Ý

 label = train_target£Ûi:min(i + 100000, l)£Ý

 mnb.partial_fit(data, label, classes=classes)

 return tfidf, mnb, max_label

def pre(tfidf, mnb, test_data, test_target, max_label):

tfidf_test = tfidf.transform(test_data)

predict = mnb.predict(tfidf_test£Û:, max_label£Ý)

count = 0

for left, right in zip(predict, test_target):

 if left == right:

 count += 1

return count / len(test_target)

¶ÔÓÚ½«¿¨·½¼ìÑéÓÃÓÚÌØÕ÷½µÎ¬£¬¿¼ÂÇ½«¿¨·½¼ìÑéÓëÇ°ÎÄÖÐÌáµ½µÄÊý¾ÝÔöÇ¿·½·¨Ïà½áºÏ£¬Éè¼ÆÁËÒ»ÖÖ¸üºÃµÄËã·¨½øÒ»²½ÌáÉýÌØÕ÷µÄÖÊÁ¿¡£Ã¿´Îµü´úÊ±Ê¹ÓÃÊý¾ÝÔöÇ¿·½·¨ÀûÓÃÔ­ÑµÁ·¼¯¹¹½¨ÐÂµÄ²»Í¬µÄÑµÁ·¼¯£¬Ö®ºóÊ¹ÓÃÉÏÎÄÖÐµÄ¿¨·½¼ìÑé·½·¨¼ÆËã¿¨·½ÖµºóÅÅÐò£¬ÌáÈ¡Óë·ÖÀà¹ØÏµ½Ï´óµÄ²¿·ÖµÄÌØÕ÷²¢¼ÓÈë´Ê±íÖÐ£¬Ö®ºóÔÚÑéÖ¤¼¯ÉÏ½øÐÐÔ¤²â¡£Ã¿´Îµü´úÓÃÓÚÑµÁ·µÄÐÂµÄÑµÁ·¼¯¸÷²»ÏàÍ¬£¬Òò´ËÌáÈ¡³öµÄÅÅÃû¿¿Ç°µÄ´ÊÒ²²¢²»ÏàÍ¬£¬Ã¿´Îµü´úºóÈôÔÚÑéÖ¤¼¯ÉÏ½øÐÐÔ¤²âµÄ×¼È·ÂÊÓÐÌáÉýÔò±£Áô¸Ã´Ê±í£¬·ñÔòÉ¾È¥±¾´Îµü´úÖÐ¼ÓÈëµÄ´Ê²¢ÖØÐÂ¹¹ÔìÑµÁ·¼¯½øÐÐÑµÁ·¡£
Ëã·¨¿ªÊ¼Ê±´Ê±í×î³õÎª¿Õ¼¯£¬Ã¿´Îµü´úÊ±¸ù¾ÝÔ­ÑµÁ·¼¯traindata¹¹½¨ÐÂµÄÑµÁ·¼¯£¬²¢»ñÈ¡¿¨·½Öµ¿¿Ç°µÄ´Ê£¬Ö®ºóÓëÔ­´Ê±íºÏ²¢¡£ÈôÔÚÑéÖ¤¼¯ÉÏÊ¹ÓÃºÏ²¢ºó´Ê±í½øÐÐÔ¤²âµÄ×¼È·ÂÊÓÐÌáÉýÔò¸üÐÂ´Ê±íºÍ×¼È·ÂÊ£¬Èô×¼È·ÂÊÈô¸É´Î¾ùÎªÉÏÉýÔòÍ£Ö¹µü´ú¡£
µ±Ã¿´ÎÑ¡È¡¿¨·½ÖµÇ°36000¸ö´ÊÊ±£¬´Ê±íºÍ×¼È·ÂÊµÄ±ä»¯ÈçÍ¼3.5ËùÊ¾¡£


Í¼3.5´Ê±íºÍ×¼È·ÂÊËæµü´ú´ÎÊý±ä»¯Çé¿ö


»ñÈ¡×îÖÕ´Ê±íºó£¬¿¼ÂÇÊ¹ÓÃÑµÁ·ºÃµÄ´ÊÏòÁ¿½øÐÐÏûÆç£¬¶ÔÓÚÄ³ÌõÊý¾ÝÖÐµÄÄ³¸ö´Ê£¬ÈôÓëÆä¾àÀëÐ¡ÓÚãÐÖµµÄ´ÊÔÚ×îÖÕµÄ´Ê±íÖÐ£¬Ôò½«´Ê±íÖÐµÄ´Ê¼ÓÈëµ½¸ÃÌõÊý¾ÝÖÐ¡£
¸ÃËã·¨Ð§¹ûÊ¹×¼È·ÂÊÂÔÎ¢ÌáÉý£¬¾ßÌåµÄ·ÖÀàÐÔÄÜÖ¸±êÈç±í3.3ËùÊ¾¡£


±í3.3²»Í¬Ñù±¾ÊýµÄ×¼È·ÂÊ¡¢ÕÙ»ØÂÊ¡¢F1·ÖÖµ¶Ô±È2


Àà±ðPrecision

(¾«È·ÂÊ)Recall

(ÕÙ»ØÂÊ)F1ª²Score

(F1·ÖÖµ)Support

(Ñù±¾Êý)


F
0
0
0
14
F0
0.65
0.57
0.6
961
F1
0.69
0.82
0.75
4296
F2
0.85
0.78
0.81
8959
F3
0.84
0.89
0.86
3338
F4
0.79
0.83
0.81
3011
F5
0.92
0.93
0.92
1805
F6
0.86
0.68
0.76
123
F7
0.77
0.8
0.78
2942
F8
0.9
0.85
0.87
8233
avg/total
0.82
0.82
0.82
33682
´Ó±í3.3ÖÐ¿ÉÒÔ¿´³ö´ó²¿·ÖÀà±ðµÄÕÙ»ØÂÊ¾ùÓÐÐ¡·ùÔö³¤¡£
3.4.3È¨ÖØµ÷½Ú
ÔÚscikitª²learnÖÐµÄTfidfVectorizerÌá¹©ÁË¶àÖÖÈ¨ÖØµ÷½Ú·½·¨£¬Í¨¹ýÉèÖÃmin_dfÓëmax_df²ÎÊý¿ÉÒÔ¹ýÂËµôÔÚÑµÁ·¼¯ÖÐ³öÏÖ±ÈÀýµÍÓÚ»ò¸ßÓÚ¸ÃÖµµÄ´ÊÓï¡£ËäÈ»´Ë·½·¨ÔÚ³õÆÚºÜÓÐÐ§£¬µ«ÔÚÌØÕ÷½µÎ¬Ö®ºóÃ»ÓÐ±ØÒª¶Ô´Ë²ÎÊý½øÐÐµ÷Õû¡£
Çå»ªÍ¬·½×Ô¶¯±êÒýÏµÍ³ÓëST_index×Ô¶¯±êÒýÏµÍ³¶¼¿¼ÂÇµ½ÁË¸øÓè²»Í¬²¿·ÖµÄÊý¾Ý²»Í¬µÄÈ¨ÖØ¡£´ÓÊý¾ÝÔ¤´¦Àí¹ý³ÌÖÐÒ²¿ÉÒÔ¿´³öµ¥¶ÀÊ¹ÓÃÄ³²¿·ÖÊý¾Ý½øÐÐÑµÁ·£¬¹Ø¼ü´ÊºÍ±êÌâµÃµ½µÄ×¼È·ÂÊÔ¶¸ßÓÚÕªÒª²¿·Ö¡£×î³õ³¢ÊÔµ÷½Ú²»Í¬²¿·ÖÊý¾ÝµÄ´ÊÆµ£¬¸Ã·½·¨ËäÈ»ÓÐÒ»¶¨µÄÐ§¹ûµ«µ÷½ÚÆðÀ´·ÑÊ±·ÑÁ¦£¬ÕâÖÖ·½Ê½Ö»ÊÇ¼òµ¥µØ½«²»Í¬²¿·ÖËùÕ¼µÄÈ¨ÖØ½øÐÐµ÷Õû£¬ÐèÒªÉè¼Æ¸üÓÅµÄËã·¨¶ÔÆäÈ¨ÖØ½øÐÐµ÷ÕûÈ¡´úÕâÖÖÊÖ¶¯µ÷½ÚÈ¨ÖØµÄ·½·¨¡£
¿¼ÂÇµ½²»Í¬²¿·ÖµÄÊý¾ÝÖÐ´ÊÓïµÄ·Ö²¼²»Í¬£¬ÔÚ²»×öÌØÕ÷½µÎ¬Ö®Ç°Æ´½ÓºóÌØÕ÷Êý¸ß´ï40¶àÍò£¬ÎÄÕÂµÄ±êÌâ¡¢ÕªÒªºÍÍ¨¹ýTFª²IDFËã·¨ÌáÈ¡µÄ¹Ø¼ü´ÊÌØÕ÷Êý¸ß´ï20¶àÍò£¬µ«×÷Õß¸ø³öµÄ¹Ø¼ü´ÊÌØÕ÷Êý½öÎª4Íò×óÓÒ¡£¸÷²¿·ÖÊý¾ÝÌØÕ÷¼äÓÐ´óÁ¿²»ÖØºÏµÄµØ·½£¬²»ÄÜ¼òµ¥µØ½«ÕâÐ©´ÊÓï½øÐÐÆ´½Ó¡£
Ê¹ÓÃ²»Í¬µÄTFª²IDFÌØÕ÷ÌáÈ¡Æ÷ºÍ±´Ò¶Ë¹·ÖÀàÆ÷£¬·Ö±ð¶Ô±êÌâ¡¢ÈË¹¤ÌáÈ¡µÄ¹Ø¼ü´Ê¡¢ÕªÒª¡¢ÕýÎÄËÑË÷µÃµ½µÄ¹Ø¼ü´Ê¡¢ÕýÎÄÊ¹ÓÃTFª²IDFËã·¨ÌáÈ¡µÃµ½µÄ¹Ø¼ü´ÊÒÔ¼°ÕâÐ©´ÊÓïÆ´½ÓºóµÄ½á¹û½øÐÐÑµÁ·£¬Ö®ºó¶ÔÔÚÑéÖ¤¼¯ÉÏµÃµ½µÄÊôÓÚ²»Í¬·ÖÀàµÄ¸ÅÂÊÊ¹ÓÃ²»Í¬µÄÈ¨ÖØÏà¼Ó£¬µÃµ½×îºóµÄ½á¹û¡£
½«´ÊÓïÆ´½Ó²¿·ÖµÄ³õÊ¼È¨ÖØÉèÖÃÎª1£¬ÆäËûÈ¨ÖØÉèÖÃÎª0£¬¿ÉÒÔ±£Ö¤µÃµ½µÄ½á¹û²»»á±ÈÔ­À´µÄ½á¹û¼´¼òµ¥Æ´½ÓµÄ½á¹û²î¡£Ã¿´Îµü´úËæ»úÔö¼õÃ¿²¿·ÖµÄÈ¨ÖØ£¬ÈôµÃµ½µÄ½á¹ûºÃÓÚ×îºÃµÄ½á¹ûÔòÐÞ¸ÄÈ¨ÖØ¡£ÈôÒ»´Îµü´úÖÐµÃµ½µÄ½á¹û¾ù±È×îºÃµÄ½á¹û²î£¬Ôò¼õÐ¡Ã¿´ÎÔö¼õÈ¨ÖØµÄÖµ£¬Ö±ÖÁÊ¹¸ÃÖµÐ¡ÓÚãÐÖµ¡£È¨ÖØµ÷ÕûµÄ¿ò¼Ü´úÂëÈçÏÂ£º

def pre(tfidfs, mnbs, max_labels, test_data, test_target):

probas = £Û£Ý

#tfidfs£¬mnbs£¬max_labelsÎªÔÚ²»Í¬²¿·ÖÊý¾ÝÉÏ²»Í¬µÄÌØÕ÷ÌáÈ¡Æ÷¡¢·ÖÀàÆ÷ºÍ´Ê±í

for i in range(data_num):

proba = pre_part(tfidfs£Ûi£Ý, mnbs£Ûi£Ý, max_labels£Ûi£Ý, test_data£Ûi£Ý)

probas.append(proba)



accs = get_partly_acc(probas, test_data, test_target)

for item in accs:

print(item)

if mode == 'train':

#ÑµÁ·Ä£Ê½£¬Ê¹ÓÃÑéÖ¤¼¯»ñÈ¡w

w = get_w(probas, test_data, test_target)

print(w)

return 0

if mode == 'test':

#²âÊÔÄ£Ê½£¬Ê¹ÓÃÔÚÑéÖ¤¼¯ÉÏ»ñÈ¡µÄwÔÚ²âÊÔ¼¯ÉÏ½øÐÐ²âÊÔ

w = £Û1.25, 1.5, 0.31640625, 0.453125, 0.40625, 0.71875£Ý

return get_acc_use_w(probas, test_data, test_target, w)

ÆäÖÐ£¬º¯ÊýµÄ²ÎÊýtfidfsÊÇTfidfVectorizerµÄ¶ÔÏóÊý×é£» ²ÎÊýmnbsÊÇMultinomialNB¶ÔÏóÊý×é£» ²ÎÊýmax_labelsÊÇTFª²IDFµÄ´Ê±í(tfidf.vocabulary_)¡£pre_part·½·¨ÊÇ½«´Ê±íÔÚ·ÖÀàÆ÷ÉÏ½øÐÐÑéÖ¤£¬¶à×éÊý¾ÝµÄÑéÖ¤½á¹û´æÓÚprobas¶ÔÏóÖÐ¡£º¯Êýget_partly_accÖ÷ÒªÓÃÓÚ¼ÆËã¸÷×éÊý¾Ý(test_data)µÄ×¼È·ÂÊ¡£pre_partº¯ÊýµÄ¾ßÌåÊµÏÖ¹ý³ÌÈçÏÂ£º

def pre_part(tfidf, mnb, max_label, test_data):

tfidf_test = tfidf.transform(test_data)

#predict = mnb.predict(tfidf_test)  #ÔÚ²âÊÔ¼¯ÉÏÔ¤²â½á¹û

if max_label is not None:

proba = mnb.predict_proba(tfidf_test£Û:, max_label£Ý)

else:

proba = mnb.predict_proba(tfidf_test)

return proba

Ê¹ÓÃTFª²IDFËã·¨¿ÉÒÔ¿ìËÙÕÒµ½ÔÚÑéÖ¤¼¯×¼È·ÂÊµÄ¾Ö²¿×î´óÖµ£¬ÇÒ¿ÉÒÔ±£Ö¤½á¹û²»»á²îÓÚÊ¹ÓÃ½«ËùÓÐ²¿·Ö´ÊÓïÆ´½ÓµÃµ½µÄ½á¹û¡£
¶ÔÓÚ³õÊ¼È¨ÖØ£¬µ±Æ´½Ó²¿·ÖÈ¨ÖØÎª1£¬ÆäËû²¿·ÖÈ¨ÖØÎª0Ê±ÔÚÑéÖ¤¼¯ÉÏµÃµ½µÄ×¼È·ÂÊ¼´Îª²»Ê¹ÓÃ¸ÃÈ¨ÖØµ÷½ÚËã·¨Ê±µÃµ½µÄ×¼È·ÂÊ¡£½«¸Ã×¼È·ÂÊ¼ÇÎªÔÝÊ±µÄ×î´ó×¼È·ÂÊ£¬¶ÔÓÚÃ¿´Îµü´úµ÷ÓÃgetRandomPlace()»ñÈ¡Ò»¸ö½«6¸ö²»Í¬Î»ÖÃ´òÂÒµÄÁÐ±í£¬Èç½«Ô­Î»ÖÃ£Û0£¬1£¬2£¬3£¬4£¬5£Ý´òÂÒÎª£Û3£¬5£¬1£¬0£¬2£¬4£Ý£¬°´Õâ¸öË³Ðò¶ÔÕâ6¸öÎ»ÖÃ¶ÔÓ¦µÄÊý¾Ý½øÐÐÈ¨ÖØµ÷Õû£¬È¨ÖØÔö¼õµÄÖµÎªnum¡£ÈôÔö¼õÈ¨ÖØºó×¼È·ÂÊÌáÉýÔòµ÷ÕûÈ¨ÖØ£¬Èô¶ÔÓÚÕâ6¸öÎ»ÖÃÔö¼õÈ¨ÖØ×¼È·ÂÊ¾ùÎ´Ìá¸ßÔò½«num¼õ°ë¡£µ±numÐ¡ÓÚãÐÖµÊ±ÍË³öµü´ú¡£
µ±Ê¹ÓÃÑéÖ¤¼¯µÃµ½¶ÔÓ¦²»Í¬²¿·ÖÊý¾Ý²»Í¬µÄÈ¨ÖØºó£¬½«¸ÃÈ¨ÖØÓ¦ÓÃÔÚ²âÊÔ¼¯ÉÏ£¬´ó´óÌáÉýÁËÔÚ²âÊÔ¼¯ÉÏµÄ×¼È·ÂÊ£¬¾ßÌåµÄ·ÖÀàÖ¸±êÈç±í3.4ËùÊ¾¡£



±í3.4È¨ÖØµ÷½ÚÖ®ºó¸÷ÏîÖ¸±ê¶Ô±È½á¹û


Àà±ðPrecision

(¾«È·ÂÊ)Recall

(ÕÙ»ØÂÊ)F1ª²Score

(F1·ÖÖµ)Support

(Ñù±¾Êý)


F
0
0
0
14
F0
0.83
0.54
0.65
961
F1
0.77
0.84
0.8
4296
F2
0.83
0.87
0.85
8959
F3
0.89
0.88
0.89
3338
F4
0.89
0.82
0.85
3011
F5
0.95
0.92
0.93
1805
F6
0.95
0.58
0.72
123
F7
0.84
0.83
0.84
2942
F8
0.91
0.91
0.91
8233
avg/total
0.86
0.86
0.86
33682
´Ó±í3.4ÖÐ¿ÉÒÔ¿´µ½£¬¾­¹ýÈ¨ÖØµ÷½Ú£¬Ä£ÐÍ¶Ô¶þ¼¶·ÖÀàµÄÆ½¾ù¾«È·ÂÊ¡¢ÕÙ»ØÂÊºÍF1·ÖÖµ¾ùÓÐÌáÉý£¬´ïµ½86%¡£

3.5±´Ò¶Ë¹·ÖÀàÐÔÄÜÆÀ¹À
Ê¹ÓÃÑµÁ·¼¯½øÐÐÑµÁ·ºóÔÚ²âÊÔ¼¯ÉÏÔ¤²â×¼È·ÂÊÌáÉýÖÁ86%¡£×ÛºÏÒÔÉÏ½á¹û£¬¸Ã»ùÓÚÆÓËØ±´Ò¶Ë¹µÄÖÇÄÜ±êÒýÏµÍ³Á÷³ÌÈçÏÂ£º Ô¤´¦ÀíÊ±¸ù¾ÝÑµÁ·¼¯ÖÐµÄÊý¾ÝÊ¹ÓÃÊý¾ÝÔöÇ¿·½·¨Éú³ÉÐÂµÄÊý¾Ý£¬Ê¹ÓÃÌØÕ÷½µÎ¬Ëã·¨»ñÈ¡ÐÂµÄ´Ê±í£¬Ã¿ÂÖÔöÁ¿ÑµÁ·Ê±¶¼½«Ô¤²âÊ§°ÜµÄÊý¾ÝÔöÇ¿ºóÖØÐÂÑµÁ·£¬×îÖÕ¶Ô²»Í¬²¿·ÖµÄÊý¾ÝÊ¹ÓÃÈ¨ÖØµ÷½ÚËã·¨¶ÔÔ¤²âµÄ¸ÅÂÊ½øÐÐµ÷½Ú¡£
¶ÔÓÚÐ¡Ñù±¾µÄ·ÖÀàÎÊÌâ£¬ËäÈ»Ê¹ÓÃÁËÊý¾ÝÔöÇ¿·½·¨µ«Ð§¹ûÓÐÏÞ£¬ÔÚF´óÀàÉÏµÄ¾«È·ÂÊºÍÕÙ»ØÂÊÈÔÎª0£¬¿ÉÄÜÐèÒªÔÚÄ£ÐÍÖ®Ç°»òÖ®ºóÈËÎªµØÔö¼ÓÒ»Ð©¹æÔò£¬´Ó¶øÂú×ãÐ¡Ñù±¾µÄ¹Ø¼üÌØÕ÷£¬ÕâÑù±ã¿ÉÒÔ×î´óÏÞ¶ÈµØ¼õÐ¡Ð¡Ñù±¾µÄ´íÎó¸ÅÂÊ¡£ÈôÏë½øÒ»²½ÌáÉý×¼È·ÂÊÐèÒª½áºÏÉî¶ÈÑ§Ï°µÈ·½·¨£¬ÕâÒ²ÊÇÄ¿Ç°ÎÄ±¾·ÖÀàµÄÖ÷ÒªÑÐ¾¿·½Ïò¡£
3.6»ùÓÚBERTËã·¨µÄÎÄÏ×±êÒý
½üÄêÀ´Éî¶ÈÑ§Ï°·½·¨ÔÚ×ÔÈ»ÓïÑÔ´¦Àí·½ÃæµÄÑÐ¾¿ºÍÓ¦ÓÃÈ¡µÃÁËÏÔÖøµÄ³É¹û¡£2013ÄêWord2VecµÄ³öÏÖ°ÑÎÄ±¾Êý¾Ý´Ó¸ßÎ¬¶È¡¢¸ßÏ¡Êè±ä³ÉÁËÁ¬Ðø³íÃÜµÄÊý¾Ý¡£»ùÓÚCNNºÍRNNµÄ·ÖÀà·½·¨ÔÚ·ÖÀàÈÎÎñÖÐÐ§¹ûÏÔÖø¡£Attention»úÖÆÖ±¹ÛµØ¸ø³öÃ¿¸ö´Ê¶Ô½á¹ûµÄ¹±Ï×¡£¹È¸èAIÍÅ¶Ó·¢²¼µÄBERTÄ£ÐÍÔÚ11ÖÖ²»Í¬µÄ×ÔÈ»ÓïÑÔ´¦ÀíÈÎÎñÖÐ´´³ö¼Ñ¼¨£¬Îª×ÔÈ»ÓïÑÔ´¦Àí´øÀ´Àï³Ì±®Ê½µÄ¸Ä±ä£¬Ò²ÊÇ×ÔÈ»ÓïÑÔ´¦ÀíÁìÓò½üÆÚÖØÒªµÄ½øÕ¹¡£
BERTÊÇÒ»ÖÖ¶ÔÓïÑÔ±íÕ÷½øÐÐÔ¤ÑµÁ·µÄ·½·¨£¬¼´¾­¹ý´óÐÍÎÄ±¾ÓïÁÏ¿â(ÈçÎ¬»ù°Ù¿Æ)ÑµÁ·ºó»ñµÃµÄÍ¨ÓÃ¡°ÓïÑÔÀí½â¡±Ä£ÐÍ£¬¸ÃÄ£ÐÍ¿ÉÓÃÓÚ×ÔÈ»ÓïÑÔ´¦ÀíÏÂÓÎÈÎÎñ(Èç×Ô¶¯ÎÊ´ð)¡£BERTÖ®ËùÒÔ±íÏÖµÃ±È¹ýÍùµÄ·½·¨ÒªºÃ£¬ÊÇÒòÎªËüÊÇÊ×¸öÓÃÓÚ×ÔÈ»ÓïÑÔ´¦ÀíÔ¤ÑµÁ·µÄÎÞ¼à¶½¡¢Éî¶ÈË«ÏòÏµÍ³¡£BERTµÄÓÅÊÆÊÇÄÜ¹»ÇáËÉÊÊÓÃ¶àÖÖÀàÐÍµÄ×ÔÈ»ÓïÑÔ´¦ÀíÈÎÎñ¡£
3.6.1Êý¾ÝÔ¤´¦Àí
Í¼Êé¹Ý¸ø³öÁËÒ»¸ö¡°ÖÐÍ¼·¨F´óÀàµÚÎå°æÓëµÚËÄ°æÉ¾¸ÄÀàÄ¿¶ÔÕÕ±í¡±£¬´Ë±íÖÐ´æÔÚ2¸ösheet£¬·Ö±ðÎª¡°ÐèÉ¾³ý·ÖÀàºÅÊý¾Ý¡±ÒÔ¼°¡°ËÄÎå°æ¶Ô±È¡±£¬ÆäÊ¾ÀýÈçÍ¼3.6ËùÊ¾¡£


Í¼3.6¡°ËÄÎå°æ¶Ô±È¡±µÄÊ¾Àý


¡°ÐèÉ¾³ý·ÖÀàºÅÊý¾Ý¡±ÖÐÖ÷ÒªÊÇ·ÖÀàºÅµÄÁÐ±í£¬ÈçÍ¼ÖÐÓÒ²àÏÔÊ¾µÄÑùÊ½£¬½«±íÖÐ·ÖÀàºÅ¶ÔÓ¦µÄÊý¾ÝÈ«²¿É¾³ý(´Ë²¿·ÖÊý¾Ý·ÖÀàºÅ´íÎó)£¬ÔÙ¸ù¾Ý¡°ËÄÎå°æ¶Ô±È¡±±íÖÐµÄ´¦Àí·½Ê½£¬¶ÔÊ£ÓàÊý¾Ý½øÐÐ´¦Àí¡£È»ºó¶ÁÈ¡¡°ËÄÎå°æ¶Ô±È¡±±í£¬¸ù¾Ý¸ø¶¨¹æÔò´¦ÀíÊ£Óà±êÇ©£¬Ö÷ÒªÓÐÒÔÏÂ¼¸ÖÖ¹æÔòÀ´´¦Àí±êÇ©¡£
¤r rule1£º Îå°æÍ£ÓÃ£¬µ«»¹ÊÇÊôÓÚF¾­¼Ã´óÀà£¬¹ÊÖ±½ÓÐÞ¸ÄÎªÎå°æ¶ÔÓ¦µÄ·ÖÀàºÅ¡£
¤r rule2£º Îå°æÍ£ÓÃ£¬µ«²»ÊôÓÚF¾­¼ÃÀà£¬Ö±½ÓÉ¾³ý´ËÀàÊý¾Ý¡£
¤r rule3£º ½«´ËÀà·ÖÀàºÅÏÂµÄÄ³Ð©°üº¬ÌØ¶¨Ö÷Ìâ´ÊµÄÑù±¾¸ÄÎªÆäËû·ÖÀàºÅ¡£
¤r rule4£º ½«´ËÀà·ÖÀàºÅÏÂµÄÄ³Ð©°üº¬ÌØ¶¨Ö÷Ìâ´ÊµÄÑù±¾É¾³ý¡£
¤r rule5£º É¾³ýÌØ¶¨Äê·ÝÖ®Ç°µÄ·ÖÀàºÅÊý¾Ý¡£
Ê×ÏÈ¹¹½¨Õâ5ÏîÐÞ¸Ä¹æÔòµÄ×Öµä£¬¶ÔÓÚrule1À´Ëµ£¬Ö»ÐèÆ¥Åä´¦Àí·½Ê½ÖÐÎª¡°¸ÄºÅ¡±µÄ¼ÇÂ¼£¬½«ÐÞ¸ÄºóµÄ·ÖÀàºÅÌí¼Óµ½rule1µÄ×Öµä£» ¶ÔÓÚrule2£¬Æ¥Åä´¦Àí·½Ê½ÖÐµÄ¡°É¾³ý¡±ÒÔ¼°¡°È«²¿Êý¾Ý¡±Á½¸ö×Ö·û´®¼´¿ÉÕÒµ½ÒªÉ¾³ýµÄ·ÖÀàºÅ£» ¶ÔÓÚrule3£¬ÉÔÎ¢¸´ÔÓÒ»Ð©£¬ÓÉÓÚ´¦Àí·½Ê½Ò»À¸µÄÓïÑÔ×é³É²»±ê×¼£¬ÕâÀïÔö¼ÓÁË¶ÔÓÚ¹Ø¼ü´ÊµÄÅÐ¶Ï£¬Æ¥ÅäÁË¡°Ö÷Ìâ¡±(¿Ï¶¨´æÔÚ)ÒÔ¼°¡°¸ÄÎª¡±»ò¡°Èë¡±(Á½Õß´æÔÚÆäÒ»¼´¿É)£» ¶ÔÓÚrule4£¬Æ¥Åä¡°É¾³ý¡±Óë¡°Ö÷Ìâ¡±£¬²¢Ê¹ÓÃÕýÔò±í´ïÊ½£¬½«°üº¬µÄÖ÷Ìâ´Ê½âÎö³öÀ´ÓÃÓÚÉ¾³ýÅÐ¶Ï£» ¶ÔÓÚrule5£¬Æ¥Åä¡°Äê·Ý¡±ÒÔ¼°¡°É¾³ý¡±¼´¿É¡£ÊµÏÖ¹ý³Ì´úÂëÈçÏÂ£º 

import sys

import xlrd

import pandas as pd

ExcelFile=xlrd.open_workbook('4version_2_5version.xlsx')

sheet_name = ExcelFile.sheet_names()

compare = ExcelFile.sheet_by_name(sheet_name£Û0£Ý)

delete = ExcelFile.sheet_by_name(sheet_name£Û1£Ý)

delete_cols = delete.col_values(0)

label_needDel = £Û£Ý

for item in delete_cols:

label_needDel.append(item)

label_needDel.remove('ÐèÉ¾³ý·ÖÀàºÅ')

print("read file¡­")

df = pd.read_csv('F08-18.csv', encoding='utf8')

print("read finish!")

ÆäÖÐ£¬ÏÈ¶ÁÈ¡Á½¸ösheet£¬½«ÐèÒª±È½ÏµÄËÄ¡¢Îå°æ·ÖÀàºÅ¶Áµ½compareÁÐ±íÖÐ£¬²¢½«ÐèÒªÉ¾³ýµÄ·ÖÀàºÅ¶Áµ½delete_colsÖÐ¡£È»ºóÒÀ´ÎÌáÈ¡1¡«5Ïî¹æÔò²¢Ö´ÐÐ£¬ÊµÏÖµÄºËÐÄ´úÂëÈçÏÂ£º 

rule1 = {}

rule2 = {}

rule3 = {}

rule4 = {}

rule5 = {}

pattern_rule4 = re.compile(r'.*?£Û""£Ý+(.+?)£Û""£Ý+')

print("create rules¡­")

for i,item in enumerate(rules):

if item == "¸ÄºÅ":

rule1£Ûoriginal_label£Ûi£Ý.strip()£Ý = final_label£Ûi£Ý

elif 'É¾³ý' in item and 'Äê·Ý' in item and '2015' in item:

rule5£Ûoriginal_label£Ûi£Ý.strip()£Ý = 'delete'

elif 'É¾³ý' in item and 'È«²¿Êý¾Ý' in item :

rule2£Ûoriginal_label£Ûi£Ý.strip()£Ý = 'delete'

elif 'É¾³ý' in item and 'Ö÷Ìâ' in item:

theme = pattern_rule4.findall(item)

th = ""

for j in range(1,len(theme)-1):

th = th + theme£Ûj£Ý + "/"

th = th + theme£Û-1£Ý

rule4£Ûoriginal_label£Ûi£Ý.strip()£Ý = th

elif  'Ö÷Ìâ' in item and ('¸ÄÎª' in item or 'Èë' in item):

theme = pattern_rule4.findall(item)

th = ""

for j in range(0,len(theme)-1):

th = th + theme£Ûj£Ý + "/"

th = th + theme£Û-1£Ý

rule3£Ûoriginal_label£Ûi£Ý.strip()£Ý = th

´Ó´úÂëÖÐÄÜ¿´µ½£¬Ö÷ÒªÊÇÍ¨¹ýÅÐ¶Ï¹æÔòµÄ¹Ø¼ü´Ê£¬ÀýÈç£¬³öÏÖ¡°¸ÄºÅ¡±±ê¼ÇÊ±£¬Ôò½«Òª¸ÄµÄÔ­Àà±ðºÅºÍÄ¿±êÀà±ðºÅ¼ÇÂ¼µ½ruleÁÐ±íÖÐ£¬ÐèÒªÉ¾³ýµÄÀà±ðºÅÔò¼ÇÂ¼µ½rule2ÖÐ£¬ÒÔ´ËÀàÍÆ¡£¾­¹ý´¦ÀíÖ®ºóµÄ½á¹ûÈçÏÂ£¬ÆäÖÐ¶ÔÓÚrule1µÃµ½µÄ·ÖÀàºÅÎª£º 

{'F031.1': 'F031', 'F035.1': 'F035', 'F035.3': 'F036.1', 'F037.1': 'F037', 'F037.3': 'F037', 'F041.1': 'F041',
 'F041.2': 'F041', 'F041.8': 'F041', 'F045.1': 

'F045', 'F046.2': 'F046', 'F046.3': 'F046', 'F047.2': 'F047.1', 'F048.1': 'F048', 

'F114.42': 'F114.4', 'F114.45': 'F114.4', 'F1 23.11': 'F123.1', 'F123.13': 

'F123.1', 'F213.1': 'F213', 'F213.2': 'F213', 'F213.3': 'F213', 'F213.4':¡­}

¶ÔÓÚrule2µÃµ½µÄ·ÖÀàºÅÎª£º 

{'F035.2': 'delete', 'F036.5': 'delete', 'F047.5': 'delete', 'F048.2': 'd elete', 'F213.5': 'delete', 'F249.15': 'delete', ¡­}

¶ÔÓÚrule3µÃµ½µÄ½á¹ûÎª£º 

{'F031.1': 'F243.3/ÀÍ¶¯¶¨¶î/F243.1', 'F035.2': 'F243.5/ÀÍ¶¯¼ÍÂÉ/¼ÍÂÉ/Éú²úÔðÈÎÖÆ/F243.1', 'F124.7': 'F062.9/²úÒµ¾­¼ÃÑ§/²úÒµ¾­¼Ã/²úÒµ¶¨Î»/²úÒµ·¢Õ¹/²úÒµ¹æÄ£/²úÒµ»¯/ ²úÒµ»¯¾­Óª/²úÒµ¾­¼ÃÑ§/²úÒµÉç»áÑ§/²úÒµ×éÖ¯/²úÒµ×éÖ¯ÀíÂÛ/F260/F260/²úÒµ¾­¼Ã/Õþ¸®¹ÜÖÆ/¹æÖÆ¾­¼ÃÑ§/F262/F260/²úÒµ¼¯Èº/²úÒµ´ø/²úÒµÁ´/²úÒµÊÐ³¡/²úÒµÒ»Ìå»¯/F263', 'F046.2': 'F270/ÆóÒµ¹ÜÀí/¹ÜÀíÀíÂÛ/ÆóÒµ¾­Óª¹ÜÀí/ÆóÒµÐÐÎª/ÆóÒµÐÐÎªÑ§/F270-0/F270/ÆóÒµÎÄ»¯/ÆóÒµÐÎÏó/ÆóÒµ¾«Éñ/ÆóÒµÔðÈÎ/ÆóÒµÐÅÓÃ/F272-05', 'F014.6': 'F279.15/¡­}

¶ÔÓÚrule4µÃµ½µÄ½á¹ûÎª£º 

{'F302.5': 'Å©ÒµÊý¾Ý', 'F743.1': '¹ú¼ÊÃ³Ò××éÖ¯'}

¶ÔÓÚrule5µÃµ½µÄ½á¹ûÎª£º 

{'F014.6': 'delete', 'F293': 'delete', 'F293.33': 'delete'}

ÖÁ´Ë£¬ËùÓÐ¹æÔò´´½¨³É¹¦£¬½ÓÏÂÀ´±ãÊÇ±éÀúÔ­Ê¼Êý¾ÝÎÄ¼þ£¬¸ù¾ÝÉÏÃæµÄÎå¸ö¹æÔò¸ü¸Ä±êÇ©£¬×îÖÕ½«µÚËÄ°æ·ÖÀà¹æÔòÈ«²¿Í³Ò»ÎªµÚÎå°æ¹æÔòÌåÏµÏÂ£¬½«Êý¾Ý±£´æÎªF08ª²1.tsv¡£

3.6.2¹¹½¨ÑµÁ·¼¯
ÔÚBERTÄ£ÐÍÑµÁ·Ê±£¬ÐèÒª°´ÆäÒªÇó¶ÔÊý¾Ý¸ñÊ½½øÐÐ×ª»¯£¬²¢ÇÒ¹¹½¨ÑµÁ·¼¯ºÍ²âÊÔ¼¯£¬Ê×ÏÈ¶ÁÈ¡3.6.1½ÚÖÐÔ¤´¦ÀíÍê³ÉµÄcsvµ½DataFrameÖÐ¡£

df = pd.read_csv("./F08-1.tsv", header=0,£Ü

usecols=£Û'attribute_string_1', 'attribute_string_5', 'attribute_string_6',£Ü

'attribute_string_13','attribute_text_1','attribute_string_14'£Ý,sep='£Üt')

¶Ô¶Áµ½µÄDataFrameÌáÈ¡Ç°5Ìõ½øÐÐ²é¿´£¬½á¹ûÈçÍ¼3.7ËùÊ¾¡£


Í¼3.7ÑµÁ·Êý¾ÝÊ¾Àý


¿ÉÒÔ¿´µ½±êÌâ¡¢³ö°æÉç¡¢¹Ø¼ü´ÊµÈ×Ö¶ÎÃûÎªÔ­Ê¼¿âÖÐ´øµÄÁÐÃû£¬ÎªÁË·½±ã±æÊ¶£¬½«Æä×ª»¯ÎªÒ×ÓÚÔÄ¶ÁµÄÊôÐÔÃû³Æ£¬ÊµÏÖ·½·¨ÈçÏÂ£º 

df.columns=£Û'title','publisher','pubcode','keywords','category','abstract'£Ý

ÆäÖÐ£¬categoryÊÇÎÄÏ×µÄÀàÄ¿±àºÅ£¬¼´Î´À´ÐèÒª½øÐÐÔ¤²âµÄ±êÇ©ÁÐ£¬¶ÔÊý¾Ý½øÐÐ¼òµ¥·ÖÎö£¬²é¿´ÆäÀà±ðÊýÁ¿ºÍÇ°10ÀàÄ¿¡£

print('£Ünnumber of different class: ', len(list(set(df.category))))

print(list(set(df.category))£Û:10£Ý)

ÔËÐÐÖ®ºóµÃµ½½á¹ûÈçÏÂ£º 

number of different class:  4170

£Û'F726.722', 'F552.9', 'F812.934', 'F550.7', nan, 'F811.2', 'F535.51', 'F269.338', 'F272.91',
 'F147.6'£Ý

¿ÉÒÔ¿´µ½ÆäÖÐF´óÀàÏÂ×ÜµÄÀàÄ¿ÊýÁ¿Îª4170ÖÖ£¬Ê¹ÓÃset·½·¨»ñÈ¡Î¨Ò»µÄÀàÄ¿±àºÅ£¬·¢ÏÖÆäÖÐÓÐ¿ÕÖµµÄ±àºÅ£¬ÐèÒª½«Æä¹ýÂË¡£µ±Ç°ÈÎÎñµÄÄ¿±êÊÇ¶Ô4¼¶ÀàÄ¿½øÐÐ·ÖÀà£¬ËùÒÔ»¹Òª¶ÔÀàÄ¿(category)½øÐÐ³¤¶È½ØÈ¡£¬»ñµÃ3¼¶±êÇ©ºÍ4¼¶±êÇ©£¬²¢½«Æä·Ö±ðÃüÃûÎªlevel3ºÍlevel4£¬ÊµÏÖ´úÂëÈçÏÂ£º 

df = df£Ûdf.category.notnull()£Ý

df£Û'level3'£Ý = df.category.str£Û:3£Ý

df£Û'level4'£Ý = df.category.str£Û:4£Ý

È»ºó£¬¶Ô±êÌâ¡¢¹Ø¼ü´ÊºÍÕªÒªÄÚÈÝ½øÐÐºÏ²¢×÷ÎªÊäÈë£¬²¢Ê¹ÓÃthulac(pip3 install thulac)¶ÔÆä½øÐÐ·Ö´Ê£¬ÊµÏÖ´úÂëÈçÏÂ£º 

import thulac

thu1 = thulac.thulac(seg_only=True)  

df£Û'content'£Ý = df£Û'title'£Ý+df£Û'publisher'£Ý+df£Û'keywords'£Ý+df£Û'abstract'£Ý

for index, row in df_columns_all.iterrows():

try:

seg_list = thu1.cut( row£Û'content'£Ý)

seg_list1 = £Ûw£Û0£Ý for w in seg_list if w£Û0£Ý.strip() not in stopwords£Ý

df_columns_all.at£Ûindex,'content1'£Ý = " ".join(seg_list1)

if row£Û'level4'£Ý£Û-1£Ý=='-':

df_columns_all.at£Ûindex,'level4'£Ý = row£Û'level4'£Ý£Û:-1£Ý

if index %1000 == 0:print(str(index))

except:

print(row£Û'content'£Ý,row£Û'level4'£Ý)

print(index)

break

ÓÉÓÚÊÇÇ¿ÖÆ½Ø¶ÏÀàÄ¿±àºÅ£¬¶ø±àºÅÖÐ»áÓÐF53-32ÕâÖÖ´ø¡°-¡±×Ö·ûµÄÇé¿ö£¬»áÊ¹level4ÖÐÄ©Î²×Ö·û¿ÉÄÜ´æÔÚ¡°-¡±£¬ÐèÒª½«ÆäÈ¥µô£¬ÁíÍâ£¬Êý¾ÝÁ¿½Ï´ó£¬Ã¿´¦Àí1000ÌõÔòÊä³ö´¦ÀíµÄ½ø¶È£¬×îºóµÃµ½µÄÑµÁ·¼¯Ê¾ÀýÈçÍ¼3.8ËùÊ¾¡£



Í¼3.8·Ö´ÊÖ®ºóµÄÑµÁ·Ñù±¾Ê¾Àý


ÏÂÒ»²½»®·ÖÑµÁ·¼¯¡¢ÑéÖ¤¼¯ºÍ²âÊÔ¼¯£¬ÊµÏÖ·½·¨ÈçÏÂ£º 

df_columns_all = df

msk = np.random.rand(len(df_columns_all)) < 0.9

train = df_columns_all£Ûmsk£Ý

dev_test = df_columns_all£Û¡«msk£Ý

msk = np.random.rand(len(dev_test)) < 0.5

dev = dev_test£Ûmsk£Ý

test = dev_test£Û¡«msk£Ý

train.to_csv ('train.tsv', sep='£Üt', index = None, header=None)

dev.to_csv ('dev.tsv', sep='£Üt',index = None, header=None)

test.to_csv ('test.tsv', sep='£Üt',index = None, header=None)

ÆäÖÐ£¬ÓÉÓÚ×ÜÊý¾Ý¼¯µÄÑù±¾Á¿½Ï´ó£¬ËùÒÔ×îºóÑµÁ·¼¯Õ¼×ÜÑù±¾Á¿µÄ90%£¬¶øÑéÖ¤¼¯Õ¼±ÈÎª5%£¬²âÊÔ¼¯Õ¼±ÈÎª5%£¬·Ö±ð½«Æä±£´æÎªtrain.tsv¡¢dev.tsvºÍtest.tsvÈý¸öÎÄ±¾ÎÄ¼þ£¬¹©ºóÐøBERTÄ£ÐÍµÄÑµÁ·ºÍ²âÊÔ¡£

3.6.3Ä£ÐÍÊµÏÖ
BERTÄ£ÐÍ²ÉÓÃGoogle¿ªÔ´ÏîÄ¿£¬ÏÂÔØµØÖ·Îªhttps£º //github.com/googleª²research/bert£¬Ö»ÐèÒªÔÚrun_classifier.pyÖÐ½¨Á¢×Ô¶¨ÒåµÄÑù±¾´¦ÀíÀà(DataProcessor)¼´¿ÉÊµÏÖ¶ÔÎÄ±¾µÄ·ÖÀà£¬ÆäÊµÏÖ´úÂëÈçÏÂ£º 

class SHLibProcessor(DataProcessor):



def_init_(self):

lable_file_path = os.path.join(FLAGS.data_dir, "level4_labels.txt")

self.static_label_list = self.load_labels(lable_file_path)



def get_train_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir, "train.tsv")), "train")



def get_dev_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir, "dev.tsv")), "dev")



def get_test_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir, "test.tsv")), "test")



def get_labels(self):

"""example  £Û'F575', 'F759', 'F495','F140', 'F460', 'F410', 'F765', 'F615'£Ý"""

return self.static_label_list



def _create_examples(self, lines, set_type):

examples = £Û£Ý

for (i, line) in enumerate(lines):

guid = "%s-%s" % (set_type, i)

if set_type == "test":

text_a = tokenization.convert_to_unicode(line£Û0£Ý)

label = tokenization.convert_to_unicode(line£Û2£Ý)

else:

text_a = tokenization.convert_to_unicode(line£Û0£Ý)

label = tokenization.convert_to_unicode(line£Û2£Ý)

examples.append(InputExample(guid=guid, text_a=text_a, text_b=None, label=label))

return examples



def load_labels(self, label_file_path):

with open(label_file_path,'r') as label_file:

static_label_list = list(set(label_file.read().splitlines()))

return static_label_list

ÆäÖÐ£¬get_train_examples¡¢get_dev_examples¡¢get_test_examplesÈý¸ö·½·¨ÖÐÖ»ÐèÒªÖ¸¶¨ÉÏÒ»²½ÖèÖÐµÄÑµÁ·¼¯¡¢ÑéÖ¤¼¯ºÍ²âÊÔ¼¯ÎÄ¼þÃû¼´¿É¡£get_labels·½·¨ÖÐÐèÒª·µ»ØËùÓÐÑù±¾µÄ±êÇ©ÖµÁÐ±í£¬±àÐ´·½·¨load_labelsÊµÏÖ±êÇ©ÁÐ±íµÄ¼ÓÔØ£¬static_label_listÖÐ´æ´¢µÄ±êÇ©¸ñÊ½Îª£Û'F575'£¬'F759'£¬'F495'£¬'F140'£¬'F460'£¬'F410'£¬'F765'£¬'F615'£Ý¡£
ÔÚ_create_examples·½·¨ÖÐ£¬ÓÉÓÚÊäÈë¸ñÊ½ºÍÖ®Ç°ÓÐÉÙÐí²»Í¬£¬ÐèÒª¸ü¸ÄÑµÁ·¼¯ºÍ²âÊÔ¼¯ÎÄ¼þÖÐ¶ÔÓ¦µÄÊäÈëºÍ±êÇ©ÁÐÁÐºÅ£¬ÕâÓëtrain.tsv¸÷ÁÐµÄÅÅÁÐÓÐ¹Ø¡£ÓÉÓÚÔÚÉú³ÉÑµÁ·¼¯Ê±£¬µÚ1ÁÐÎª·Ö´ÊºóµÄÎÄ±¾ÄÚÈÝ£¬µÚ2ÁÐÎª3¼¶ÀàÄ¿£¬µÚ3ÁÐÎª4¼¶ÀàÄ¿£¬ËùÒÔtext_aÖ¸¶¨Îªline£Û0£Ý£¬¶ølabelÖ¸¶¨Îªline£Û2£Ý¡£
ÓÉÓÚÕâÀïÊÇ·ÖÀàÈÎÎñ£¬¶ø²»ÊÇÑµÁ·´ÊÏòÁ¿£¬ËùÒÔ²»ÐèÒªÖ¸¶¨text_bµÄÖµ£¬¼´½«Æä¸³ÖµÎªNone£¬ÎªÁËÔÚÑµÁ·¹ý³ÌÖÐÊ¹ÓÃÇ°Ãæ¶¨ÒåµÄÑù±¾¼¯´¦ÀíÀà£¬ÐèÒªÔÚmain·½·¨ÖÐÔö¼Ó´¦ÀíÀàµÄkeyÖµ£¬ÎÒÃÇÃüÃûÎª¡°shlib¡±£¬´úÂëÈçÏÂ£º 

processors = {

"cola": ColaProcessor,

"mnli": MnliProcessor,

"mrpc": MrpcProcessor,

"xnli": XnliProcessor,

"shlib":SHLibProcessor

}

×îºó£¬ÔÚrun_classifier.pyµÄÆðÊ¼ÉèÖÃºÃ²ÎÊý£¬»òÕßÔÚÃüÁîÐÐÖ¸¶¨£¬¾ßÌå²ÎÊýÈçÏÂ£º 

export BERT_BASE_DIR=/root/chinese_L-12_H-768_A-12

export GLUE_DIR=/root/Lib



nohup python36 -u run_classifier.py £Ü

--task_name=shlib£Ü

--do_train=true £Ü

--do_eval=true £Ü

--data_dir=$GLUE_DIR/data £Ü

--vocab_file=$BERT_BASE_DIR/vocab.txt £Ü

--bert_config_file=$BERT_BASE_DIR/bert_config.json £Ü

--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt £Ü

--max_seq_length=128 £Ü

--train_batch_size=32 £Ü

--learning_rate=2e-5 £Ü

--num_train_epochs=10 £Ü

--output_dir=$GLUE_DIR/output >log &

ÆäÖÐ£¬BERT_BASE_DIRÎªÖÐÎÄÔ¤ÏÈÑµÁ·µÄBERT×ÖÏòÁ¿Ä£ÐÍ£¬task_nameÊÇ¹¹½¨ÑµÁ·¼¯ºÍ±êÇ©µÄ·½·¨£¬max_seq_lengthÊÇÄ£ÐÍÊäÈëµÄÎÄ±¾³¤¶È£¬num_train_epochsÖ¸¶¨µü´úµÄ»ØºÏÊýÎª10´Î£¬³ý´ËÖ®Íâ»¹¿ÉÒÔÖ¸¶¨Ã¿¸ô¶àÉÙ²½±£´æÄ£ÐÍ(save_checkpoints_steps)£¬Ä¿Ç°ÉèÎª1000²½£¬Ä¬ÈÏÇé¿öÏÂ³ÌÐò»á±£´æ×î½ü5¸öcheckpointsµÄÄ£ÐÍ¡£ÑµÁ·¹ý³Ì´æÈëlogÎÄ¼þÖÐ¡£
ÔËÐÐºó±ã¿É½øÈëÑµÁ·¹ý³Ì£¬Ê×ÏÈÊä³öÑµÁ·¼¯Ê¾Àý£¬½á¹ûÈçÍ¼3.9ËùÊ¾¡£


Í¼3.9ÑµÁ·¹ý³ÌÖÐµÄÑù±¾Ê¾Àý


´ÓÖÐ¿ÉÒÔ¿´µ½£¬×ÜµÄÑµÁ·Ñù±¾Îª24Íò+£¬»ùÓÚÒÑ¾­Ô¤ÑµÁ·ºÃµÄÖÐÎÄBERTÄ£ÐÍ£¬»á½«ÖÐÎÄµÄÃ¿¸ö×ÖÓ³ÉäÎªÊýÖµ£¬²¢½âÎö³ö±êÇ©¡£
½ÓÏÂÀ´»á½øÈëBERTÄ£ÐÍµÄÑµÁ·¹ý³Ì£¬²¢²»¶ÏÊä³öÄ£ÐÍµÄÑµÁ·ÐÔÄÜÖ¸±êÊý¾Ý£¬ÆäÊä³ö½á¹ûÈçÍ¼3.10ËùÊ¾¡£


Í¼3.10Ä£ÐÍÑµÁ·¹ý³Ì


´ÓÖÐ¿ÉÒÔ¿´µ½Æ½¾ùÃ¿Ãë´¦ÀíÑù±¾ÊýÎª53Ìõ£¬Ã¿¸ô1000²½½«½á¹û½øÐÐ±£´æ£¬ÔÚÑµÁ·½áÊøºóÊ¹ÓÃ²âÊÔ¼¯½øÐÐÑéÖ¤£¬µÃµ½½á¹ûÈçÍ¼3.11ËùÊ¾¡£


Í¼3.11Ä£ÐÍÑµÁ·ºóµÄ²âÊÔ½á¹û


¿ÉÒÔ¿´µ½×îÖÕ4¼¶ÀàÄ¿µÄ·ÖÀà×¼È·ÂÊÔ¼Îª77.67%¡£
ÁíÍâ£¬²ÉÓÃÏàÍ¬µÄÑµÁ·¹ý³Ì£¬¶Ô3¼¶ÀàÄ¿½øÐÐÑµÁ·£¬Óë4¼¶·ÖÀà²»Í¬Ö®´¦ÔÚÓÚÑù±¾´¦ÀíÆ÷(SHLibProcessor)µÄ·½·¨_create_examplesÖÐ£¬ÐÞ¸Ä±êÇ©ÁÐµÄÐòºÅ£¬½«ÈçÏÂ´úÂë

label = tokenization.convert_to_unicode(line£Û2£Ý)

ÐÞ¸ÄÎª£º 

label = tokenization.convert_to_unicode(line£Û1£Ý)

È»ºóÔÙÔËÐÐÑµÁ·³ÌÐò£¬µÈÄ£ÐÍÑµÁ·Íê³É£¬¿ÉÒÔ´ÓÈÕÖ¾ÖÐ¿´µ½Ä£ÐÍµÄÑéÖ¤½á¹ûÈçÏÂ£º 

INFO:tensorflow:Saving 'checkpoint_path' summary for global step 19512: ../output/model.ckpt-19512

INFO:tensorflow:evaluation_loop marked as finished

INFO:tensorflow:***** Eval results *****

INFO:tensorflow:  eval_accuracy = 0.85591197

INFO:tensorflow:  eval_loss = 0.5436569

INFO:tensorflow:  global_step = 19512

INFO:tensorflow:  loss = 0.5433417

¿ÉÒÔ¿´µ½3¼¶ÀàÄ¿µÄ²âÊÔ¼¯×¼È·ÂÊ´ïµ½ÁË85.59%£¬Ïà½ÏÓÚÇ°Êö±´Ò¶Ë¹Ëã·¨ÖÐµÄ2¼¶ÀàÄ¿×¼È·ÂÊÓÐÃ÷ÏÔµÄÐÔÄÜÌá¸ß¡£
Ä¿Ç°Í¼Êé¹ÝËùÄÜ¹»²ÉÓÃµÄÊý×Ö×ÊÔ´×Ô¶¯±êÒýÏµÍ³½ÏÎª³Â¾É£¬ÆäËã·¨Î´ÀûÓÃ½ü¼¸ÄêÀ´ÔÚ»úÆ÷Ñ§Ï°¡¢×ÔÈ»ÓïÑÔ´¦Àí·½ÃæµÄÐÂ³É¹û¡£ÕâÐ©ÏµÍ³µÄ±êÒý×¼È·ÂÊµÍÏÂ£¬ÇÒÐèÒªÈË¹¤²ÎÓë½øÐÐÐ­Öú·ÖÀà»òÕß¼ìÑé£¬²»ÄÜ´ÓÕæÕýÒâÒåÉÏ½â·ÅÈËÁ¦×ÊÔ´£¬´ï²»µ½×Ô¶¯±êÒýµÄÒªÇó¡£¶ø½üÄêÀ´¿ìËÙ·¢Õ¹µÄ»ùÓÚ»úÆ÷Ñ§Ï°ºÍÉî¶ÈÑ§Ï°µÄ×ÔÈ»ÓïÑÔ´¦ÀíËã·¨²¢Î´ÓÐÔÚÊý×Ö×ÊÔ´±êÒýÏµÍ³ÉÏµÄÓ¦ÓÃ¡£ÔÚÕâÒ»ÁìÓòÖÐÎÒÃÇ¿ÉÒÔ¿´µ½Ç¿ÁÒµÄÐèÇóÓëÂäºóµÄ²úÆ·¼¼ÊõÖ®¼äµÄ²î¾à¡£Í¬Ê±£¬½«ÏÖÓÐµÄ¶àÖÖNLP¼¼ÊõÇ¡µ±µØ×éºÏ£¬Ó¦ÓÃÓÚÊý×Ö×ÊÔ´×Ô¶¯±êÒýÕâÒ»ÈÎÎñÉÏ¡£
ÕâÀïÀûÓÃ¶àÖÖ»úÆ÷Ñ§Ï°¡¢Éî¶ÈÑ§Ï°Ëã·¨½øÐÐÊµ¼ù£¬×îÖÕÓëÈË¹¤·ÖÀà½á¹û½øÐÐ¶Ô±È£¬ÔÚ·ÖÀàÉÏ»ñµÃÓëÈË¹¤±êÒýÏàµ±ÉõÖÁ¸ü¸ßµÄ×¼È·ÂÊ£¬½â¾öÁË´óÊý¾Ý±³¾°ÏÂµÄÖÇÄÜ·ÖÀàÎÊÌâ¡£
Ë¼¿¼Ìâ
1. ÔÚ·ÖÀàÎÊÌâÖÐ£¬ÌÖÂÛ¶ÔÌØÕ÷½µÎ¬µÄ·½·¨¡£
2. ²ûÊö¿¨·½¼ìÑéÓÃÓÚÌØÕ÷½µÎ¬µÄÀíÓÉ¡£
3. ÔÚ·ÖÀàÐÔÄÜÖ¸±êÖÐ£¬ÈçºÎÆ½ºâÄ£ÐÍ¾«È·¶ÈºÍÕÙ»ØÂÊµÄÈ¡Öµ£¿
4. ÈçºÎ¶ÈÁ¿ÎÄ±¾ÖÐµÄ´ÊµÄÖØÒªÐÔ£¿
5. Óë±´Ò¶Ë¹ÍøÂçµÈËã·¨Ïà±È£¬BERTËã·¨ÓÃÔÚÎÄ±¾·ÖÀàÓÐÊ²Ã´ÓÅÊÆ£¿
6. ÔõÑùÀí½âÎÄÏ×±êÒýÊÇµäÐÍµÄÎÄ±¾·ÖÀàÎÊÌâ£¿
7. ÔÚÎÄÏ×±êÒýÖÐ£¬BERTËã·¨µÄÊäÈëºÍÊä³ö·Ö±ðÊÇÊ²Ã´£¿
8. °ÑÊ¶±ð´íÎóµÄ¼ìÑéÑù±¾¼ÓÈëÑµÁ·Ñù±¾ÊÇ·ñ¿ÉÒÔÌá¸ßÑµÁ·Ä£ÐÍµÄÖÊÁ¿£¿