µÚ3ÕÂÎÄ ±¾ Æ¥ Åä 


ÎÄ±¾Æ¥ÅäÊÇ×ÔÈ»ÓïÑÔ´¦ÀíÖÐÁíÒ»¸ö·Ç³£ÖØÒªµÄÈÎÎñ¡£ÎÄ±¾Æ¥ÅäÖ÷Òª½øÐÐÎÄ±¾¶ÔÖ®¼äµÄÏàËÆ¶È¡¢Ïà¹Ø¶È¼ÆËã£¬ËùÎ½ÏàËÆ¶È£¬Ö¸Á½¸öÎÄ±¾ÊÇ·ñÃèÊöÏàÍ¬µÄÓïÒå£¬¶øÏà¹Ø¶ÈÔòÖ¸Á½¸öÎÄ±¾Ö®¼äÊÇ·ñ´æÔÚÌØ¶¨µÄ¹ØÏµ£¬ÀýÈç£¬ÊÇ·ñ¿ÉÒÔ´ÓÎÄ±¾AÍÆÀí³öÎÄ±¾B(ÔÌº¬¹ØÏµ)¡£ÎÄ±¾Æ¥ÅäÈÎÎñµÄÐÎÊ½Ö÷ÒªÊÇ¶ÔÎÄ±¾¶Ô½øÐÐ¹ØÏµÅÐ¶Ï£¬ÈÎÎñµÄ×îÖÕÐÎÊ½°üº¬Á½ÖÖ£º Ò»ÖÖÊÇÏàËÆ/Ïà¹Ø¶È¼ÆËã£¬¼´¼ÆËãÁ½¸öÎÄ±¾µÄÏàËÆ/Ïà¹Ø¶È´ò·Ö£» ÁíÒ»ÖÖÊÇÏàËÆ/Ïà¹Ø·ÖÀà£¬1±íÊ¾ÏàËÆ/Ïà¹Ø£¬0±íÊ¾²»ÏàËÆ/Ïà¹Ø(Å¼¶ûÓÐÐ©ÈÎÎñ¿ÉÄÜ°üº¬ÖÐÁ¢µÄÇé¿ö£¬´ËÊ±ÈÎÎñÎªÈý·ÖÀà)¡£

ÎÄ±¾Æ¥Åä¼¼ÊõÓ¦ÓÃ·¶Î§Ê®·Ö¹ã·º£¬×î³£¼ûµÄ¼´ËÑË÷ÒýÇæ£¬µ±ÎÒÃÇÔÚËÑË÷ÒýÇæÊäÈëÒ»¸öÎÊÌâ£¬ËÑË÷ÒýÇæ»áÎªÎÒÃÇ¼ÆËã×îÏà¹ØµÄ´ð°¸·µ»ØÕ¹Ê¾¸øÎÒÃÇ¡£³ýÁËËÑË÷Íâ£¬ÎÄ±¾Æ¥ÅäÔÚÎÊ´ð¡¢ÍÆ¼ö¡¢¼ÆËã¹ã¸æµÈÁìÓòÓ¦ÓÃÒ²·Ç³£¹ã·º¡£ÀýÈç£¬ÖÇÄÜÎÊ´ð¼¼Êõ£¬³£¼ûµÄÓÐ¹¦ÄÜÐÍ»úÆ÷ÈË£¬ÄÜ¸ù¾ÝÄãµÄÌáÎÊ·µ»Ø×î¼ÑµÄ½â¾öÎÊÌâ·½°¸£» ÍÆ¼ö¼¼ÊõÖÐ£¬ÄÜ¸ù¾ÝÄã¸öÈËµÄÌØÕ÷»­Ïñ£¬ÎªÄãÍÆ¼ö×îºÍÄãÆ¥ÅäµÄÐÅÏ¢(ÔÄ¶ÁÄÚÈÝ¡¢ÐÂÎÅ¡¢ÊÓÆµÐÅÏ¢Á÷µÈ)£» ¶ø¼ÆËã¹ã¸æÖÐ£¬ÔòÎªÄãÍÆ¼öÓëÄã¸öÈËÌØÕ÷»­ÏñµÄÉÌÆ·µÄ¹ã¸æ£¬ÒÔÔö¼Ó¹ã¸æµÄ×ª»¯Á¿µÈ¡£ÕâÐ©¼¼ÊõÎÞÂÛÊÇÎÄ±¾Æ¥Åä£¬»¹ÊÇÈËª²ÐÅÏ¢Æ¥Åä¡¢ÈËª²»õÆ¥Åä£» ¶¼Àë²»¿ªÆ¥Åä¼¼Êõ£¬²»Í¬µÄÆ¥ÅäÔØÌå£¬Éæ¼°ÔØÌåÌØÕ÷¹¹½¨²»Í¬£¬µ«Æ¥ÅäËã·¨¶¼´óÍ¬Ð¡Òì£¬±¾ÕÂ½«ÏêÏ¸½éÉÜÎÄ±¾Æ¥ÅäµÄÏà¹Ø¼¼Êõ¡£

ÔÚÉñ¾­ÍøÂçÖÐ£¬ÎÄ±¾Æ¥ÅäÖ÷Òª°üº¬3ÖÖÐÎÊ½£º »ùÓÚ±íÊ¾(Representation)µÄÎÄ±¾Æ¥Åä£ÛÍ¼3ª²1£¨a£©£Ý¡¢»ùÓÚ½»»¥(Interaction)µÄÎÄ±¾Æ¥Åä£ÛÍ¼3ª²1£¨b£©£Ý¡¢»ùÓÚÔ¤ÑµÁ·ª²Î¢µ÷¿ò¼ÜµÄÎÄ±¾Æ¥Åä¼¼Êõ(Í¼3ª²2)¡£»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥Åä¼¼ÊõÏÈÊ¹ÓÃ±àÂëÆ÷½«Á½¸öÎÄ±¾½øÐÐ±àÂë£¬¼´½«ÎÄ±¾¶ÔÏÈ·Ö±ð±íÊ¾ÎªÁ½¸öÏòÁ¿£¬È»ºóÔÚÆ¥Åä²ã¼ÆËãÁ½¸öÏòÁ¿µÄÏàËÆ/Ïà¹Ø¶È´ò·Ö£¬µÃµ½Á½¸öÎÄ±¾µÄÏàËÆ/Ïà¹Ø¶È¡£ÕâÖÖ·½·¨ÖÐ£¬¶ÔÎÄ±¾¶ÔµÄ±àÂë¿ÉÒÔÊ¹ÓÃÍ¬Ò»¸ö±àÂëÆ÷£¬Ò²¿ÉÒÔÊ¹ÓÃ²»Í¬µÄ±àÂëÆ÷£¬Ê¹ÓÃÍ¬Ò»¸ö±àÂëÆ÷µÄ½á¹¹£¬ÎÒÃÇ³ÆÎªµ¥ËþÄ£ÐÍ£» ¶øÊ¹ÓÃÁ½¸ö±àÂëÆ÷Ê±£¬³ÆÎªË«Ëþ½á¹¹¡£»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥ÅäÖÐ£¬Á½¸öÎÄ±¾Ö®¼äÃ»ÓÐÈÎºÎµÄ½»»¥£¬¶ÔÓÚÎÊ´ðÀàµÄÈÎÎñÀ´Ëµ²¢²»ÓÑºÃ£¬ÒòÎªÔÚÎÊ´ðÈÎÎñÖÐ£¬´ð°¸¿ÉÄÜ½ö½ö¹Ø×¢ÎÊÌâÖÐµÄÄ³Ð©¹Ø¼ü´ÊÓï£¬¶øÁ½¸ö»¥²»½»»¥µÄÎÄ±¾±íÊ¾£¬ÈÝÒ×Ê¹±àÂëÆ÷Ñ§²»µ½Ê²Ã´´ÊÓïÖØÒª£¬Ê²Ã´´ÊÓï²»ÖØÒª£¬Ò²¾ÍÊÇËµ£¬×îºÃµÄ·½·¨ÊÇ¡°´§×ÅÎÊÌâÕÒ´ð°¸¡±¡£»ùÓÚ½»»¥µÄÎÄ±¾Æ¥Åä·½·¨ÕýÊÇÕâÑù£¬ÔÚÎÄ±¾¶Ô±íÊ¾µÄ¹ý³ÌÖÐ£¬ÏÈ½øÐÐ½»»¥£¬È»ºóÔÙÆ¥Åä(»òÕß±íÊ¾¡¢Æ¥Åä)£¬ÕâÑùÄÜ³ä·Ö½»»»ÎÄ±¾¶ÔµÄÐÅÏ¢£¬´Ó¶øÊ¹ÎÄ±¾±íÊ¾¸ü¼Ó¾ßÓÐ¿É½âÊÍÐÔ¡£



Í¼3ª²1»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥Åä(a)Óë»ùÓÚ½»»¥µÄÎÄ±¾Æ¥Åä(b)

»ùÓÚÔ¤ÑµÁ·ª²Î¢µ÷·½·¨½üÄêÀ´ÔÚ¸÷¸öÈÎÎñÁìÓò¶¼È¡µÃÁËÀï³Ì±®Ê½µÄ·¢Õ¹£¬ÒÔBERT·½·¨ÎªÀý£¬ÎÄ±¾Æ¥ÅäÈÎÎñµÄÊäÈëÎªÎÄ±¾¶ÔµÄÆ´½Ó£¬È»ºó¶¨ÒåÒ»¸öCLSÉÚ±ø×Ö·û£¬Æä±íÊ¾×÷Îª·ÖÀàÌØÕ÷£¬½øÐÐ¶þ·ÖÀà¡£Ô¤ÑµÁ·ª²Î¢µ÷·½·¨¼òµ¥¡¢Ð§¹û¼Ñ£¬ÒÑ¾­ÊÇ½üÄêÀ´¸÷ÏîNLPÈÎÎñµÄ»ùÏß¡£



Í¼3ª²2»ùÓÚBERTµÄÔ¤ÑµÁ·ª²Î¢µ÷ÎÄ±¾Æ¥Åä


½ÓÏÂÀ´ÎÒÃÇ½«·Ö±ð½éÉÜÈçºÎÊ¹ÓÃÕâÈýÖÖ·½·¨½øÐÐÎÄ±¾Æ¥Åä¡£



»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥Åä

3.1Êµ¼ùÒ»£º »ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥Åä

»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥ÅäÄ£ÐÍÖ÷Òª×ö·¨ÊÇ½«Á½¶ÎÎÄ±¾±íÊ¾ÎªÓïÒåÏòÁ¿£¬¼ÆËãÏòÁ¿Ö®¼äµÄÏàËÆ¶È£¬ÖØµãÔÚÓÚÈçºÎ¸üºÃµØ¹¹½¨ÓïÒå±íÊ¾²ã¡£ÕâÖÖÄ£Ê½ÏÂµÄÎÄ±¾Æ¥ÅäÓÐ½á¹¹¼òµ¥¡¢½âÊÍÐÔÇ¿¡¢Ò×ÓÚÊµÏÖµÈÖî¶àÓÅµã¡£ÏÂÃæÎÒÃÇ½«½éÉÜ»ùÓÚLSTMµÄÎÄ±¾Æ¥Åä¾­µäÍøÂç½á¹¹¡£

»ùÓÚLSTMµÄÎÄ±¾Æ¥ÅäÄ£ÐÍÖ÷ÒªÊÇ½«Á½¸ö²»Ò»Ñù³¤µÄ¾ä×Ó£¬·Ö±ð¾­¹ýLSTM±àÂë³ÉÏàÍ¬³ß¶ÈµÄ³íÃÜÏòÁ¿£¬ÒÔ´ËÀ´±È½ÏÁ½¸ö¾ä×ÓµÄÏàËÆÐÔ¡£»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥ÅäÄ£ÐÍ¶¼ÊÇ»ùÓÚÕâÖÖ½á¹¹£¬¼´ÎÄ±¾ÏòÁ¿±íÊ¾²ã+ÏàËÆ¶È¼ÆËã²ã¡£

²½Öè1£º Êý¾Ý¼ÓÔØ



µÚ3ÕÂÎÄ±¾Æ¥Åä

±¾Êµ¼ù²ÉÓÃµÄÊý¾Ý¼¯ÊÇÇ§ÑÔÊý¾Ý¼¯¡£Ç§ÑÔÊý¾Ý¼¯Ä¿Ç°°üº¬3¸öÎÄ±¾ÏàËÆ¶ÈµÄÊý¾Ý¼¯£º pawsª²xª²zh¡¢lcqmc¡¢bq_corpus¡£Õâ3¸öÊý¾Ý¼¯µÄÊý¾Ý¸ñÊ½¶¼ÊÇÒ»ÑùµÄ£¬°üº¬ÓÐ±êÇ©µÄÑµÁ·¼¯(train.tsv)¡¢ÑéÖ¤¼¯(dev.tsv)ºÍÎÞ±êÇ©µÄ²âÊÔ¼¯(test.tsv)£¬ÑéÖ¤¼¯tsvÎÄ¼þÖÐµÄÄÚÈÝ¸ñÊ½Îª¡°Text_A£ÜtText_B£ÜtLabel¡±ÕâÑùµÄÁÐ±í£¬²âÊÔ¼¯tsvÎÄ¼þÖÐµÄÄÚÈÝ¸ñÊ½Îª¡°Text_A£ÜtText_B¡±ÕâÑùµÄÁÐ±í£¬ÐèÒªÍê³ÉµÄÈÎÎñ¼´ÅÐ¶ÏText_AºÍText_BÖ®¼äÊÇ·ñÏàËÆ£¬Êý¾ÝµÄ¾ßÌåÑùÀýÈçÏÂ¡£

ÑµÁ·¼¯/ÑéÖ¤¼¯£º 

¾ä×ÓÒ»£º»¹ÓÐ¾ßÌåµÄÌÖÂÛ£¬¹«ÖÚÐÎÏó±çÂÛºÍÏîÄ¿ÌÖÂÛ¡£

¾ä×Ó¶þ£º»¹ÓÐ¹«¿ªÌÖÂÛ£¬ÌØ¶¨µµ°¸ÌÖÂÛºÍÏîÄ¿ÌÖÂÛ¡£

±êÇ©£º0

²âÊÔ¼¯£º 

¾ä×ÓÒ»£ºTabaci ºÓÊÇÂÞÂíÄáÑÇ Leurda ºÓµÄÖ§Á÷¡£

¾ä×Ó¶þ£ºLeurda ºÓÊÇÂÞÂíÄáÑÇ¾³ÄÚ Tabaci ºÓµÄÒ»ÌõÖ§Á÷¡£

²½Öè2£º Êý¾Ý¼¯¹¹½¨

Êý¾Ý¼¯¹¹½¨ÐèÒª½«Êý¾Ý´¦ÀíÎª±ê×¼¸ñÊ½£¬¼´Ä£ÐÍÊäÈëµÄ¸ñÊ½£¬get_data(task)º¯ÊýÒÔtaskÎª²ÎÊý£¬taskÈ¡ÖµÎªbq_corpus¡¢lcqmc¡¢pawsª²xª²zhÈýÕßÖ®Ò»£¬±êÊ¶Ê¹ÓÃ²»Í¬µÄÊý¾Ý¼¯½øÐÐÊµ¼ù¡£±¾Êµ¼ùÊ¹ÓÃ»ùÓÚ´ÊµÄÎÄ±¾ÇÐ¸î·½Ê½£¬Òò´ËÊ¹ÓÃ³£ÓÃµÄjieba¹¤¾ß½øÐÐÎÄ±¾·Ö´Ê´¦Àí¡£

# 1. ¼ÓÔØÊý¾Ý¼¯



import jieba

import json



def get_data(task):

pth = "data/{}/{}.tsv"

train = £Û£Ý

dev = £Û£Ý

train_lines = open(pth.format(task,"train"),'r').readlines()

train = £Ûline.strip().replace(" ","").split("£Üt") for line in train_lines£Ý

train = train£Û:10£Ý

train = £Û£Û" ".join(jieba.lcut(line£Û0£Ý))," ".join(jieba.lcut(line£Û0£Ý)),line£Û2£Ý£Ý for line in train if len(line)==3£Ý



dev_lines = open(pth.format(task,"dev"),'r').readlines()

dev = £Ûline.strip().split("£Üt") for line in dev_lines£Ý

dev = dev£Û:10£Ý

dev = £Û£Û" ".join(jieba.lcut(line£Û0£Ý))," ".join(jieba.lcut(line£Û0£Ý)),line£Û2£Ý£Ý for line in dev if len(line)==3£Ý



test_lines = open(pth.format(task,"test"),'r').readlines()

test = £Ûline.strip().split("£Üt") for line in test_lines£Ý

test = test£Û:10£Ý

test = £Û£Û" ".join(jieba.lcut(line£Û0£Ý))," ".join(jieba.lcut(line£Û0£Ý))£Ý for line in test if len(line)==2£Ý



print("train:",len(train))

print("dev:",len(dev))

print("test:",len(test))

return train,dev,test

ÎÄ±¾·Ö´ÊÍê±Ïºó£¬´´½¨×Öµä£¬Ìí¼Ó<unk>À´±íÊ¾Î´Öª×Ö·û¡¢<pad>À´±íÊ¾Ìî³äµÄÎÄ±¾£¬²¢±£´æµ½±¾µØ¡£

# 2. ´´½¨×Öµä

def create_dict(datas,dict_path):

dict_set = £Û£Ý

for data in datas:

dict_set += data.split(" ")



dict_set = set(dict_set)



dict_list = £Û£Ý

i= 0

 for s in dict_set:

# È¥µôÒ»Ð©Ó°Ïìjson½âÂëµÄ¹Ø¼ü×Ö·û(·ÇÓïÒå×Ö·û)

if s=="{" or s=="}" or s=="'" or s=="£Ü"" or s==":" or "/" in s or "£Ü£Ü" in s:

# print("--",s)

continue

dict_list.append(£Ûs, i£Ý)

i += 1

# Ìí¼ÓÎ´Öª×Ö·û

dict_txt = dict(dict_list)

end_dict = {"<unk>": i}

dict_txt.update(end_dict)

end_dict = {"<pad>": i+1}

dict_txt.update(end_dict)

# °ÑÕâÐ©×Öµä±£´æµ½±¾µØÖÐ

with open(dict_path, 'w', encoding='utf-8') as f:

f.write(json.dumps(dict_txt).replace("'",'"'))

ÀûÓÃÉÏÎÄÉú³ÉµÄ×Öµäµ½IDµÄÓ³Éä£¬½«Êý¾Ý¼¯ÖÐµÄÎÄ±¾´ÊÓï×ª»¯ÎªIDÐòÁÐ¡£

# 3. ×Ö·ûÐòÁÐ×ªIDÐòÁÐ

def words_to_ids_padding(datas,dict_path,max_length=64):

js = open(dict_path,'r',encoding='utf-8').read().strip().replace("'","£Ü"")

print(js)

vocab_dic = json.loads(js)

res = £Û£Ý

for data in datas:

sent1 = data£Û0£Ý.split(" ")

sent2 = data£Û1£Ý.split(" ")

label = data£Û2£Ý if len(data)==3 else "0"

id1 = £Ûvocab_dic£Ûw£Ý if w in vocab_dic else vocab_dic£Û'<unk>'£Ý  for w in sent1 £Ý

id2 = £Ûvocab_dic£Ûw£Ý if w in vocab_dic else vocab_dic£Û'<unk>'£Ý  for w in sent2 £Ý

id1 = id1£Û:max_length£Ý + £Ûvocab_dic£Û'<pad>'£Ý £Ý * (max_length-len(id1))

id2 = id2£Û:max_length£Ý + £Ûvocab_dic£Û'<pad>'£Ý £Ý * (max_length-len(id2))

res.append(£Ûid1,id2,int(label)£Ý)

return res

µ÷ÓÃÉÏÊö¸÷¹¦ÄÜº¯Êý£¬´¦ÀíÔ­Ê¼Êý¾Ý¼¯¡¢Éú³É´Ê±íÎÄ¼þ¡£×¢Òâ£¬´Ë´¦Ê¹ÓÃÑµÁ·¼¯ÓëÑéÖ¤¼¯Êý¾Ý½øÐÐ´Ê±í¹¹½¨£¬Ò²¿ÉÒÔÖ»Ê¹ÓÃÑµÁ·Êý¾Ý½øÐÐ´Ê±í¹¹½¨¡£

create_dict(datas,vocab_pth)



train_ds = words_to_ids_padding(train,vocab_pth,50)

dev_ds   = words_to_ids_padding(dev,vocab_pth,50)

test_ds   = words_to_ids_padding(test,vocab_pth,50)

vocab_pth = "data/vocab.txt"

train,dev,test = get_data("bq_corpus")   



datas = £Ûc£Û0£Ý + " " +  c£Û1£Ý for c in train+dev£Ý

²½Öè3£º ¹¹½¨±ê×¼Êý¾Ý¼¯Àà

½ÓÏÂÀ´ÐèÒª½«Êý¾Ý¼¯¸ñÊ½»¯£¬¼´½«Êý¾Ý´¦ÀíÎªÊÊÓ¦Ä£ÐÍÑµÁ·µÄ¸ñÊ½¡£Ö÷Òª°üº¬Á½¸ö²½Öè£º µÚÒ»£¬Ê¹ÓÃDataset¶ÔÊý¾Ý¼¯½øÐÐ·â×°£¬ÒÔ½øÐÐÅúÁ¿Êý¾ÝÉú³É¡¢Ñù±¾ÂÒÐòµÈ²Ù×÷£» µÚ¶þ£¬½«DatasetÊý¾Ý½øÐÐ¶þ´Î·â×°£¬Éú³ÉÑµÁ·¼¯¡¢ÑéÖ¤¼¯¡¢²âÊÔ¼¯µÄÊý¾Ýµü´úÆ÷£¬ÆäÖÐÃ¿¸öÑù±¾°üº¬3¸öÔªËØ(sent1¡¢sent2¡¢label)¡£

class PairDataset(paddle.io.Dataset):

self.sent1 = £Û£Ý

self.sent2 = £Û£Ý

self.label = £Û£Ý



def __init__(self, data_list):

for line in data_list:

self.sent1.append(line£Û0£Ý)

self.sent2.append(line£Û1£Ý)

self.label.append(line£Û2£Ý if len(line)==3 else 0)



def __getitem__(self, index):

s1,s2, lab = self.sent1£Ûindex£Ý,self.sent2£Ûindex£Ý,self.label£Ûindex£Ý

return s1,s2,lab



def __len__(self):

return len(self.sent1)



# Êý¾Ý¼¯minibatchÅú´óÐ¡

batch_size = 32

train_dataset = PairDataset(train_ds)

dev_dataset = PairDataset(dev_ds)

test_dataset = PairDataset(test_ds)



# Êý¾Ý¼¯µü´úÆ÷£¬ÓÃÓÚÅúÁ¿Êý¾ÝÉú³É

train_loader = paddle.io.DataLoader(train_dataset,

places=paddle.CPUPlace(),shuffle=True,

batch_size=batch_size, drop_last=True)

dev_loader = paddle.io.DataLoader(dev_dataset,

places=paddle.CPUPlace(),shuffle=True,

batch_size=batch_size, drop_last=True)

test_loader = paddle.io.DataLoader(test_dataset,

places=paddle.CPUPlace(),shuffle=False,

batch_size=batch_size,)

²½Öè4£º Ä£ÐÍ¹¹½¨

LSTMÄ£ÐÍµÄ¹¹½¨ºÍ2.1½ÚÖÐÀàËÆ£¬Ö÷Òª²»Í¬¾ÍÊÇÎÒÃÇÐèÒª·Ö±ð¶ÔÁ½¸öÎÄ±¾½øÐÐLSTM±àÂë£¬²¢ÔÚ×îºó¼ÆËãÁ½¸öÎÄ±¾ÓïÒåÏòÁ¿µÄÓàÏÒÏàËÆ¶È¡£´Ë´¦×¢Òâ£¬ÎÒÃÇÊ¹ÓÃÁËÒ»¸öµ¥Ëþ½á¹¹£¬¼´¶ÔÎÄ±¾1¡¢ÎÄ±¾2Ê¹ÓÃÏàÍ¬µÄBiLSTM±àÂëÆ÷½øÐÐ±àÂë£¬ÈôÊ¹ÓÃË«Ëþ½á¹¹£¬´Ë´¦¿É¶îÍâÔÙ¶¨ÒåÒ»¸öBiLSTM±àÂëÆ÷£¬È»ºó·Ö±ð½«ÎÄ±¾1ÓëÎÄ±¾2ÊäÈëµ½²»Í¬µÄ±àÂëÆ÷ÖÐ½øÐÐ±àÂë¼´¿É¡£¼ÆËãÍêÁ½¸öÎÄ±¾µÄÓïÒå±íÊ¾Ö®ºó£¬±¾Êµ¼ùÊ¹ÓÃnn.CosineSimilarityÀ´¼ÆËãÁ½¸öÎÄ±¾ÓïÒåÏòÁ¿µÄÓàÏÒÏàËÆ¶È¡£ÓàÏÒÏàËÆ¶È¼ÆËãÁ½¸öÏòÁ¿ÔÚÏòÁ¿¿Õ¼äµÄ¼Ð½Ç£¬Ä¬ÈÏ¼Ð½ÇÔ½Ð¡£¬Á½ÏòÁ¿ÔÚÓïÒå¿Õ¼äµÄ¾àÀëÔ½Ïà½ü£¬¼´Á½ÏòÁ¿Ô½ÏàËÆ£¬×îºó¶ÔÓàÏÒÏàËÆ¶È½øÐÐsigmoid±ä»»£¬½«ÏàËÆ¶È×ª»¯Îª0~1µÄÊµÊý¡£

class LstmModel(paddle.nn.Layer):

def __init__(self,vocab_dim,fc_dim):

super(paddle.nn.LSTM, self).__init__()

self.dict_dim = vocab_dim

self.emb_dim = fc_dim

self.hid_dim = fc_dim

# ´ÊÏòÁ¿±àÂë

self.embedding = Embedding(self.dict_dim, self.emb_dim)

# Ë«ÏòLSTM±àÂëÆ÷

self.lstm = paddle.nn.LSTM(self.emb_dim, self.hid_dim,

  direction="bidirectional")

self.fc = Linear(self.hid_dim*2, 1)

self.cos_sim_func = nn.CosineSimilarity()



def forward(self, input1,input2,label=None):

emb1,emb2= self.embedding(input1),self.embedding(input2)

_, (h1, _) = self.lstm(emb1)  # £Û32, 50, 256£Ý

_, (h2, _) = self.lstm(emb2)

# £Û32, 50, 256£Ý £Û2, 32, 128£Ý £Û2, 32, 128£Ý

f1,f2 =
self.fc1(h1.transpose(£Û1,0,2£Ý).reshape(£Û-1,self.hid_dim*2£Ý)),self.fc2(h2.transpose(£Û1,0,2£Ý).reshape(£Û-1,self.hid_dim*2£Ý))

f1,f2 =
paddle.reshape(f1,£Ûf1.shape£Û0£Ý,-1£Ý),paddle.reshape(f2,£Ûf2.shape£Û0£Ý,-1£Ý)

sim_vec = paddle.nn.functional.sigmoid(self.cos_sim_func(f1,f2)_

if lebel is None:

return sim_vec

loss = paddle.nn.functional.mse_loss(sim_vec,label)

return loss,sim_vec

²½Öè5£º Ä£ÐÍÑµÁ·

Ä£ÐÍÑµÁ·¹ý³ÌÓëÇ°ÎÄÆäËûÉî¶ÈÍøÂçµÄÊµ¼ùÀàËÆ£¬´Ë´¦²ÉÓÃµÄÓÅ»¯Æ÷ÎªAdam£¬ËðÊ§º¯ÊýÊ¹ÓÃ¾ù·½Îó²îËðÊ§º¯Êýpaddle.nn.functional.mse_loss()£¬¾ù·½Îó²îËðÊ§º¯ÊýÖ÷ÒªÓÃÓÚ»Ø¹éÎÊÌâÖÐ¡£´Ë´¦£¬ÎÒÃÇ¶ÔÁ½¸öÎÄ±¾µÄÓïÒåÏàËÆ¶È½øÐÐºâÁ¿£¬Ê¹µÃÓïÒåÔ½Ïà½üÊ±£¬ÏàËÆ¶È´ò·ÖÔ½½Ó½ü1£» ¶øÓïÒå»¥³âÊ±£¬ÏàËÆ¶È´ò·ÖÇ÷ÏòÓÚ0¡£ÓÉÓÚÊÇÒ»¸ö´ò·ÖÇ÷½üÎÊÌâ£¬Òò´Ë´Ë´¦Ê¹ÓÃMSEËðÊ§º¯Êý½øÐÐ²ÎÊýÌÝ¶È¼ÆËã£¬train()º¯Êý¶¨ÒåÈçÏÂ¡£

def train(model,epochs):

model.train()

opt = paddle.optimizer.Adam(learning_rate=0.002,

parameters=model.parameters())

steps = 0

Iters, total_loss, total_acc = £Û£Ý, £Û£Ý, £Û£Ý

for epoch in range(epochs):

for batch_id, data in enumerate(train_loader):

steps += 1

sent1,sent2,label= data£Û0£Ý, data£Û1£Ý, data£Û2£Ý

loss,sim = model(sent1,sent2,label)

predict = £Û1 if c>0.5 else 0 for c in sim£Ý

acc = sum(£Ûpredict£Ûi£Ý==label.numpy()£Ûi£Ý for i in range(len(predict))£Ý) / len(predict)



if batch_id % 50 == 0:

Iters.append(steps)

total_loss.append(loss.numpy()£Û0£Ý)

total_acc.append(acc)

print("epoch: {}, batch_id: {}, loss is: {}".format(epoch, batch_id, loss.numpy()))



loss.backward()

opt.step()

opt.clear_grad()



# evaluate model after one epoch

model.eval()

accuracies = £Û£Ý

losses = £Û£Ý



for batch_id, data in enumerate(dev_loader):

sent1,sent2,label= data£Û0£Ý, data£Û1£Ý, data£Û2£Ý

loss,sim = model(sent1,sent2,label)

predict = £Û1 if c>0.5 else 0 for c in sim£Ý

acc = sum(£Ûpredict£Ûi£Ý==label.numpy()£Ûi£Ý for i in range(len(predict))£Ý) /

len(predict) 

accuracies.append(acc)

losses.append(loss.numpy()) 

avg_acc, avg_loss = np.mean(accuracies), np.mean(losses)

print("£Ûvalidation£Ý accuracy: {}, loss: {}".format(avg_acc, avg_loss)) 

model.train()

paddle.save(model.state_dict(),"model_final.pdparams") 

draw_process("trainning loss","red",Iters,total_loss,"trainning loss")

draw_process("trainning acc","green",Iters,total_acc,"trainning acc")



model = LstmModel(128,128)

train(model,2)

²½Öè6£º Ä£ÐÍ²âÊÔ

Ä£ÐÍÔÚÊ¹ÓÃµÄÊ±ºò£¬ÓÉÓÚÉÏÎÄ±£´æµÄ½ö½öÊÇ²ÎÊýµÄÈ¡Öµ£¬²¢Î´±£´æÄ£ÐÍ½á¹û£¬Òò´ËÒªÏÈ³õÊ¼»¯Ò»¸öÄ£ÐÍ£¬È»ºó¼ÓÔØÉÏÎÄ±£´æµÄÄ£ÐÍ²ÎÊý£¬×îºó½«ÒÑÑµÁ·ºÃµÄ²ÎÊý¸³Öµ¸ø³õÊ¼»¯µÄÄ£ÐÍ¡£

model = LstmModel(128,128)

model_state_dict = paddle.load('model_final.pdparams')

model.set_state_dict(model_state_dict) 

model.eval()

label_map = {1:"ÊÇ", 0:"·ñ"}



result = £Û£Ý

predictions = £Û£Ý

accuracies = £Û£Ý

losses = £Û£Ý



for batch_id, data in enumerate(test_loader): 

sent1 = data£Û0£Ý

sent2 = data£Û1£Ý

sim = model(sent)

for idx,prob in enumerate(logits):

# Ó³Éä·ÖÀàlabel

labels = 1 if prob>0.5 else 0

predictions.append(labels)

samples.append(£Ûsent1£Ûidx£Ý.numpy(),sent2£Ûidx£Ý.numpy())

ÖÁ´Ë£¬Íê³ÉÁË»ùÓÚ±íÊ¾µÄÎÄ±¾Æ¥ÅäËã·¨£¬¿ÉÒÔ¿´³ö£¬»ùÓÚ±íÊ¾µÄ·½·¨¼òµ¥¡¢Ö±¹Û£¬µ«ÊÇÑ§Ï°ÄÜÁ¦½Ï²î¡£ÏÂÃæÌ½Ë÷»ùÓÚ½»»¥µÄÎÄ±¾Æ¥ÅäËã·¨¡£



»ùÓÚ½»»¥µÄÎÄ±¾Æ¥Åä


3.2Êµ¼ù¶þ£º »ùÓÚ½»»¥µÄÎÄ±¾Æ¥Åä

Í¼3ª²1(b)Õ¹Ê¾ÁË»ùÓÚ½»»¥µÄÎÄ±¾Æ¥ÅäµÄ»ù±¾Á÷³Ì£¬ºËÐÄË¼ÏëÊÇ½»»¥£¬Óë»ùÓÚ±íÊ¾µÄ·½·¨²»Í¬£¬±¾·½·¨³ýÁË¡°×Ô¼º±àÂë×Ô¼º¡±(LSTM)Íâ£¬»¹Ê¹ÓÃ¡°¶Ô·½±àÂë×Ô¼º¡±¡£Ò²¾ÍÊÇËµ£¬ÎÄ±¾1×îÖÕµÄ±íÊ¾£¬³ýÁËÓëLSTM±àÂëÆ÷±àÂëµÄÎÄ±¾1×Ô¼ºÓÐ¹Ø£¬»¹ÓëLSTM±àÂëÆ÷±àÂëµÄÎÄ±¾2ÓÐ¹Ø¡£½«ÎÄ±¾1¡¢ÎÄ±¾2·Ö±ð¾­¹ýLSTMÖ®ºó£¬·Ö±ðµÃµ½ÁËÎÄ±¾1¡¢ÎÄ±¾2µÄ´ÊÓïµÄÒþ×´Ì¬±íÊ¾£¬¼´ÎÄ±¾1¡¢ÎÄ±¾2µÄÒþ×´Ì¬¾ØÕó£¬½«Á½ÕßµÄÒþ×´Ì¬¾ØÕó½øÐÐ½»»¥(Ò»°ãÎª¾ØÕó³Ë·¨¡¢¹éÒ»»¯)£¬±ã¿ÉÒÔµÃµ½ÎÄ±¾1¡¢ÎÄ±¾2ÖÐ¸÷´ÊÓïÖ®¼äµÄÏà¹ØÐÔ¾ØÕó£¬ÈçÎÄ±¾1µÚi¸ö´ÊÓïÓëÎÄ±¾2µÚj¸ö´ÊÓïµÄÏà¹ØÐÔ¡£È»ºóÎÄ±¾2µÄÃ¿Ò»¸ö´ÊÓïµÄ±íÊ¾½øÐÐ¼ÓÈ¨ÇóºÍ£¬»ñµÃÎÄ±¾1ÖÐÃ¿¸ö´ÊÓï»ùÓÚÎÄ±¾2ÖÐÃ¿¸ö´ÊÓïµÄ±íÊ¾£¬Í¬Àí¿ÉµÃÎÄ±¾2ÖÐÃ¿¸ö´ÊÓï»ùÓÚÎÄ±¾1ÖÐÃ¿¸ö´ÊÓïµÄ±íÊ¾£¬ÕâÑù±ã´ïµ½ÁËÁ½¸öÎÄ±¾µÄ½»»¥Ä¿µÄ¡£µÃµ½½»»¥ºóµÄ±íÊ¾ºó£¬ÓëÔ­Ê¼µÄÒþ×´Ì¬ÔÙ´Î½»»¥(Ïà¼Ó¡¢Ïà³Ë)£¬¼È±£ÁôÁËÔ­Ê¼µÄ´Ê±íÊ¾£¬ÓÖ¼ÓÈëÁË¶Ô·½ÎÄ±¾µÄ½»»¥±íÊ¾£¬´Ó¶øÊ¹¸÷ÎÄ±¾ÖÐ¸÷´ÊÓïµÄ±íÊ¾¸ü¼Ó·á¸»¡£½ÓÏÂÀ´¿ÉÒÔÔÙ¾­¹ýÒ»¸öLSTM¶Ô½»»¥ºóµÄÎÄ±¾±íÊ¾½øÐÐÔÙ´Î±àÂë£¬È»ºó»ñµÃ¸÷ÎÄ±¾µÄÓïÒå±íÊ¾£¬Á½¸öÎÄ±¾µÄÓïÒå±íÊ¾½øÐÐÆ´½ÓµÈ²Ù×÷£¬¹¹³É·ÖÀàÏòÁ¿£¬ÊäÈë·ÖÀàÆ÷½øÐÐ¶þ·ÖÀà¡£

»ùÓÚÉÏÊöºËÐÄË¼Ïë£¬ÎÒÃÇ½éÉÜ±¾´ÎÊµ¼ù£¬Íê³É»ùÓÚ½»»¥µÄÎÄ±¾Æ¥Åä¡£ÓÉÓÚ±¾´ÎÊµ¼ùÊ¹ÓÃµÄÊý¾Ý¼¯Óë3.1½ÚÏàÍ¬£¬Ä£ÐÍµÄÊý¾ÝÊäÈëÒ²ÍêÈ«Ò»ÖÂ£¬Òò´Ë¹ØÓÚÊý¾ÝÔ¤´¦Àí¼°·â×°£¬´Ë´¦²»ÔÙ×¸Êö£¬Ïê¼û3.1½ÚÊý¾ÝÔ¤´¦Àí²¿·Ö¡£±¾½ÚÖØµã½éÉÜÈçºÎ¹¹½¨»ùÓÚ½»»¥µÄÎÄ±¾Æ¥ÅäÄ£ÐÍ¡£

²½Öè1£º Ä£ÐÍ¹¹½¨

ÓÉÓÚ±¾´ÎÄ£ÐÍ½Ï¸´ÔÓ£¬Òò´ËÎÒÃÇ½øÐÐÄ£ÐÍµÄ²ð½â½éÉÜ¡£Ê×ÏÈÎÒÃÇ½éÉÜÄ£ÐÍµÄ³õÊ¼»¯º¯Êý£¬ÔÚÕâÀï£¬ÎÒÃÇÐèÒª¶¨ÒåÊý¾ÝÇ°Ïò´«²¥¹ý³ÌÖÐÐèÒªÓÃµ½µÄ×ÓÄ£¿é£¬°üÀ¨EmbeddingÄ£¿é£¬ÓÃÓÚ½«ÎÄ±¾ÐòÁÐID×ª»»Îª´ÊÏòÁ¿¾ØÕó¸ñÊ½£¬ÎªÍ¨ÓÃµÄÎÄ±¾´¦ÀíÄ£¿é¡£´Ë´¦¶¨ÒåÁËÁ½¸öË«ÏòLSTMÄ£¿é£¬self.lstmÖ÷ÒªÓÃÓÚÎÄ±¾Ô­Ê¼´Ê±íÊ¾µÄ±àÂë£¬¶øself.lstm_after_interactionÖ÷ÒªÓÃÓÚ½»»¥ºóµÄÎÄ±¾±íÊ¾µÄ±àÂë£¬¾ßÌå²Ù×÷¼ûºó¡£ËæÖ®ÎªÁ½¸öÈ«Á¬½Ó²ãÄ£¿é£¬µÚÒ»¸öÈ«Á¬½Ó²ãÓÃÓÚ¸ßÎ¬·ÖÀàÌØÕ÷ÏòÁ¿µ½µÍÎ¬ÌØÕ÷ÏòÁ¿µÄ×ª»¯£¬µÚ¶þ¸öÈ«Á¬½Ó²ãÎª·ÖÀàÆ÷£¬ÓÃÓÚ·ÖÀà¡£

import paddle.nn as nn

import paddle.nn.functional as F

class InteractionMatch(nn.Layer):

def __init__(self, hidden_size, num_classes, vocab_size, embedding_dim):

super().__init__()

self.hidden_size = hidden_size

self.num_classes = num_classes

self.embedding = nn.Embedding(vocab_size, embedding_dim)

self.embedding_dim = embedding_dim



self.lstm = nn.LSTM(self.embedding_dim, self.hidden_size,

direction="bidirectional")

self.lstm_after_interaction = nn.LSTM(self.hidden_size * 2,

self.hidden_size, direction="bidirectional")

self.fc1 = nn.Linear(self.hidden_size * 4, self.hidden_size)

self.fc2 = nn.Linear(self.hidden_size, 2)

¶¨ÒåºÃ¸÷Ä£¿é£¬ÈçºÎ×é×°ÆðÀ´ÖÁ¹ØÖØÒª¡£ÔÚforwardº¯ÊýÖÐ£¬½ÓÊÕ²ÎÊýÎªÎÄ±¾1¡¢ÎÄ±¾2µÄIDÐòÁÐ(premises¡¢hypotheses)£¬½ÓÏÂÀ´²ð½âÇ°Ïòº¯ÊýÖÐÊý¾ÝµÄÁ÷¶¯¹ý³Ì¡£

Ê×ÏÈ½«ÎÄ±¾IDÐòÁÐ½øÐÐ´ÊÏòÁ¿±íÊ¾¡£

embedded_premises = self.embedding(premises)

embedded_hypotheses = self.embedding(hypotheses)

´ÊÏòÁ¿¾ØÕó¾­¹ýµÚÒ»¸öË«ÏòLSTM±àÂëÆ÷£¬ÓÃÓÚ»ñÈ¡¸÷´ÊÓïµÄÉÏÏÂÎÄ±íÊ¾£¬Êä³ö°üº¬3Ïî£¬ÀýÈç£º encoded_premises¡¢h¡¢c¡£ÆäÖÐ£¬encoded_premisesÎªËùÓÐ´ÊÓïµÄÒþ×´Ì¬±íÊ¾£¬hÎª×îºóÒ»¸ö´ÊÓïµÄ±íÊ¾(ÈôÎªË«ÏòLSTMÊ±£¬hÎª×îºóÒ»¸ö´ÊÓëµÚÒ»¸ö´ÊÓïµÄ±íÊ¾£¬Î¬¶ÈÎª£Ûdirection£¬batch_size£¬hidden_size£Ý£¬Ë«ÏòÊ±direction=2£¬·ñÔòdirection=1)£¬c±íÊ¾ÖÐ¼ä²ãµÄÏ¸°û×´Ì¬¡£

encoded_premises, (h, c) = self.lstm(embedded_premises)  

encoded_hypotheses, (_, _) = self.lstm(embedded_hypotheses)

ÎÒÃÇÒªÓÃµ½µÄÊý¾ÝÎªÃ¿¸ö´ÊÓïµÄÒþ×´Ì¬±íÊ¾£¬Òò´ËÉÏÊöh¡¢c¾ùÎÞÓÃ£¬¿ÉÓÃÏÂ»­ÏßÕ¼Î»·µ»Ø¼´¿É¡£½ÓÏÂÀ´¿ªÆô½»»¥¼ÆËã£¬paddle.bmm()º¯ÊýÌá¹©ÅúÁ¿Êý¾ÝµÄ¾ØÕó³Ë·¨£¬¼´ÎªÃ¿Ò»¸öÑù±¾¶Ô£¬½áËãµÚÒ»¸ö¾ä×ÓÓëµÚ¶þ¸ö¾ä×Ó¸÷´ÊÓïµÄÏà¹ØÐÔ£¬È»ºóÑØ¼ÆËãÎ¬¶È½øÐÐsoftmax¹éÒ»»¯£¬¼ÆËãÄ³¸ö´Ê»ùÓÚÁíÒ»¸ö¾ä×ÓÖÐËùÓÐ´ÊÏòÁ¿µÄ±íÊ¾(¼ÓÈ¨ÇóºÍ¹ý³Ì£¬´Ë´¦Ò»¶¨Òª×¢Òâ¼ÓÈ¨ÇóºÍµÄ·½Ïò)¡£

attention_matrix = paddle.bmm(encoded_premises,

encoded_hypotheses.transpose(£Û0, 2, 1£Ý))

# print("attention_matrix",attention_matrix.shape) # £Û32, 50, 50£Ý

# ¹éÒ»»¯

attention_matrix_s1 = F.softmax(attention_matrix.transpose(£Û0, 2, 1£Ý),

 axis=1)

attention_matrix_s2 = F.softmax(attention_matrix, axis=1)

premises_seq_att_out = paddle.bmm(encoded_hypotheses.transpose(£Û0,

2, 1£Ý), attention_matrix_s1).transpose(£Û0, 2, 1£Ý)

hypotheses_seq_att_out = paddle.bmm(encoded_premises.transpose(£Û0,

 2, 1£Ý), attention_matrix_s2).transpose(£Û0, 2, 1£Ý)

ÉÏÊöpremises_seq_att_out±íÊ¾premisesÖÐ´ÊÓï»ùÓÚhypothesesÖÐ´ÊÓïÒþ×´Ì¬µÄ±íÊ¾£¬ÖÁ´Ë£¬Ã¿Ò»¸öÎÄ±¾ÒÑ¾­µÃµ½ÁËÁ½¸ö±íÊ¾£¬Ò»¸öÊÇ»ùÓÚ×ÔÉíÉÏÏÂÎÄµÄ±íÊ¾£¬Èçencoded_premises£¬ÁíÒ»¸öÊÇ»ùÓÚ¶Ô·½ÎÄ±¾µÄ±íÊ¾£¬Èçpremises_seq_att_out¡£È»ºó½«ÕâÁ½Õß½øÐÐ¼òµ¥µÄÏà¼Ó£¬±ã¿É»ñµÃ¼È°üº¬×ÔÉíÉÏÏÂÎÄ£¬ÓÖ°üº¬pairÎÄ±¾µÄÉÏÏÂÎÄ±íÊ¾¡£×îºó½«µÃµ½µÄÐÂµÄÒþ×´Ì¬±íÊ¾ÊäÈëÐÂÒ»²ãLSTMÖÐ£¬¼ÓÇ¿ÉÏÏÂÎÄ±íÊ¾¡£

premises_att_out, (h1, c1) =

self.lstm_after_interaction(premises_seq_att_out + 

encoded_premises )

hypotheses_att_out, (h2, c2) =

self.lstm_after_interaction(hypotheses_seq_att_out + 

encoded_hypotheses)

´ËÊ±£¬ÐèÒª¹¹ÔìÃ¿¸öÎÄ±¾×îÖÕµÄÓïÒå±íÊ¾£¬ÕâÀïÊ¹ÓÃh×÷ÎªÓïÒåÊä³ö£¬Æ´½ÓÇ°ÏòÓëºóÏò×îºóÒ»¸ö×Ö·ûµÄ±íÊ¾×÷Îª×îÖÕµÄÎÄ±¾ÓïÒå±íÊ¾¡£

fea_sent1 = h1.transpose(£Û1, 0, 2£Ý).reshape(£Ûh1.shape£Û1£Ý, -1£Ý)

fea_sent2 = h2.transpose(£Û1, 0, 2£Ý).reshape(£Ûh2.shape£Û1£Ý, -1£Ý)

È»ºóÆ´½ÓÎÄ±¾1¡¢ÎÄ±¾2µÄÓïÒåÏòÁ¿£¬×÷Îª·ÖÀàÌØÕ÷£¬Ò»´ÎÐÔÊäÈëµ½È«Á¬½Ó²ã¡¢¼¤»î²ã¡¢·ÖÀà²ãÖÐ£¬»ñµÃ·ÖÀà½á¹û²¢·µ»Ø¡£

cls_fea = paddle.concat(£Û

fea_sent1,

fea_sent2

£Ý, axis=-1)

fc1 = F.relu(self.fc1(cls_fea))

logits = self.fc2(fc1)

# print(logits.shape)

return logits

ÒÔÉÏÎª²ð½âºóµÄÄ£ÐÍ½á¹¹£¬ÍêÕûÄ£ÐÍ½á¹¹ÈçÏÂ¡£

class InteractionMatch(nn.Layer):

def __init__(self, hidden_size, num_classes, vocab_size, embedding_dim):

super().__init__()

self.hidden_size = hidden_size

self.num_classes = num_classes

self.embedding = nn.Embedding(vocab_size, embedding_dim)

self.embedding_dim = embedding_dim



self.lstm = nn.LSTM(self.embedding_dim, self.hidden_size,

direction="bidirectional")

self.lstm_after_interaction = nn.LSTM(self.hidden_size * 2,

self.hidden_size, direction="bidirectional")

self.fc1 = nn.Linear(self.hidden_size * 4, self.hidden_size)

self.fc2 = nn.Linear(self.hidden_size, 2)



def forward(self, premises, hypotheses):

embedded_premises = self.embedding(premises)

embedded_hypotheses = self.embedding(hypotheses)

encoded_premises, (_, _) = self.lstm(embedded_premises)

encoded_hypotheses, (_, _) = self.lstm(embedded_hypotheses) 

attention_matrix = paddle.bmm(encoded_premises,

encoded_hypotheses.transpose(£Û0, 2, 1£Ý))

attention_matrix_s1 = F.softmax(attention_matrix.transpose(£Û0, 2, 1£Ý),

axis=1)

attention_matrix_s2 = F.softmax(attention_matrix, axis=1)

premises_seq_att_out = paddle.bmm(encoded_hypotheses.transpose(£Û0,

2, 1£Ý), attention_matrix_s1).transpose(£Û0, 2, 1£Ý)

hypotheses_seq_att_out = paddle.bmm(encoded_premises.transpose(£Û0,

2, 1£Ý), attention_matrix_s2).transpose(£Û0, 2, 1£Ý)

premises_att_out, (h1, c1) =

self.lstm_after_interaction(premises_seq_att_out + 

encoded_premises)

hypotheses_att_out, (h2, c2) =

self.lstm_after_interaction(hypotheses_seq_att_out + 

encoded_hypotheses)

fea_sent1 = h1.transpose(£Û1, 0, 2£Ý).reshape(£Ûh1.shape£Û1£Ý, -1£Ý)

fea_sent2 = h2.transpose(£Û1, 0, 2£Ý).reshape(£Ûh2.shape£Û1£Ý, -1£Ý)



cls_fea = paddle.concat(£Ûfea_sent1, fea_sent2 £Ý, axis=-1)

fc1 = F.relu(self.fc1(cls_fea))

logits = self.fc2(fc1)

return logits

Ä£ÐÍÑµÁ·¡¢Ô¤²â¹ý³ÌÓë3.1½ÚÍêÈ«Ò»ÖÂ£¬´Ë´¦²»ÔÙ×¸Êö¡£»ùÓÚ½»»¥µÄ·½·¨±¾ÖÊÉÏ±ÜÃâÁËÁ½¸öÎÄ±¾Ö®¼äÍêÈ«¹ÂÁ¢µÄ×´Ì¬¡£±¾Êé¼òµ¥µØÑÝÊ¾ÁË½»»¥·½·¨£¬Í¬Ñ§ÃÇÔÚÊµ¼ùµÄ¹ý³ÌÖÐ¿ÉÒÔ·¢ÏÖ£¬±¾Ä£ÐÍ½á¹¹»¹ÓÐºÜ¶à¿ÉÒÔ¸Ä½øµÄ¿Õ¼ä¡£ÀýÈç£¬ÔÚ¼ÆËãÏà¹ØÐÔ¾ØÕóÊ±£¬¿ÉÒÔ¶ÔpaddingµÄ´ÊÓï½øÐÐÆÁ±Î£¬ÒòÎªpadding´ÊÓï±¾ÖÊÉÏ²»²ÎÓë¡¢²»Ó°ÏìÎÄ±¾µÄÓïÒå¼ÆËã£¬¸Ã·½·¨¾ÍÊÇ¾­µäµÄESIMÄ£ÐÍ£¬¸ÐÐËÈ¤µÄÍ¬Ñ§¿ÉÒÔÉîÈëÁË½â¡¢Êµ¼ù¡£



»ùÓÚÔ¤ÑµÁ·ª²Î¢µ÷µÄÎÄ±¾Æ¥Åä

3.3Êµ¼ùÈý£º »ùÓÚÔ¤ÑµÁ·ª²Î¢µ÷µÄÎÄ±¾Æ¥Åä

Ô¤ÑµÁ·ª²Î¢µ÷¿ò¼ÜÎª¸÷ÏîNLPÈÎÎñ¶¼Ìá¹©ÁËÒ»¸ö·Ç³£Ç¿´óµÄ»ùÏß±ê×¼£¬ÔÚ2.3½ÚÖÐ£¬ÎÒÃÇÊµ¼ùÁË»ùÓÚBERTÎ¢µ÷µÄÎÄ±¾·ÖÀàÈÎÎñ£¬±¾½Ú£¬ÎÒÃÇÊ¹ÓÃ°Ù¶È×ÔÑÐ·¢µÄERNIEª²GramÔ¤ÑµÁ·ª²Î¢µ÷¿ò¼Ü½øÐÐÎÄ±¾Æ¥Åä¡£

ERNIEª²GramÊÇÒ»ÖÖ¶àÁ£¶ÈÔ¤ÑµÁ·ÓïÒåÀí½â¼¼Êõ¡£×÷Îª×ÔÈ»ÓïÑÔ´¦ÀíµÄ»ù±¾ÓïÒåµ¥Ôª£¬¸ü³ä·ÖµÄÓïÑÔÁ£¶ÈÑ§Ï°ÄÜ°ïÖúÄ£ÐÍÊµÏÖ¸üÇ¿µÄÓïÒåÀí½âÄÜÁ¦¡£ERNIEª²Gram Ìá³öÏÔÊ½Íê±¸µÄ Nª²Gram ¶àÁ£¶ÈÑÚÂëÓïÑÔÄ£ÐÍ£¬Í¬²½½¨Ä£ Nª²Gram ÄÚ²¿ºÍ Nª²Gram Ö®¼äµÄÓïÒå¹ØÏµ£¬ÊµÏÖÍ¬Ê±Ñ§Ï°Ï¸Á£¶ÈºÍ´ÖÁ£¶ÈÓïÒåÐÅÏ¢£¬ÔÚ¸÷ÏîÈÎÎñÖÐ£¬È¡µÃÁË±ÈBERT¡¢ERNIE¸ü¼ÓÓÅÐãµÄÐ§¹û¡£±¾½Ú½«ÏêÏ¸½éÉÜÈçºÎÊ¹ÓÃERNIEª²Gram½øÐÐÎÄ±¾Æ¥Åä¡£

²½Öè1£º Êý¾ÝÔ¤´¦Àí

ÔÚ3.1¡¢3.2½ÚÖÐ£¬ÊÖ¶¯Îª´ó¼ÒÊµÏÖÁËÊý¾Ý¼¯µÄÔ¤´¦Àí¡¢IDÐòÁÐ»¯¡¢Dataset/DataLoader·â×°µÈ¹ý³Ì£¬Ö¼ÔÚÒýµ¼Í¬Ñ§ÃÇ¸üÏ¸½ÚµØÁË½âNLPÈÎÎñµÄ»ù±¾Êý¾Ý´¦Àí¹ý³Ì¡£±¾½Ú»¹ÊÇÊ¹ÓÃÏàÍ¬µÄÊý¾Ý¼¯½øÐÐÊµ¼ù£¬µ«ÊÇÖ±½Ó´Ópaddlenlp.datasets·â×°ºÃµÄÊý¾ÝÖÐ¶ÁÈ¡¼´¿É¡£

from paddlenlp.datasets import load_dataset

train_ds, dev_ds = load_dataset("lcqmc", splits=£Û"train", "dev"£Ý)

for idx, example in enumerate(train_ds£Û:2£Ý):

 print(example)

Êä³öÈçÏÂ£º 

{'query': 'Ï²»¶´òÀºÇòµÄÄÐÉúÏ²»¶Ê²Ã´ÑùµÄÅ®Éú', 'title': '°®´òÀºÇòµÄÄÐÉúÏ²»¶Ê²Ã´ÑùµÄÅ®Éú', 'label': 1}

{'query': 'ÎÒÊÖ»ú¶ªÁË£¬ÎÒÏë»»¸öÊÖ»ú', 'title': 'ÎÒÏëÂò¸öÐÂÊÖ»ú£¬ÇóÍÆ¼ö', 'label': 1}

Ô¤ÑµÁ·ª²Î¢µ÷¿ò¼ÜÊ¹ÓÃµÄÊý¾ÝÊäÈë¸ñÊ½Í¨³£°üº¬3ÖÖ£º ÎÄ±¾IDÐòÁÐ¡¢ÎÄ±¾¶ÎÂä±êÊ¶ºÍÎ»ÖÃ¡£Í¨³£Î»ÖÃÐÅÏ¢»áÔÚÄ£ÐÍÖÐÄ¬ÈÏÌí¼Ó£¬Òò´Ë£¬ÎÒÃÇÐèÒª¹¹½¨µÄÊäÈë¸ñÊ½±ØÐë°üº¬Ç°Á½Õß£¬¼´ÎÄ±¾IDÐòÁÐÓëÎÄ±¾¶ÎÂä±êÊ¶£¬ºóÕßÓÃÀ´±êÊ¶µ±Ç°tokenËùÊô¶ÎÂä(ÎÄ±¾¶ÔÈÎÎñ)»òÕßÇø·ÖÊÇ·ñÊÇpadding·ûºÅ(µ¥ÎÄ±¾ÈÎÎñ)¡£´Ë´¦£¬ÎÒÃÇÖ±½ÓÊ¹ÓÃ¶ÔÓ¦Ô¤ÑµÁ·Ä£ÐÍµÄErnieGramTokenizer¼´¿É¡£

tokenizer = paddlenlp.transformers.ErnieGramTokenizer.from_pretrained('ernie-

gram-zh')

¶¨ÒåºÃ·Ö´ÊÆ÷Ö®ºó£¬¶¨ÒåÊý¾Ý¼¯¸ñÊ½»¯´¦Àíº¯Êý¡£Ê×ÏÈÊ¹ÓÃtoknizer½øÐÐÎÄ±¾Æ´½Ó¡¢ÇÐ¸î£¬È»ºó·µ»ØÎÒÃÇÐèÒªµÄÁ½Ïî£º ÐòÁÐID(input_ids)ºÍÎÄ±¾¶ÎÂä±êÊ¶(token_type_ids)¡£

def convert_example(example, tokenizer, max_seq_length=512, is_test=False):

query, title = example£Û"query"£Ý, example£Û"title"£Ý

encoded_inputs = tokenizer(

text=query, text_pair=title, max_seq_len=max_seq_length)

input_ids = encoded_inputs£Û"input_ids"£Ý

token_type_ids = encoded_inputs£Û"token_type_ids"£Ý

if not is_test:

label = np.array(£Ûexample£Û"label"£Ý£Ý, dtype="int64")

return input_ids, token_type_ids, label

else:

return input_ids, token_type_ids



input_ids, token_type_ids, label = convert_example(train_ds£Û0£Ý, tokenizer)

µ¥¸öÑù±¾¸ñÊ½´¦Àí¶¨ÒåÍê±Ïºó£¬»¹ÐèÒªÊµÏÖminibatch¸ñÊ½Êý¾ÝÉú³É£¬±¾ÖÊÉÏ£¬Óë3.1¡¢3.2½ÚµÄDataset¡¢DataLoaderÊÇÒ»ÖÂµÄ£¬Ö»²»¹ýÊ¹ÓÃÁË¸ü¸ß½×µÄº¯Êý¡£Ê×ÏÈ£¬¶¨ÒåÒ»¸ö×ª»¯º¯Êýtrans_func()£¬¼´convert_example¹Ì¶¨´«Èëtokenizer£¬×î´ó¾ä×Ó³¤¶ÈÉèÖÃÎª512¡£

trans_func = partial(

convert_example,

tokenizer=tokenizer,

max_seq_length=512)

È»ºóÎªÃ¿¸öÑù±¾Ö´ÐÐÈçÏÂÒ»×é²Ù×÷£º Padª²Padª²Stack¡£ÆäÖÐ£¬¶ÔÎÄ±¾IDÐòÁÐ¡¢tokenÀàÐÍÐòÁÐpaddingµ½Ö¸¶¨³¤¶È£¬È»ºó½«Í¬Ò»batchµÄ±êÇ©½øÐÐ¶ÑµþStack£¬¹¹½¨Ò»¸öÍ³Ò»µÄtensor¡£

batchify_fn = lambda samples, fn=Tuple(

Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids

Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids

Stack(dtype="int64")  # label

): £Ûdata for data in fn(samples)£Ý

¶¨Òå·Ö²¼Ê½ Sampler£¬×Ô¶¯¶ÔÑµÁ·Êý¾Ý½øÐÐÇÐ·Ö£¬Ö§³Ö¶à¿¨²¢ÐÐÑµÁ·¡£È»ºó»ùÓÚÉÏÊö¸÷´¦Àíº¯Êý£¬¶¨ÒåÊý¾Ýµü´úÆ÷DataLoader£¬Íê³ÉÄ£ÐÍÊäÈëµÄ±ê×¼Êý¾Ý¸ñÊ½·â×°¡£

# ¶¨Òå train_data_loader

batch_sampler = paddle.io.DistributedBatchSampler(train_ds, batch_size=32, 

shuffle=True)

train_data_loader = paddle.io.DataLoader(

dataset=train_ds.map(trans_func),

batch_sampler=batch_sampler,

collate_fn=batchify_fn,

return_list=True)

# ¶¨Òå dev_data_loader

batch_sampler = paddle.io.BatchSampler(dev_ds, batch_size=32, shuffle=False)

dev_data_loader = paddle.io.DataLoader(

dataset=dev_ds.map(trans_func),

batch_sampler=batch_sampler,

collate_fn=batchify_fn,

return_list=True)

²½Öè2£º Ä£ÐÍ¼ÓÔØ

Ö±½Óµ÷ÓÃpaddlenlp.transformers.ErnieGramModelµÄfrom_pretrained()º¯Êý£¬±ã¿ÉÏÂÔØÏàÓ¦µÄÄ£ÐÍ²ÎÊý£¬¼òµ¥±ã½Ý¡£

pretrained_model 

=paddlenlp.transformers.ErnieGramModel.from_pretrained('er

nie-gram-zh')

¶Ô¸ÃÔ¤ÑµÁ·Ä£ÐÍ½øÐÐ¼òµ¥·â×°¡¢Ä£¿é»¯£¬´Ë´¦°üº¬Á½²¿·Ö£º µÚÒ»£¬Ô¤ÑµÁ·Ä£ÐÍµÄÊä³ö£¬¼´ÎÄ±¾¶ÔµÄCLSÏòÁ¿£¬×÷Îª·ÖÀàµÄÌØÕ÷ÏòÁ¿£» µÚ¶þ£¬È«Á¬½Ó·ÖÀàÆ÷²ã£¬ÊäÈëÎ¬¶ÈÎªÔ¤ÑµÁ·Ä£ÐÍµÄhidden_size£¬Êä³öÎ¬¶ÈÎª·ÖÀà¸öÊý£¬´Ë´¦Îª2¡£

class PointwiseMatching(nn.Layer):



def __init__(self, pretrained_model, dropout=None):

super().__init__()

self.ptm = pretrained_model

# dropout£ºËæ»úÊ§»îÒ»²¿·Öµ¥Ôª£¬±ÜÃâ¹ýÄâºÏ

self.dropout = nn.Dropout(dropout if dropout is not None else 0.1)

self.classifier = nn.Linear(self.ptm.config£Û"hidden_size"£Ý, 2)



def forward(self, input_ids,

token_type_ids=None,

position_ids=None,

attention_mask=None):



_, cls_embedding = self.ptm(input_ids, token_type_ids, position_ids,

attention_mask)

cls_embedding = self.dropout(cls_embedding)

logits = self.classifier(cls_embedding)

probs = F.softmax(logits)

return probs

²½Öè3£º Ä£ÐÍÑµÁ·

Ä£ÐÍÑµÁ·ÒÀ¾É×ñÑ­Ä£ÐÍ³õÊ¼»¯¡¢ÓÅ»¯Æ÷/ËðÊ§º¯Êý¶¨Òå¡¢ÆÀ¼ÛÖ¸±êÑ¡ÔñµÈ¹ý³Ì£¬´Ë´¦£¬ÎÒÃÇÊ¹ÓÃAdamWÓÅ»¯Æ÷£¬ËðÊ§º¯ÊýÎª½»²æìØËðÊ§º¯ÊýCrossEntropyLoss()¡£ÓÅ»¯Æ÷¶ÔÑ§Ï°ÂÊÏÈ½øÐÔwarmup£¬È»ºóÔÚÖ¸¶¨²½ÊýÖ®ºó½øÐÐÑ§Ï°ÂÊÏÈÐÐË¥¼õ£¬±ÜÃâ´í¹ýËðÊ§º¯ÊýµÄ×îÓÅÖµ£¬»òÕßÔÚ¼«Ð¡Öµ¸½½üÕñµ´¶øµ¼ÖÂÎÞ·¨ÊÕÁ²£¬²ÉÓÃÕýÈ·ÂÊAccuracy×÷ÎªÆÀ¼ÛÖ¸±ê¡£

model = PointwiseMatching(pretrained_model)

epochs = 3

num_training_steps = len(train_data_loader) * epochs



# ¶¨Òå learning_rate_scheduler£¬¸ºÔðÔÚÑµÁ·¹ý³ÌÖÐ¶Ô lr ½øÐÐµ÷¶È

lr_scheduler = LinearDecayWithWarmup(5E-5, num_training_steps, 0.0)



decay_params = £Û

p.name for n, p in model.named_parameters()

if not any(nd in n for nd in £Û"bias", "norm"£Ý)

£Ý



# ¶¨Òå Optimizer

optimizer = paddle.optimizer.AdamW(

learning_rate=lr_scheduler,

parameters=model.parameters(),

weight_decay=0.0,

apply_decay_param_fun=lambda x: x in decay_params)



# ²ÉÓÃ½»²æìØ ËðÊ§º¯Êý

criterion = paddle.nn.loss.CrossEntropyLoss()



# ÆÀ¹ÀµÄÊ±ºò²ÉÓÃ×¼È·ÂÊÖ¸±ê

metric = paddle.metric.Accuracy()

Ä£ÐÍÑµÁ·¹ý³ÌÈçÏÂ£¬ÕûÌå×ñÑ­Êý¾ÝÇ°Ïò´«²¥£¬ËðÊ§º¯Êý¼ÆËãÌÝ¶È½øÐÐ·´Ïò´«²¥loss.backward£¬¼ä¸ôµü´ú´ÎÊýÑéÖ¤Ä£ÐÍÎ¢µ÷Ð§¹û£¬×îºó±£´æÄ£ÐÍ²ÎÊý¡£

global_step = 0

tic_train = time.time()



for epoch in range(1, epochs + 1):

for step, batch in enumerate(train_data_loader, start=1):

input_ids, token_type_ids, labels = batch

probs = model(input_ids=input_ids, token_type_ids=token_type_ids)

loss = criterion(probs, labels)

correct = metric.compute(probs, labels)

metric.update(correct)

acc = metric.accumulate()

global_step += 1

if global_step % 100== 0:

print(

"global step %d, epoch: %d, batch: %d, loss: %.5f, accu: %.5f,

speed: %.2f step/s"

% (global_step, epoch, step, loss, acc,

10 / (time.time() - tic_train)))

tic_train = time.time()

loss.backward()

optimizer.step()

lr_scheduler.step()

optimizer.clear_grad()



# Ã¿¼ä¸ô 100 step ÔÚÑéÖ¤¼¯ºÍ²âÊÔ¼¯ÉÏ½øÐÐÆÀ¹À

if global_step % 100 == 0:

evaluate(model, criterion, metric, dev_data_loader, "dev")



# ÑµÁ·½áÊøºó£¬´æ´¢Ä£ÐÍ²ÎÊý

save_dir = os.path.join("checkpoint", "model_%d" % global_step)

os.makedirs(save_dir)



save_param_path = os.path.join(save_dir, 'model_state.pdparams')

paddle.save(model.state_dict(), save_param_path)

tokenizer.save_pretrained(save_dir)

²½Öè4£º Ä£ÐÍÔ¤²â

Ä£ÐÍÔ¤²âÓëÄ£ÐÍÑµÁ·¹ý³Ì»ù±¾Ò»ÖÂ£¬Ö»²»¹ýÊäÈëÊý¾Ý²»º¬±êÇ©£¬Òò´ËÐèÒª¶ÔÍÆÀíÊý¾Ý×ö¶îÍâ´¦Àí£¬Ö÷ÒªÌåÏÖÎªÈ¥µô±êÇ©¡£

# ÍÆÀíÊý¾ÝµÄ×ª»»º¯Êý

# predict Êý¾ÝÃ»ÓÐ label, Òò´Ë convert_exmaple µÄ is_test ²ÎÊýÉèÎª True

trans_func = partial(

convert_example,

tokenizer=tokenizer,

max_seq_length=512,

is_test=True)



# Ô¤²âÊý¾Ýbatch²Ù×÷

# predict Êý¾ÝÖ»·µ»Ø input_ids ºÍ token_type_ids

batchify_fn = lambda samples, fn=Tuple(

Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids

Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment_ids

): £Ûdata for data in fn(samples)£Ý



# ¼ÓÔØÔ¤²âÊý¾Ý

test_ds = load_dataset("lcqmc", splits=£Û"test"£Ý)

batch_sampler = paddle.io.BatchSampler(test_ds, batch_size=32, shuffle=False)



# Éú³ÉÔ¤²âÊý¾Ý data_loader

predict_data_loader =paddle.io.DataLoader(

dataset=test_ds.map(trans_func),

batch_sampler=batch_sampler,

collate_fn=batchify_fn,

return_list=True)

¶¨ÒåÔ¤²âº¯Êý£¬·ÖÅú´Î´¦ÀíÍÆÀíÊý¾Ý£¬±ÜÃâÄÚ´æÒç³ö¡£

def predict(model, data_loader): 

batch_probs = £Û£Ý

# Ô¤²â½×¶Î´ò¿ª eval Ä£Ê½£¬Ä£ÐÍÖÐµÄ dropout µÈ²Ù×÷»á¹Øµô

model.eval()



with paddle.no_grad():

for batch_data in data_loader:

input_ids, token_type_ids = batch_data

input_ids = paddle.to_tensor(input_ids)

token_type_ids = paddle.to_tensor(token_type_ids) 

# »ñÈ¡Ã¿¸öÑù±¾µÄÔ¤²â¸ÅÂÊ: £Ûbatch_size, 2£Ý µÄ¾ØÕó

batch_prob = model(

input_ids=input_ids, token_type_ids=token_type_ids).numpy()

batch_probs.append(batch_prob)

batch_probs = np.concatenate(batch_probs, axis=0)

return batch_probs

³õÊ¼»¯Ò»¸öÐÂµÄÄ£ÐÍ£¬¼ÓÔØ±£´æºÃµÄ²ÎÊý£¬ÎªÐÂÄ£ÐÍ²ÎÊý¸³Öµ£¬È»ºóµ÷ÓÃpredictº¯Êý£¬²¢±£´æÔ¤²â½á¹û¡£

pretrained_model = paddlenlp.transformers.ErnieGramModel.from_pretrained('ernie-gram-zh')



model = PointwiseMatching(pretrained_model)

state_dict=paddle.load("./ernie_gram_zh_pointwise_matching_model/model_state.pdparams")



model.set_dict(state_dict)



# Ö´ÐÐÔ¤²âº¯Êý

y_probs = predict(model, predict_data_loader)



# ¸ù¾ÝÔ¤²â¸ÅÂÊ»ñÈ¡Ô¤²â label

y_preds = np.argmax(y_probs, axis=1)



test_ds = load_dataset("lcqmc", splits=£Û"test"£Ý)



with open("lcqmc.tsv", 'w', encoding="utf-8") as f:

f.write("index£Ütprediction£Ün")    

for idx, y_pred in enumerate(y_preds):

f.write("{}£Üt{}£Ün".format(idx, y_pred))

text_pair = test_ds£Ûidx£Ý

text_pair£Û"label"£Ý = y_pred

print(text_pair)