µÚ3ÕÂ¡þ»ùÓÚTransformerÄ£ÐÍµÄNERª¥





3£®1ÒýÑÔ

Ëæ×ÅÊý×Ö»¯¼¼ÊõµÄ¿ìËÙ·¢Õ¹£¬Ô½À´Ô½¶àµÄ¹Å¼®ÎÄÏ×¿ÉÒÔÊ¹ÓÃÊý×Ö»¯´æ´¢ºÍ´«²¥¡£È»¶ø£¬¹Å¼®ÎÄ±¾µÄ¸´ÔÓÐÔºÍÌØÊâÐÔ¸øÆäÐÅÏ¢³éÈ¡ºÍÎÄ±¾·ÖÎö´øÀ´ÁË¾Þ´óÌôÕ½¡£ÔÚ¹Å¼®ÑÐ¾¿ÁìÓò£¬×¼È·µØÊ¶±ðºÍ±ê×¢ÎÄ±¾ÖÐµÄÃüÃûÊµÌå¶ÔÓÚÉîÈëÍÚ¾ò¹Å¼®µÄÖªÊ¶¡¢ÀúÊ·ºÍÎÄ»¯¾ßÓÐÖØÒªÒâÒå¡£

ÔÚ¹Å¼®Ê¶±ðÈÎÎñÖÐ£¬NERµÄÄ¿±êÊÇ×Ô¶¯Ê¶±ðÎÄ±¾ÖÐµÄÈËÃû¡¢µØÃû¡¢»ú¹¹ÃûµÈÊµÌå£¬ÒÔ¼°ÈÕÆÚ¡¢Ê±¼äµÈ¾ßÓÐÌØ¶¨ÒâÒåµÄÊµÌå¡£ÕâÐ©ÊµÌåÐÅÏ¢ÊÇÉîÈëÀí½â¹Å¼®ÎÄ±¾¡¢»¹Ô­ÀúÊ·³¡¾°¡¢½ÒÊ¾ÈËÎï¹ØÏµºÍµØÀí±³¾°µÄÖØÒªÏßË÷¡£

»ùÓÚTransformerÄ£ÐÍµÄNER¼¼Êõ×÷ÎªNLPÁìÓòµÄÖØÒªÍ»ÆÆ£¬Îª¹Å¼®ÎÄ±¾Ê¶±ðÌá¹©ÁËÐÂµÄ½â¾ö·½°¸¡£±¾ÕÂÖ¼ÔÚÌ½Ë÷»ùÓÚTransformerÄ£ÐÍµÄNER·½·¨ÔÚ¹Å¼®Ê¶±ðÖÐµÄÓ¦ÓÃ£¬±¾ÕÂ½«Ê¹ÓÃÔÚTransformer¼Ü¹¹»ù´¡ÉÏÒýÉê³öÀ´µÄ»ùÓÚ·Ö²ãTransformerÄ£ÐÍµÄNER¡¢»ùÓÚBERTª²CRF£¨Bidirectional Encoder Representations from Transformers with Conditional Random Fields,»ùÓÚÌõ¼þËæ»ú³¡×ª»»Æ÷µÄË«Ïò±àÂë±íÊ¾£©µÄNERºÍ»ùÓÚÇ¨ÒÆÑ§Ï°µÄÏ¸Á£¶ÈBERT(Bidirectional Encoder Representations from Transformers£¬»ùÓÚ×ª»»Æ÷µÄË«Ïò±àÂë±íÊ¾)µÄNERÈýÖÖ·½·¨£¬ÓÃÓÚ¹Å¼®ÊµÌåÊ¶±ðµÄÑÐ¾¿¡£

3£®2ÎÊÌâÒýÈë

¹Å¼®ÎÄÏ××÷ÎªÕä¹óµÄÎÄ»¯ÒÅ²ú£¬ÔÌº¬×Å·á¸»µÄÀúÊ·¡¢ÎÄÑ§ºÍÉç»áÐÅÏ¢£¬¶ÔÓÚ¹Å´úÉç»á¡¢ÎÄ»¯´«³ÐºÍÑ§ÊõÁìÓò¶¼¾ßÓÐÖØÒª¼ÛÖµ¡£È»¶ø£¬ÓÉÓÚ¹Å¼®ÎÄ±¾µÄÌØÊâÐÔºÍ¸´ÔÓÐÔ£¬¶ÔÆä½øÐÐÉîÈëµÄ·ÖÎöºÍÀí½âÒ»Ö±ÃæÁÙ×ÅÌôÕ½¡£ÔÚ´Ë±³¾°ÏÂ£¬ÈçºÎÀûÓÃÏÈ½øµÄNLP¼¼ÊõÀ´ÌáÉý¹Å¼®ÎÄÏ×µÄÊ¶±ðºÍ·ÖÎöÄÜÁ¦³ÉÎªÒ»¸öÖØÒªµÄÎÊÌâ¡£

NERÊÇNLPÖÐµÄÒ»¸ö¹Ø¼üÈÎÎñ£¬Ö¼ÔÚÊ¶±ðÎÄ±¾ÖÐ¾ßÓÐÌØ¶¨ÓïÒåº¬ÒåµÄÃüÃûÊµÌå£¬ÈçÈËÃû¡¢µØÃû¡¢Ê±¼ä¡¢ÊÕ²ØµØµÈ¡£ÔÚ¹Å¼®ÎÄ±¾ÊµÌåÊ¶±ðÈÎÎñÖÐ£¬×¼È·µØÊ¶±ðºÍ±ê×¢¹Å¼®ÎÄ±¾ÖÐµÄÃüÃûÊµÌåÊÇÒ»Ïî¾ßÓÐÌôÕ½ÐÔµÄÈÎÎñ¡£¹Å¼®ÎÄ±¾³£³£Ê¹ÓÃ¹Å´úºº×Ö¡¢ÒìÌå×ÖºÍ¹Å´úÈËÃû¡¢µØÃûµÄ±íÊ¾ÐÎÊ½£¬Ê¹µÃ´«Í³µÄ»ùÓÚ¹æÔò»ò´ÊµäµÄ·½·¨ÍùÍùÎÞ·¨Âú×ã×¼È·ÊµÌåÊ¶±ðµÄÒªÇó¡£

TransformerÄ£ÐÍÄÜ¹»Í¨¹ýÑ§Ï°ÉÏÏÂÎÄÐÅÏ¢£¬¶Ô¸´ÔÓµÄ¹Å¼®ÎÄ±¾½øÐÐ¸ü×¼È·µÄNER¡£È»¶ø£¬½«»ùÓÚTransformerÄ£ÐÍµÄNER·½·¨Ó¦ÓÃÓÚ¹Å¼®ÎÄÏ×Ê¶±ðÈÎÎñÖÐÈÔÈ»´æÔÚÒ»Ð©ÎÊÌâºÍÌôÕ½¡£Ê×ÏÈ£¬¹Å¼®ÎÄÏ×µÄÌØÊâÐÔµ¼ÖÂÆäÊý¾ÝÁ¿ÓÐÏÞ£¬Ïà±ÈÓÚÏÖ´úÓïÁÏ¿â£¬¿ÉÓÃÓÚÑµÁ·µÄ±ê×¢Êý¾Ý½ÏÉÙ¡£ÈçºÎÔÚÓÐÏÞµÄ¹Å¼®Êý¾ÝÉÏÑµÁ·³ö¸ßÐÔÄÜµÄNERÄ£ÐÍ£¬³ÉÎªÒ»¸öØ½´ý½â¾öµÄÎÊÌâ¡£Æä´Î£¬¹Å¼®ÎÄ±¾ÖÐ´æÔÚ×Å¸÷ÖÖÒìÌå×Ö¡¢Ë××ÖºÍÈ±Ê§×ÖµÈ£¬ÕâÐ©ÎÊÌâ¶ÔÓÚÃüÃûÊµÌåµÄ×¼È·Ê¶±ð´øÀ´ÁËÌôÕ½¡£´ËÍâ£¬¹Å¼®ÎÄÏ×ÖÐµÄÈËÃû¡¢µØÃû³£³£¾ßÓÐ¶àÒåÐÔºÍÉÏÏÂÎÄÒÀÀµÐÔ£¬ÈçºÎ×¼È·Çø·Ö²»Í¬µÄÃüÃûÊµÌå£¬ÓÈÆäÊÇÔÚÉÏÏÂÎÄÐÅÏ¢ÓÐÏÞµÄÇé¿öÏÂ£¬Ò²ÊÇÒ»¸öÐèÒª½â¾öµÄÎÊÌâ¡£»ùÓÚÉÏÊöÎÊÌâ£¬±¾ÕÂÖ¼ÔÚÌ½Ë÷»ùÓÚTransformerÄ£ÐÍµÄNER·½·¨ÔÚ¹Å¼®ÃüÃûÊµÌåÊ¶±ðÖÐµÄÓ¦ÓÃ£¬ÀûÓÃTransformerÄ£ÐÍÌáÉý¹Å¼®ÎÄÏ×µÄNERÐÔÄÜ¡£

3£®3»ùÓÚ·Ö²ãTransformerÄ£ÐÍµÄNER
3£®3£®1ÒýÑÔ

NLPµÄ¸ù±¾Ä¿±êÖ®Ò»ÊÇ¿ª·¢ÄÜ¹»Àí½âÈËÀàÓïÑÔËù±í´ïµÄÇ±ÔÚÓïÒåÏµÍ³¡£ÊµÏÖÕâÒ»Ä¿±êµÄÒ»¸öÖØÒª²½ÖèÊÇÄÜ¹»ÓÐÐ§µØÌáÈ¡ÓÐÓÃµÄÓïÒåÐÅÏ¢£¬ÀýÈç£¬´Ó¸ø¶¨µÄÎÄ±¾ÖÐÊ¶±ð³öÃüÃûÊµÌåµÄ±ß½çÒÔ¼°ÃüÃûÊµÌåµÄÀàÐÍ£¬Ò²¾ÍÊÇNER£¬ËüÊÇÐÅÏ¢³éÈ¡ÖÐµÄ±ê×¼ÈÎÎñÖ®Ò»¡£

ÔÚ´ó¹æÄ£µØÓ¦ÓÃÉî¶ÈÑ§Ï°Ö®Ç°£¬NER·½·¨Ö÷ÒªÒÔ»ùÓÚ´ÊµäºÍ¹æÔòµÄ·½·¨¡¢´«Í³»úÆ÷Ñ§Ï°µÄ·½·¨ÎªÖ÷£¬Ê¶±ð×¼È·ÂÊÔÚ»ºÂýÌáÉý£¬µ«Ò»Ö±ÎÞ·¨È¡µÃÀíÏëÐ§¹û¡£Éî¶ÈÑ§Ï°µÄÒýÈëºÍ·¢Õ¹Ê¹NERÈÎÎñµÄ×¼È·ÂÊµÃµ½ÁËºÜ´óµÄÌá¸ß¡£¿ª·¢ÄÜ¹»¸ßÐ§Ê¶±ðÇ¶Ì×ÃüÃûÊµÌåµÄËã·¨¶ÔÓÚÐí¶àNLPÏÂÓÎÈÎÎñµÄÖ´ÐÐÖÁ¹ØÖØÒª£¬¶øÇÒ¾ßÓÐÒ»¶¨µÄÊµ¼ÊÓ¦ÓÃ¼ÛÖµ£¬ÈçRE¡¢EE¡¢¹²²Î·Ö½â¡¢ÖªÊ¶¿âÎÊ´ð¡¢ÐÅÏ¢¼ìË÷ºÍÓïÒå½âÎöµÈ¡£È»¶ø£¬Ç¶Ì×ÃüÃûÊµÌå½á¹¹ÊÇ¸´ÔÓ¶à±äµÄ£¬Ç¶Ì×¿ÅÁ£¶ÈÓëÇ¶Ì×²ãÊýÈ±·¦¹æÂÉÐÔ£¬ÈçºÎ¿ìËÙ¸ßÐ§µØ´Ó¿ª·ÅÁìÓòµÄÎÄ±¾ÖÐ×¼È·»ñÈ¡Ç¶Ì×ÃüÃûÊµÌå½á¹¹ÐÅÏ¢£¬Ê¹µÃÓïÒåÀí½â¸ü¼Ó¾«×¼£¬ÊÇNLP½øÈëÈ«Ãæ»¯Ó¦ÓÃµÄ¹Ø¼ü¡£

ÔçÆÚ£¬ÈËÃÇ³£½áºÏ»ùÓÚ¹æÔòºÍ»ùÓÚ»úÆ÷Ñ§Ï°µÄ·½·¨À´´¦ÀíÇ¶Ì×ÃüÃûÊµÌå¡£ÎÄÏ×Ê×ÏÈÊ¹ÓÃÒþÂí¶û¿É·òÄ£ÐÍÊ¶±ð×îÄÚ²ãµÄ·ÇÇ¶Ì×ÃüÃûÊµÌå£¬Æä´ÎÊ¹ÓÃ»ùÓÚ¹æÔòµÄºó´¦ÀíÀ´Ê¶±ðÍâ²¿ÃüÃûÊµÌå£¬×îºóÔÚGENIAÊý¾Ý¼¯ÉÏÆÀ¹À¡£AlexµÈÈËÓÚ2017ÄêÌá³öÁË¼¸ÖÖ»ùÓÚCRFµÄ¼¼Êõ£¬ÓÃÓÚ¶ÔGENIAÊý¾Ý¼¯½øÐÐÇ¶Ì×NER¡£¸Ã·½·¨ÒÔÌØ¶¨µÄË³Ðò¶ÔÊµÌåÀàÐÍÓ¦ÓÃCRF£¬ÕâÑùÃ¿¸öCRF¶¼ÄÜÀûÓÃÇ°ÃæCRFµÄÊä³ö£¬²ÉÓÃÕâÖÖ¼¶Áª·½·¨¿ÉÒÔÈ¡µÃ×î¼ÑÇ¶Ì×NER½á¹û¡£2009Äê£¬FinkelºÍManning´Ó½âÎöµÄ½Ç¶ÈÀ´ÊµÏÖÇ¶Ì×NERÈÎÎñ£¬Í¨¹ý¹¹½¨Ñ¡ÇøÊ÷£¬½«ÃüÃûÊµÌåÓ³Éäµ½Ê÷ÖÐµÄ½ÚµãÉÏ¡£

3£®3£®2ÊµÏÖÔ­ÀíÓë²½Öè

»ùÓÚ·Ö²ãTransformerÄ£ÐÍµÄNERµÄÊµÏÖÔ­ÀíÖ÷ÒªÉæ¼°Á½·½Ãæ£¬·Ö±ðÊÇ·Ö²ãTransformerÄ£ÐÍºÍ±ê×¢Êý¾ÝµÄÔ¤´¦Àí¡£

1) ·Ö²ãTransformerÄ£ÐÍ

·Ö²ãTransformerÄ£ÐÍÊÇÒ»ÖÖ»ùÓÚTransformerµÄÄ£ÐÍ¼Ü¹¹£¬ÓÃÓÚ´¦ÀíNLPÈÎÎñ¡£ËüÓÉ¶à²ãTransformer±àÂëÆ÷ºÍ½âÂëÆ÷×é³É£¬ÆäÖÐ±àÂëÆ÷¸ºÔð½«ÊäÈëÎÄ±¾±íÊ¾ÎªÉÏÏÂÎÄÓÐ¹ØµÄÏòÁ¿±íÊ¾£¬½âÂëÆ÷¸ºÔðÉú³ÉÊä³ö½á¹û¡£

ÔÚNERÈÎÎñÖÐ£¬ÊäÈëÊÇÒ»¸ö¾ä×Ó£¬Ä¿±êÊÇÊ¶±ð³ö¾ä×ÓÖÐµÄÃüÃûÊµÌå£¬ÈçÈËÃû¡¢µØÃû¡¢×éÖ¯»ú¹¹µÈ¡£ÎªÁËÊµÏÖÕâÒ»Ä¿±ê£¬·Ö²ãTransformerÄ£ÐÍÊ×ÏÈ½«ÊäÈë¾ä×ÓµÄÃ¿¸öµ¥´Ê×ª»»ÎªÆä¶ÔÓ¦µÄ´ÊÏòÁ¿¡£È»ºó£¬Í¨¹ý¶à¸ö±àÂëÆ÷²ã£¬Öð²½½«ÊäÈë¾ä×ÓµÄÉÏÏÂÎÄÐÅÏ¢±àÂëµ½´ÊÏòÁ¿ÖÐ¡£Ã¿¸ö±àÂëÆ÷²ã°üÀ¨¶àÍ·×Ô×¢ÒâÁ¦»úÖÆºÍÇ°À¡Éñ¾­ÍøÂç²ã¡£¶àÍ·×Ô×¢ÒâÁ¦»úÖÆ¿ÉÒÔ²¶»ñµ¥´ÊÖ®¼äµÄÒÀÀµ¹ØÏµ£¬Ç°À¡Éñ¾­ÍøÂç²ãÓÃÓÚ¶Ô´ÊÏòÁ¿½øÐÐ·ÇÏßÐÔ±ä»»¡£Í¨¹ý¶à¸ö±àÂëÆ÷²ãµÄ¶Ñµþ£¬Ä£ÐÍ¿ÉÒÔÖð½¥ÌáÈ¡¾ä×ÓÖÐµÄÉÏÏÂÎÄÐÅÏ¢¡£

ÔÚ±àÂëÆ÷µÄÊä³öÉÏ£¬¿ÉÒÔÓ¦ÓÃCRF²ãÀ´¶ÔÃ¿¸öµ¥´Ê½øÐÐ±êÇ©Ô¤²â¡£CRF²ã¿¼ÂÇÁËÏàÁÚµ¥´ÊÖ®¼äµÄ±êÇ©ÒÀÀµ¹ØÏµ£¬¿ÉÒÔÌá¸ßÄ£ÐÍÔÚÃüÃûÊµÌå±ß½çµÄ×¼È·ÐÔ¡£×îÖÕ£¬Ä£ÐÍ»áÊä³öÃ¿¸öµ¥´ÊµÄÃüÃûÊµÌå±êÇ©¡£

2) ±ê×¢Êý¾ÝµÄÔ¤´¦Àí

ÔÚÑµÁ··Ö²ãTransformerÄ£ÐÍÖ®Ç°£¬ÐèÒª¶Ô±ê×¢Êý¾Ý½øÐÐÔ¤´¦Àí¡£Í¨³££¬±ê×¢Êý¾ÝÓÉ¾ä×ÓºÍÃ¿¸öµ¥´Ê¶ÔÓ¦µÄÃüÃûÊµÌå±êÇ©×é³É¡£Ô¤´¦Àí°üÀ¨½«¾ä×Ó×ª»»Îª´ÊÏòÁ¿±íÊ¾ÒÔ¼°½«ÃüÃûÊµÌå±êÇ©×ª»»ÎªÄ£ÐÍ¿É½ÓÊÜµÄÐÎÊ½¡£¾ä×ÓµÄ×ª»»¿ÉÒÔÊ¹ÓÃÔ¤ÑµÁ·µÄ´ÊÏòÁ¿Ä£ÐÍ£¬ÀýÈçWord2Vec»òGloVe£¬½«Ã¿¸öµ¥´ÊÓ³ÉäÎª´ÊÏòÁ¿¡£ÕâÐ©´ÊÏòÁ¿¿ÉÒÔÔÚ·Ö²ãTransformerÄ£ÐÍµÄÊäÈë²ãÊ¹ÓÃ¡£ÃüÃûÊµÌå±êÇ©µÄ×ª»»Í¨³£²ÉÓÃBIO(Begin£¬Inside£¬Outside)»òÕßBIOES(Begin£¬Inside£¬Outside£¬End£¬Single)¸ñÊ½¡£BIOºÍBIOESÊÇ³£ÓÃµÄÃüÃûÊµÌå±êÇ©±àÂë·½°¸£¬ÓÃÓÚ±íÊ¾ÃüÃûÊµÌåµÄ¿ªÊ¼¡¢ÄÚ²¿¡¢½áÊøºÍµ¥¶ÀµÄ×´Ì¬¡£Í¨¹ýÔ¤´¦Àí±ê×¢Êý¾Ý£¬¿ÉÒÔ½«Æä×ª»»ÎªÄ£ÐÍ¿É½ÓÊÜµÄÊäÈëÐÎÊ½£¬´Ó¶øÑµÁ··Ö²ãTransformerÄ£ÐÍ½øÐÐNER¡£

×ÜÖ®£¬»ùÓÚ·Ö²ãTransformerµÄNERµÄÊµÏÖÔ­Àí°üÀ¨·Ö²ãTransformerÄ£ÐÍµÄ¼Ü¹¹ºÍ±ê×¢Êý¾ÝµÄÔ¤´¦Àí¡£ÕâÐ©¼¼Êõ¿ÉÒÔ°ïÖúÄ£ÐÍ´ÓÊäÈë¾ä×ÓÖÐÌáÈ¡ÉÏÏÂÎÄÐÅÏ¢£¬²¢Ô¤²âÃ¿¸öµ¥´ÊµÄÃüÃûÊµÌå±êÇ©¡£Ê¹ÓÃ·Ö²ãTransformerÄ£ÐÍ½øÐÐNER£¬²½ÖèÈçÏÂ¡£

(1) Êý¾Ý×¼±¸¡£

ÊÕ¼¯»ò×¼±¸Ò»¸öNER±ê×¢Êý¾Ý¼¯£¬ÆäÖÐ°üº¬¾ä×ÓºÍÃ¿¸öµ¥´Ê¶ÔÓ¦µÄ±êÇ©(ÈçÈËÃû¡¢µØÃû¡¢×éÖ¯»ú¹¹µÈ)¡£²¢½«±ê×¢Êý¾Ý¼¯»®·ÖÎªÑµÁ·¼¯¡¢ÑéÖ¤¼¯ºÍ²âÊÔ¼¯¡£

(2) Ä£ÐÍ¹¹½¨¡£

Ñ¡ÔñÒ»¸öÊÊºÏµÄ·Ö²ãTransformerÄ£ÐÍ£¬ÈçBERT»òGPT(Generative Preª²trained Transformer£¬Éú³ÉÊ½Ô¤ÑµÁ·±ä»»Æ÷)¡£¸ù¾ÝÈÎÎñÐèÇó£¬¿ÉÒÔÑ¡ÔñÔÚÔ¤ÑµÁ·µÄÄ£ÐÍÉÏ½øÐÐÎ¢µ÷(fineª²tuning)£¬»ò´ÓÍ·¿ªÊ¼ÑµÁ·¡£ÔÚÄ£ÐÍÖÐÌí¼ÓÊÊµ±µÄ²ãºÍ²ÎÊý£¬ÒÔÊä³öÃ¿¸öµ¥´ÊµÄÃüÃûÊµÌå±êÇ©¡£

(3) ÊäÈëÊý¾Ý´¦Àí¡£

½«¾ä×Ó×ª»»Îª´ÊÏòÁ¿±íÊ¾£¬¿ÉÒÔÊ¹ÓÃÔ¤ÑµÁ·µÄ´ÊÏòÁ¿Ä£ÐÍ£¬ÈçWord2Vec»òGloVe£¬½«Ã¿¸öµ¥´ÊÓ³ÉäÎª´ÊÏòÁ¿¡£½«±êÇ©×ª»»ÎªÄ£ÐÍ¿É½ÓÊÜµÄÐÎÊ½£¬Í¨³£Ê¹ÓÃBIO»òBIOES±àÂë·½°¸¡£

(4) Ä£ÐÍÑµÁ·¡£

Ê¹ÓÃÑµÁ·¼¯½øÐÐÄ£ÐÍµÄÑµÁ·¡£½«ÊäÈëÊý¾Ý(´ÊÏòÁ¿±íÊ¾)ºÍ±êÇ©ÊäÈëÄ£ÐÍÖÐ£¬¼ÆËãÔ¤²â½á¹û£¬²¢ÓëÕæÊµ±êÇ©½øÐÐ±È½Ï£¬¼ÆËãËðÊ§º¯Êý¡£¸ù¾ÝËðÊ§º¯ÊýµÄ·´Ïò´«²¥Ëã·¨£¬¸üÐÂÄ£ÐÍµÄ²ÎÊý£¬ÒÔ¼õÐ¡Ô¤²â½á¹ûÓëÕæÊµ±êÇ©Ö®¼äµÄ²î¾à¡£ÖØ¸´µü´úÑµÁ·¹ý³Ì£¬Ö±µ½Ä£ÐÍÊÕÁ²»ò´ïµ½Ö¸¶¨µÄÑµÁ·ÂÖÊý¡£

(5) Ä£ÐÍÆÀ¹À¡£

Ê¹ÓÃÑéÖ¤¼¯¶ÔÄ£ÐÍ½øÐÐÆÀ¹À£¬¼ÆËã×¼È·ÂÊ¡¢ÕÙ»ØÂÊ¡¢F1ÆÀ·ÖµÈÖ¸±ê£¬ÒÔÆÀ¹ÀÄ£ÐÍµÄÐÔÄÜ¡£¸ù¾ÝÆÀ¹À½á¹û£¬¿ÉÒÔ¶ÔÄ£ÐÍ½øÐÐµ÷ÕûºÍÓÅ»¯¡£

(6) Ä£ÐÍÓ¦ÓÃ¡£

Ê¹ÓÃ²âÊÔ¼¯¶ÔÄ£ÐÍ½øÐÐ×îÖÕÆÀ¹À£¬ÆÀ¹ÀÄ£ÐÍÔÚÎ´Ê¹ÓÃ¹ýµÄÊý¾Ý¼¯ÉÏµÄÐÔÄÜ¡£½«ÑµÁ·ºÃµÄÄ£ÐÍ²¿Êðµ½Êµ¼ÊÓ¦ÓÃÖÐ£¬¶ÔÐÂµÄÎÄ±¾½øÐÐNER¡£ÐèÒª×¢ÒâµÄÊÇ£¬ÔÚÊµ¼ÊÓ¦ÓÃÖÐ£¬¿ÉÒÔ¸ù¾Ý¾ßÌåÐèÇó¶ÔÄ£ÐÍ½øÐÐµ÷ÕûºÍÓÅ»¯£¬ÀýÈçÔö¼ÓÕýÔò»¯¡¢Ä£ÐÍÈÚºÏ¡¢ºó´¦ÀíµÈ¼¼Êõ£¬ÒÔÌá¸ßNERµÄÐÔÄÜ¡£

3£®3£®3»ù±¾½á¹¹ÓëÑµÁ··½·¨
1£® »ù±¾½á¹¹

Ç¶Ì×NER¿ò¼ÜÈçÍ¼3£®1ËùÊ¾£¬¸Ã¿ò¼ÜÖ÷Òª°üº¬5²¿·ÖÄÚÈÝ¡£

(1) »ñÈ¡ÓÐ±êÇ©Êý¾Ý¼¯£º ÈË¹¤±ê×¢»ñÈ¡ÓÐ±êÇ©Ç¶Ì×ÃüÃûµÄÊµÌåÊý¾Ý¼¯¡£³£¼ûµÄ±ê×¢·½·¨ÈçÏÂ¡£

¢Ù BIO±ê×¢·¨£¬ÆäÖÐB±íÊ¾¿ªÊ¼£¬I±íÊ¾ÄÚ²¿£¬O±íÊ¾Íâ²¿¡£

¢Ú BIOES±ê×¢·¨£¬¸Ã±ê×¢·½·¨ÊÇBIO±ê×¢·¨µÄÑÓÉì£¬ÆäÖÐE±íÊ¾½áÊø£¬S±íÊ¾µ¥¶À¹¹³ÉÒ»¸öÃüÃûÊµÌå¡£

(2) ¹¹½¨´ÊÓïÏòÁ¿±íÊ¾£º ¶ÔÔ­Ê¼µÄÊäÈë×Ö·ûÐòÁÐ½øÐÐ·Ö´Ê£¬½«·Ö´Ê±íÊ¾³É¼ÆËã»ú¿ÉÊ¶±ðµÄ¼ÆËãÀàÐÍ£¬ÔÚ¸÷¸öÎ»ÖÃÉÏÑ§Ï°Ò»¸öÎ»ÖÃÏòÁ¿±íÊ¾À´±àÂëÐòÁÐË³ÐòµÄÐÅÏ¢£¬»òÕßÔÚ±íÊ¾ÒÔÍâ¼ÓÈëÒ»Ð©´«Í³µÄÇ³²ãÓÐ¼à¶½Ä£ÐÍÖÐÊ¹ÓÃµÄÌØÕ÷¡£

(3) ½øÐÐÌØÕ÷ÌáÈ¡£º ¶Ô´ÊÏòÁ¿±íÊ¾½øÐÐÌØÕ÷±ä»»¡¢±àÂë£¬ÀýÈçÊ¹ÓÃµÝ¹éÉñ¾­ÍøÂç¡¢CNN¡¢TransformerµÈ½øÐÐ½¨Ä£ºÍÑ§Ï°¡£

(4) Ç¶Ì×NER£º ²ÉÓÃÒ»¶¨µÄÄ£ÐÍ¶Ô´ÊÓïÏòÁ¿±íÊ¾ºÍÌáÈ¡µÄÌØÕ÷½øÐÐÑµÁ·£¬µÃµ½Ç¶Ì×NERÔ¤ÑµÁ·Ä£ÐÍ¡£

(5) ÆÀ¹ÀÊ¶±ðÐÔÄÜ£º ¶ÔÊ¶±ð½á¹û½øÐÐÆÀ²â£¬ÆÀ²âÁ÷³Ì¼ûÍ¼3£®1¡£



Í¼3£®1ÆÀ²âÁ÷³Ì


·Ö²ãTransformerÄ£ÐÍÊÇÒ»ÖÖ»ùÓÚTransformerµÄÄ£ÐÍ¼Ü¹¹£¬ÓÃÓÚ´¦ÀíNLPÈÎÎñ¡£ËüÖ÷ÒªÓÉ¶à¸ö±àÂëÆ÷²ã×é³É£¬Ã¿¸ö±àÂëÆ÷²ãÓÉ¶àÍ·×Ô×¢ÒâÁ¦»úÖÆºÍÇ°À¡Éñ¾­ÍøÂç²ã×é³É¡£ÒÔÏÂÊÇ·Ö²ãTransformerÄ£ÐÍµÄ»ù±¾½á¹¹¡£

(1) ÊäÈëÇ¶Èë²ã(Input Embedding Layer)¡£

½«ÊäÈëµÄÎÄ±¾ÐòÁÐÖÐµÄÃ¿¸öµ¥´Ê×ª»»ÎªÆä¶ÔÓ¦µÄ´ÊÏòÁ¿±íÊ¾¡£¿ÉÒÔÊ¹ÓÃÔ¤ÑµÁ·µÄ´ÊÏòÁ¿Ä£ÐÍ£¬ÈçWord2Vec»òGloVe£¬»òÕßÔÚÄ£ÐÍÑµÁ·Ê±´ÓÍ·¿ªÊ¼Ñ§Ï°´ÊÏòÁ¿¡£

(2) ±àÂëÆ÷²ã(Encoder Layer)¡£

¶à¸ö±àÂëÆ÷²ãµÄ¶ÑµþÊÇ·Ö²ãTransformerÄ£ÐÍµÄºËÐÄ¡£Ã¿¸ö±àÂëÆ÷²ã¿ÉÒÔ¶ÀÁ¢µØ¶ÔÊäÈëÐòÁÐ½øÐÐ´¦Àí£¬²¢ÇÒÃ¿¸ö±àÂëÆ÷²ãµÄÊä³ö½«×÷ÎªÏÂÒ»¸ö±àÂëÆ÷²ãµÄÊäÈë¡£Ã¿¸ö±àÂëÆ÷²ã°üº¬Á½¸ö×Ó²ã£º ¶àÍ·×Ô×¢ÒâÁ¦»úÖÆ²ãºÍÇ°À¡Éñ¾­ÍøÂç²ã¡£

(3) ¶àÍ·×Ô×¢ÒâÁ¦»úÖÆ²ã(Multiª²Head Selfª²Attention Layer)¡£

ÔÚ¶àÍ·×Ô×¢ÒâÁ¦»úÖÆ²ãÖÐ£¬ÊäÈëÐòÁÐµÄÃ¿¸öµ¥´Ê¶¼»áÓëÆäËûµ¥´Ê½øÐÐ½»»¥£¬ÒÔ²¶×½µ¥´ÊÖ®¼äµÄÒÀÀµ¹ØÏµ¡£Í¨¹ýÊ¹ÓÃ¶à¸ö×¢ÒâÁ¦Í·£¬Ä£ÐÍ¿ÉÒÔÍ¬Ê±Ñ§Ï°¶à¸ö×¢ÒâÁ¦È¨ÖØ£¬ÒÔ²¶×½²»Í¬µÄÓïÒåÐÅÏ¢¡£×¢ÒâÁ¦È¨ÖØ¸æËßÄ£ÐÍÃ¿¸öµ¥´ÊÓëÆäËûµ¥´ÊµÄ¹ØÁª³Ì¶È¡£

(4) Ç°À¡Éñ¾­ÍøÂç²ã(Feedª²Forward Neural Network Layer)¡£

ÔÚÇ°À¡Éñ¾­ÍøÂç²ãÖÐ£¬Í¨¹ý¶Ô¶àÍ·×Ô×¢ÒâÁ¦»úÖÆµÄÊä³ö½øÐÐ·ÇÏßÐÔ±ä»»¡£Í¨³££¬Ç°À¡Éñ¾­ÍøÂç²ãÓÉÁ½¸öÈ«Á¬½Ó²ãºÍÒ»¸ö¼¤»îº¯Êý×é³É£¬ÓÃÓÚÒýÈë·ÇÏßÐÔ¡£

(5) Êä³ö²ã(Output Layer)¡£

ÔÚNERÈÎÎñÖÐ£¬¿ÉÒÔÔÚ±àÂëÆ÷µÄÊä³öÉÏÓ¦ÓÃCRF²ã¡£CRF²ã¿¼ÂÇÁËÏàÁÚµ¥´ÊÖ®¼äµÄ±êÇ©ÒÀÀµ¹ØÏµ£¬¿ÉÒÔÌá¸ßÄ£ÐÍÔÚÃüÃûÊµÌå±ß½çµÄ×¼È·ÐÔ¡£×îÖÕ£¬Ä£ÐÍ»áÊä³öÃ¿¸öµ¥´ÊµÄÃüÃûÊµÌå±êÇ©¡£Í¨¹ý¶à¸ö±àÂëÆ÷²ãµÄ¶Ñµþ£¬·Ö²ãTransformerÄ£ÐÍ¿ÉÒÔÖð½¥ÌáÈ¡ÊäÈëÐòÁÐµÄÉÏÏÂÎÄÐÅÏ¢£¬²¢Ô¤²âÃ¿¸öµ¥´ÊµÄÃüÃûÊµÌå±êÇ©¡£

ÐèÒª×¢ÒâµÄÊÇ£¬·Ö²ãTransformerÄ£ÐÍ¿ÉÒÔ¸ù¾Ý¾ßÌåÈÎÎñµÄÐèÇó½øÐÐµ÷ÕûºÍÀ©Õ¹¡£ÀýÈç£¬ÔÚNERÖÐ£¬¿ÉÒÔÔÚÄ£ÐÍÖÐÌí¼ÓCRF²ãÒÔ¿¼ÂÇ±êÇ©ÒÀÀµ¹ØÏµ£¬»òÕßÊ¹ÓÃÄ£ÐÍÈÚºÏµÈ¼¼ÊõÀ´Ìá¸ßÐÔÄÜ¡£

2£® ÑµÁ··½·¨

·Ö²ãTransformerµÄÑµÁ··½·¨Í¨³£²ÉÓÃÁ½¸ö½×¶Î£º Ô¤ÑµÁ·½×¼¶ºÍÎ¢µ÷½×¼¶¡£

(1) Ô¤ÑµÁ·½×¶Î¡£

ÔÚÔ¤ÑµÁ·½×¶Î£¬Ê¹ÓÃ´ó¹æÄ£µÄÎ´±ê×¢ÎÄ±¾Êý¾Ý¼¯¶Ô·Ö²ãTransformerÄ£ÐÍ½øÐÐÑµÁ·¡£Í¨³£Ê¹ÓÃ×Ô¼à¶½Ñ§Ï°µÄ·½·¨£¬ÈçÑÚÂëÓïÑÔ½¨Ä£(Masked Language Modeling£¬MLM)»òÔ¤²âÏÂÒ»¸ö¾ä×Ó(Next Sentence Prediction£¬NSP)À´ÑµÁ·Ä£ÐÍ¡£ÔÚMLMÈÎÎñÖÐ£¬Ò»²¿·ÖÊäÈëÎÄ±¾ÖÐµÄµ¥´Ê»á±»Ëæ»úÑÚÂë£¬Ä£ÐÍÐèÒªÔ¤²âÕâÐ©ÑÚÂëµ¥´ÊµÄÕýÈ·±êÇ©¡£ÔÚNSPÈÎÎñÖÐ£¬Ä£ÐÍÐèÒªÅÐ¶ÏÁ½¸ö¾ä×ÓÊÇ·ñÏàÁÚ£¬ÒÔ°ïÖúÄ£ÐÍÑ§Ï°¾ä×Ó¼¶±ðµÄ¹ØÏµ¡£

(2) Î¢µ÷½×¶Î¡£

ÔÚÔ¤ÑµÁ·Íê³Éºó£¬Ê¹ÓÃÓÐ±êÇ©µÄÈÎÎñÌØ¶¨Êý¾Ý¼¯¶ÔÄ£ÐÍ½øÐÐÎ¢µ÷£¬ÒÔÊÊÓ¦¾ßÌåµÄÈÎÎñ¡£ÔÚNERÈÎÎñÖÐ£¬¿ÉÒÔ×¼±¸Ò»¸öNER±ê×¢µÄÊý¾Ý¼¯£¬ÆäÖÐ°üº¬¾ä×ÓºÍÃ¿¸öµ¥´Ê¶ÔÓ¦µÄÃüÃûÊµÌå±êÇ©¡£½«NERÊý¾Ý¼¯ÊäÈëÄ£ÐÍÖÐ£¬¼ÆËãÔ¤²â½á¹û£¬²¢ÓëÕæÊµ±êÇ©½øÐÐ±È½Ï£¬¼ÆËãËðÊ§º¯Êý¡£¸ù¾ÝËðÊ§º¯ÊýµÄ·´Ïò´«²¥Ëã·¨À´¸üÐÂÄ£ÐÍµÄ²ÎÊý£¬ÒÔ¼õÐ¡Ô¤²â½á¹ûÓëÕæÊµ±êÇ©Ö®¼äµÄ²î¾à¡£ÖØ¸´µü´úÑµÁ·¹ý³Ì£¬Ö±µ½Ä£ÐÍÊÕÁ²»ò´ïµ½Ö¸¶¨µÄÑµÁ·ÂÖÊý¡£ÔÚÎ¢µ÷½×¶Î£¬¿É²ÉÓÃÏÂÊö²ßÂÔÀ´½øÒ»²½ÓÅ»¯Ä£ÐÍÐÔÄÜ¡£

¢Ù Ñ§Ï°ÂÊµ÷Õû£º ¿ÉÒÔÊ¹ÓÃÑ§Ï°ÂÊË¥¼õ²ßÂÔ£¬ÈçÖð½¥¼õÐ¡Ñ§Ï°ÂÊ»òÔÚÑµÁ·¹ý³ÌÖÐ½øÐÐÑ§Ï°ÂÊµÄ¶¯Ì¬µ÷Õû¡£

¢Ú ÕýÔò»¯£º ¿ÉÒÔÊ¹ÓÃÕýÔò»¯¼¼Êõ£¬ÈçÈ¨ÖØË¥¼õ(Weight Decay)»òËæ»úÉ¾³ýÉñ¾­Ôª£¨Dropout£©£¬ÒÔ·ÀÖ¹¹ýÄâºÏ¡£

¢Û Ä£ÐÍÈÚºÏ£º ¿ÉÒÔ½«¶à¸öÑµÁ·ºÃµÄÄ£ÐÍ½øÐÐÈÚºÏ£¬ÈçÊ¹ÓÃ¼¯³ÉÑ§Ï°·½·¨»òÄ£ÐÍ¶Ñµþ·½·¨£¬ÒÔÌá¸ß·º»¯ÄÜÁ¦¡£ÐèÒª×¢ÒâµÄÊÇ£¬·Ö²ãTransformerµÄÔ¤ÑµÁ·ºÍÎ¢µ÷·½·¨¿ÉÒÔ¸ù¾Ý¾ßÌåµÄÈÎÎñÐèÇó½øÐÐµ÷ÕûºÍÓÅ»¯¡£´ËÍâ£¬²ÉÓÃ¸ü´ó¹æÄ£µÄÔ¤ÑµÁ·Êý¾Ý¼¯ºÍ¸ü¸´ÔÓµÄÑµÁ·²ßÂÔÍ¨³£¿ÉÒÔÌá¸ßÄ£ÐÍµÄÐÔÄÜ¡£

3£®  Ô¤ÑµÁ·Ä£ÐÍ

·Ö²ãTransformerÄ£ÐÍµÄÔ¤ÑµÁ·Ä£ÐÍÓÐÐí¶à£¬ÆäÖÐÒ»Ð©×îÎªÖªÃûºÍ³£ÓÃµÄÔ¤ÑµÁ·Ä£ÐÍ°üÀ¨ÒÔÏÂ¼¸ÖÖ¡£

(1) BERT¡£

BERTÊÇÒ»ÖÖ»ùÓÚTransformer¼Ü¹¹µÄÔ¤ÑµÁ·Ä£ÐÍ£¬Í¨¹ýMLMºÍNSPµÄÈÎÎñÀ´½øÐÐÑµÁ·¡£BERTÄ£ÐÍÔÚ¶àÖÖNLPÈÎÎñÉÏÈ¡µÃÁËÏÔÖøµÄÐÔÄÜÌáÉý£¬²¢¹ã·ºÓ¦ÓÃÓÚÎÄ±¾·ÖÀà¡¢NERµÈÈÎÎñÖÐ¡£

(2) GPT¡£

GPTÊÇÒ»ÖÖ»ùÓÚTransformer¼Ü¹¹µÄÔ¤ÑµÁ·Ä£ÐÍ£¬Í¨¹ýÓïÑÔÄ£ÐÍÈÎÎñ½øÐÐÑµÁ·¡£GPTÄ£ÐÍÊ¹ÓÃ×Ô»Ø¹éµÄ·½Ê½Éú³ÉÏÂÒ»¸öµ¥´Ê£¬ÒÔ²¶×½¾ä×ÓÖÐµÄÉÏÏÂÎÄ¹ØÏµ£¬²¢ÄÜ¹»Éú³ÉÁ¬¹áµÄ¾ä×Ó¡£

(3) RoBERTa¡£

RoBERTaÊÇÔÚBERTÄ£ÐÍµÄ»ù´¡ÉÏ½øÐÐ¸Ä½øºÍÓÅ»¯µÄÔ¤ÑµÁ·Ä£ÐÍ¡£RoBERTa²ÉÓÃ¸ü´óµÄÄ£ÐÍ¹æÄ£ºÍ¸ü³¤µÄÔ¤ÑµÁ·²½Öè£¬ÒÔ»ñµÃ¸üºÃµÄÐÔÄÜ±íÏÖ¡£

(4) ALBERT¡£

ALBERTÊÇ¶ÔBERTÄ£ÐÍ½øÐÐ¸Ä½ø£¬ÒÔ¼õÐ¡Ä£ÐÍ¹æÄ£ºÍ²ÎÊýÊýÁ¿µÄÔ¤ÑµÁ·Ä£ÐÍ¡£ALBERTÍ¨¹ý¹²Ïí²ÎÊýºÍ·Ö½â²ÎÊý¾ØÕóµÈ¼¼Êõ£¬ÊµÏÖÄ£ÐÍÇáÁ¿»¯£¬Ìá¸ßÁËÑµÁ·ºÍÍÆ¶ÏµÄÐ§ÂÊ¡£

³ýÁËÒÔÉÏÁÐ¾ÙµÄÄ£ÐÍ£¬»¹ÓÐÐí¶àÆäËûµÄ·Ö²ãTransformerÔ¤ÑµÁ·Ä£ÐÍ£¬ÈçXLNet¡¢T5¡¢ELECTRAµÈ¡£ÕâÐ©Ä£ÐÍÔÚ²»Í¬µÄÈÎÎñºÍÊý¾Ý¼¯ÉÏ±íÏÖ³öÉ«£¬¾ßÓÐ²»Í¬µÄÓÅÊÆºÍÌØµã¡£ÐèÒª¸ù¾Ý¾ßÌåµÄÈÎÎñÐèÇó¡¢Êý¾Ý¼¯ºÍ¼ÆËã×ÊÔ´µÈÒòËØÑ¡ÔñÊÊºÏµÄÔ¤ÑµÁ·Ä£ÐÍ£¬²¢½áºÏÎ¢µ÷ºÍÓÅ»¯¼¼ÊõÀ´½øÒ»²½Ìá¸ßÄ£ÐÍµÄÐÔÄÜ¡£

4£®  ËðÊ§º¯Êý

·Ö²ãTransformerÄ£ÐÍµÄËðÊ§º¯Êý¿ÉÒÔ¸ù¾Ý¾ßÌåÈÎÎñ½øÐÐÑ¡Ôñ¡£ÒÔÏÂÊÇ¼¸ÖÖ³£¼ûµÄËðÊ§º¯ÊýÊ¾Àý¡£

(1) MLM¡£

ÔÚÔ¤ÑµÁ·½×¶Î£¬·Ö²ãTransformerÄ£ÐÍÍ¨³£Ê¹ÓÃMLMÈÎÎñ½øÐÐÑµÁ·¡£ÔÚ¸ÃÈÎÎñÖÐ£¬ÊäÈëÎÄ±¾ÖÐµÄÒ»²¿·Öµ¥´Ê»á±»Ëæ»úÑÚÂë£¬Ä£ÐÍÐèÒªÔ¤²âÕâÐ©ÑÚÂëµ¥´ÊµÄÕýÈ·±êÇ©¡£Í¨³££¬²ÉÓÃ½»²æìØËðÊ§º¯ÊýÀ´¼ÆËãÄ£ÐÍÔ¤²â½á¹ûÓëÕæÊµ±êÇ©Ö®¼äµÄ²îÒì¡£

(2) NSP¡£

ÔÚÔ¤ÑµÁ·½×¶Î£¬·Ö²ãTransformerÄ£ÐÍ»¹¿ÉÒÔÍ¨¹ýÊ¹ÓÃÔ¤²âÏÂÒ»¸ö¾ä×ÓµÄ·½Ê½À´½øÐÐÑµÁ·¡£ÔÚ¸ÃÈÎÎñÖÐ£¬Ä£ÐÍÐèÒªÔ¤²âÁ½¸ö¾ä×ÓÊÇ·ñÊÇÏàÁÚµÄ¡£Í¨³££¬²ÉÓÃ¶þÔª½»²æìØËðÊ§º¯ÊýÀ´¼ÆËãÄ£ÐÍÔ¤²âµÄ¸ÅÂÊ·Ö²¼ÓëÕæÊµ±êÇ©¸ÅÂÊ·Ö²¼Ö®¼äµÄ²îÒì£¬¾ßÌåÀ´Ëµ£¬¼´¼ÆËãÏàÁÚ»ò²»ÏàÁÚ¾ä×ÓµÄÄ£ÐÍÔ¤²â¸ÅÂÊÓëÕæÊµ±êÇ©Ö®¼äµÄ²îÒì¡£

(3) NER¡£

ÔÚÎ¢µ÷½×¶Î£¬Õë¶ÔNERÈÎÎñ£¬³£ÓÃµÄËðÊ§º¯ÊýÊÇÐòÁÐ±ê×¢ÈÎÎñÖÐµÄ½»²æìØËðÊ§º¯Êý¡£Ä£ÐÍ½«¸ù¾ÝÊäÈë¾ä×Ó¶ÔÃ¿¸öµ¥´Ê½øÐÐÃüÃûÊµÌå±êÇ©µÄÔ¤²â£¬²¢ÓëÕæÊµ±êÇ©½øÐÐ±È½Ï¡£½»²æìØËðÊ§º¯Êý¿É¶ÈÁ¿Ä£ÐÍÔ¤²â½á¹ûÓëÕæÊµ±êÇ©Ö®¼äµÄ²îÒì£¬ÒÔ±ãÍ¨¹ý·´Ïò´«²¥Ëã·¨À´¸üÐÂÄ£ÐÍ²ÎÊý¡£

³ýÉÏÊöÊ¾ÀýËðÊ§º¯ÊýÍâ£¬»¹¿ÉÒÔ¸ù¾Ý¾ßÌåÈÎÎñµÄÌØµãºÍÐèÇó¶¨ÒåÆäËûÊÊºÏµÄËðÊ§º¯Êý¡£ÀýÈç£¬ÔÚ»úÆ÷·­ÒëÈÎÎñÖÐ£¬¿ÉÒÔÊ¹ÓÃÐòÁÐ¼¶±ðµÄ½»²æìØËðÊ§º¯ÊýÀ´¼ÆËãÔ¤²â½á¹ûÓëÄ¿±êÐòÁÐÖ®¼äµÄ²îÒì¡£ÐèÒª¸ù¾Ý¾ßÌåÈÎÎñµÄÌØµãÑ¡ÔñºÏÊÊµÄËðÊ§º¯Êý£¬²¢½áºÏÆäËûÓÅ»¯¼¼ÊõÀ´½øÒ»²½Ìá¸ß·Ö²ãTransformerÄ£ÐÍµÄÐÔÄÜºÍ·º»¯ÄÜÁ¦¡£

5£®  ÆÀ¹ÀÖ¸±ê

ÆÀ¹À·Ö²ãTransformerÄ£ÐÍµÄÐÔÄÜÊ±£¬¿ÉÒÔÊ¹ÓÃ¶àÖÖÖ¸±êÀ´ºâÁ¿ÆäÔÚ²»Í¬ÈÎÎñÉÏµÄ±íÏÖ¡£ÒÔÏÂÊÇÒ»Ð©³£ÓÃµÄÆÀ¹ÀÖ¸±êÊ¾Àý¡£

(1) ×¼È·ÂÊ(Accuracy)¡£×¼È·ÂÊÊÇ×î³£¼ûµÄÆÀ¹ÀÖ¸±ê£¬ÓÃÓÚÆÀ¹À·ÖÀàÈÎÎñµÄÐÔÄÜ¡£Ëü±íÊ¾ÕýÈ··ÖÀàÄ£ÐÍÔÚËùÓÐÑù±¾ÖÐµÄ±ÈÀý¡£

(2) ¾«È·ÂÊ(Precision)ºÍÕÙ»ØÂÊ(Recall)¡£¾«È·ÂÊºÍÕÙ»ØÂÊÍ¨³£Ò»ÆðÊ¹ÓÃ£¬ÓÃÓÚÆÀ¹À¶þ·ÖÀàºÍ¶à·ÖÀàÈÎÎñÖÐµÄÄ£ÐÍÐÔÄÜ¡£¾«È·ÂÊºâÁ¿Ä£ÐÍÔ¤²âÎªÕýÀà±ðµÄÑù±¾ÖÐ£¬Êµ¼ÊÎªÕýÀà±ðµÄ±ÈÀý¡£ÕÙ»ØÂÊºâÁ¿Êµ¼ÊÎªÕýÀà±ðµÄÑù±¾ÖÐ£¬Ä£ÐÍÔ¤²âÎªÕýÀà±ðµÄ±ÈÀý¡£

(3) F1ÆÀ·Ö(F1ª²Score)¡£F1ÆÀ·Ö×ÛºÏÁË¾«È·ÂÊºÍÕÙ»ØÂÊ£¬ÓÃÓÚÆÀ¹À¶þ·ÖÀàºÍ¶à·ÖÀàÈÎÎñÖÐµÄÄ£ÐÍÐÔÄÜ¡£F1ÆÀ·ÖÊÇ¾«È·ÂÊºÍÕÙ»ØÂÊµÄµ÷ºÍÆ½¾ùÖµ£¬ÄÜ¹»×ÛºÏ¿¼ÂÇÄ£ÐÍµÄÔ¤²â×¼È·ÐÔºÍ¶ÔÕýÀýµÄÕÙ»ØÄÜÁ¦¡£

(4) ¾ù·½Îó²î(Mean Squared Error£¬MSE)¡£MSE³£ÓÃÓÚ»Ø¹éÈÎÎñÖÐ£¬ÓÃÓÚÆÀ¹ÀÄ£ÐÍÔ¤²â½á¹ûÓëÕæÊµÖµÖ®¼äµÄ²îÒì¡£Ëü¼ÆËãÔ¤²âÖµÓëÕæÊµÖµÖ®¼ä²îÒìµÄÆ½·½µÄÆ½¾ùÖµ¡£

(5) ¶ÔÊýËðÊ§(Log Loss)¡£¶ÔÊýËðÊ§³£ÓÃÓÚ¸ÅÂÊÔ¤²âÈÎÎñÖÐ£¬ÓÃÓÚºâÁ¿Ä£ÐÍ¶Ô¸ÅÂÊ·Ö²¼µÄÔ¤²â×¼È·ÐÔ¡£Ëü¶ÈÁ¿Ä£ÐÍÔ¤²â½á¹ûÓëÕæÊµ½á¹ûÖ®¼äµÄ²îÒìµÄÆ½¾ù¶ÔÊý¸ÅÂÊ¡£

(6) ÌØ¶¨ÓÚÈÎÎñµÄÆÀ¹ÀÖ¸±ê¡£ÔÚÒ»Ð©ÌØ¶¨µÄÈÎÎñÖÐ£¬¿ÉÄÜ»¹»áÊ¹ÓÃÈÎÎñÌØ¶¨µÄÆÀ¹ÀÖ¸±ê¡£ÀýÈç£¬ÔÚNERÈÎÎñÖÐ£¬¿ÉÒÔÊ¹ÓÃ±êÇ©¼¶±ðµÄ¾«È·ÂÊ¡¢ÕÙ»ØÂÊºÍF1ÆÀ·ÖÀ´ÆÀ¹ÀÄ£ÐÍ¶ÔÃüÃûÊµÌåµÄÊ¶±ðÄÜÁ¦¡£ÔÚÆÀ¹À·Ö²ãTransformerÄ£ÐÍÐÔÄÜÊ±£¬Ó¦¸ù¾ÝÈÎÎñÀàÐÍºÍÐèÇóÑ¡ÔñºÏÊÊµÄÆÀ¹ÀÖ¸±ê¡£Í¬Ê±£¬½»²æÑéÖ¤ºÍ¶Ô±ÈÊµÑéµÈ·½·¨ÓÐÖúÓÚ¸üÈ«ÃæºÍ×¼È·µØÆÀ¹ÀÄ£ÐÍÔÚ¸÷ÏîÖ¸±êÉÏµÄÐÔÄÜ¡£

3£®3£®4Ê¾Àý

ÕâÀïÒÔPython´úÂëµÄÐÎÊ½¸ø³öÒ»¸ö»ùÓÚTensorFlowÊµÏÖµÄ·Ö²ãTransformer NERÄ£ÐÍÊ¾Àý¡£

import tensorflow as tf

from tensorflow.keras.layers import Dense£¬ Input

from tensorflow.keras.models import Model

# ÊäÈë±íÊ¾²ã

input_ids = Input(shape=(MAX_SEQ_LEN£¬)£¬ dtype=tf.int32)

input_masks = Input(shape=(MAX_SEQ_LEN£¬)£¬ dtype=tf.int32)

segment_ids = Input(shape=(MAX_SEQ_LEN£¬)£¬ dtype=tf.int32)

# ·Ö²ãTransformer±àÂëÆ÷

x = Embedding(vocab_size£¬ d_model)(input_ids)  # ´ÊÇ¶Èë

x = AddPositionEncoding(x)  # Ìí¼ÓÎ»ÖÃ±àÂë

for n in range(n_layers)£º

x = MultiHeadAttention(d_model£¬ n_heads)(£Ûx£¬ x£¬ x£¬ input_masks£Ý)  # ¶àÍ·×Ô×¢ÒâÁ¦

x = FeedForward(d_model)(£Ûx£Ý)  # Ç°À¡Éñ¾­ÍøÂç

# ÐòÁÐ±ê¼Ç²ã 

x = Dense(n_tags)(x)

output = CRF(n_tags)(x)  # CRF²ã

# ¹¹½¨Ä£ÐÍ  

model = Model(inputs=£Ûinput_ids£¬ input_masks£¬ segment_ids£Ý£¬ outputs=output)

# ±àÒëºÍÑµÁ·Ä£ÐÍ

model.compile(optimizer=Adam(learning_rate)£¬ loss=crf_loss) 

model.fit(£Ûinput_ids£¬ input_masks£¬ segment_ids£Ý£¬ labels£¬ epochs=n_epochs)

# Ô¤²âºÍºó´¦Àí

pred = model.predict(£Ûinput_ids£¬ input_masks£¬ segment_ids£Ý)

pred = post_process(pred)  # ºó´¦Àí£¬ÈçÈ¥³ýÈßÓàÊµÌå¡¢ºÏ²¢ÊµÌåµÈ

¸ÃÄ£ÐÍÖ÷Òª°üº¬ÒÔÏÂ¼¸²¿·Ö¡£

(1) ÊäÈë±íÊ¾²ã£º Ê¹ÓÃ´ÊÇ¶ÈëºÍÎ»ÖÃ±àÂë½«´ÊÐòÁÐ×ª»»ÎªÏòÁ¿ÐòÁÐ¡£

(2) ·Ö²ãTransformer±àÂëÆ÷£º °üº¬¶à²ãTransformer±àÂëÆ÷£¬Ã¿¸ö±àÂëÆ÷²ã°üÀ¨¶àÍ·×Ô×¢ÒâÁ¦ºÍÇ°À¡Éñ¾­ÍøÂç¡£

(3) ÐòÁÐ±ê¼Ç²ã£º Ê¹ÓÃCRF²ã¶ÔÐòÁÐ½øÐÐ±ê¼Ç£¬Ô¤²âÃ¿¸ö´ÊµÄÊµÌå±êÇ©¡£

(4) Ä£ÐÍÑµÁ·£º Ê¹ÓÃ½»²æìØËðÊ§ºÍCRFËðÊ§ÑµÁ·Ä£ÐÍ¡£

(5) Ô¤²âºÍºó´¦Àí£º Ê¹ÓÃÑµÁ·ºÃµÄÄ£ÐÍ½øÐÐÔ¤²â£¬²¢Ê¹ÓÃºó´¦Àí¼¼Êõ¸Ä½øÔ¤²â½á¹û¡£

¸ÃÊ¾ÀýÑÝÊ¾ÁËÈçºÎÀûÓÃTensorFlowÊµÏÖÒ»¸ö»ù±¾µÄ·Ö²ãTransformer NERÄ£ÐÍ¡£¿ÉÒÔ¶ÔÄ£ÐÍ½øÐÐ½øÒ»²½¸Ä½ø£¬Èçµ÷Õû³¬²ÎÊý¡¢Ê¹ÓÃ¸ü´óµÄÔ¤ÑµÁ·Ä£ÐÍµÈ£¬ÒÔÌá¸ßÄ£ÐÍÐÔÄÜ¡£

3£®3£®5ÊµÑé·ÖÎö

HiTRANSÄ£ÐÍÃèÊöÈçÍ¼3£®2~Í¼3£®4ËùÊ¾¡£



Í¼3£®2HiTRANSÄ£ÐÍ¸ÅÊö¡ª¡ªÓï¾äµÄ¶à¸ö²ã¼¶±íÕ÷Í¼


ÎªÁË¸üºÃµØ²¶×½¾ä×ÓµÄÓïÒåÐÅÏ¢£¬´Ó¶à¸ö²ã¼¶½øÐÐ±íÕ÷£¬ÀýÈç£¬×Ö·û¼¶¡¢µ¥´Ê¼¶ºÍ¾ä×Ó¼¶¡£×Ö·û¼¶Ç¶Èë£¨CLª²EMB£©¡¢µ¥´Ê¼¶Ç¶Èë£¨WLª²EMB£©ºÍ×Ö·û¼¶Ç¶Èë£¨SLª²EMB£©±»¼¶ÁªÒÔ»ñµÃ¸üºÃµÄ±íÊ¾¡£



Í¼3£®3HiTRANSÄ£ÐÍ¸ÅÊö¡ª¡ª×ÔÏÂ¶øÉÏ·Ö²ã¿ç¶ÈÉú³ÉÄ£ÐÍÍ¼


ÎªÁË´ÓÇ¶Ì×½á¹¹¾ä×ÓÖÐÌáÈ¡Ç¶Ì×ÊµÌå£¬Éè¼ÆÁËÒ»¸ö·Ö²ã¿ç¶ÈÉú³ÉÄ£ÐÍ£¬¸ÃÄ£ÐÍÓÉÁ½¸ö½×¶Î×é³É£¬ÒÔÉú³ÉNERµÄºòÑ¡¿ç¶È¡£¾ßÌåµØ£¬ÕâÁ½¸ö½×¶Î·Ö±ðÒÔ×ÔÏÂ¶øÉÏºÍ×ÔÉÏ¶øÏÂµÄ·½Ê½Éú³ÉºòÑ¡¿ç¶È¡£ÔÚ¸ÃÄ£ÐÍµÄÃ¿Ò»²ãÖÐ£¬Ê×ÏÈÀûÓÃ¾í»ýÉñ¾­ÍøÂç£¨CNN£©¾ÛºÏÏÂÒ»²ãµÄÁ½¸öÏàÁÚ¿ç¶È£¬Éú³ÉËùÓÐ¿ÉÄÜµÄÆ½ÃæÊµÌå×÷Îª½øÒ»²½Ô¤²âµÄºòÑ¡¡£È»ºóÀûÓÃ¶àÍ·×¢ÒâÁ¦²ãÀ´ÔöÇ¿Ã¿¸öºòÑ¡µÄ±íÊ¾Ñ§Ï°¡£×ÔÏÂ¶øÉÏ·Ö²ã¿ç¶ÈÉú³ÉÄ£ÐÍÍøÂçµÄºËÐÄË¼ÏëÊÇÍ¨¹ý´Óµ×²ãµ½¶¥²ãµÝ¹é¶Ñµþ¾í»ýÉñ¾­ÍøÂçÀ´Éú³ÉºòÑ¡¿ç¶ÈµÄÌØÕ÷ÏòÁ¿¡£



Í¼3£®4HiTRANSÄ£ÐÍ¸ÅÊö¡ª¡ª×ÔÉÏ¶øÏÂ·Ö²ã¿ç¶ÈÉú³ÉÄ£ÐÍÍ¼


ÔÚÏà·´µÄ·½ÏòÉÏ£¬ÓÉÓÚ¸ß²ãµÄ³¤ÊµÌåÓëµÍ²ãµÄ¶ÌÊµÌåÔÚÏàÍ¬µÄÉÏÏÂÎÄÖÐÃÜÇÐÏà¹Ø£¬Òò´Ë¸ß¼¶ÌØÕ÷¿ÉÒÔÍ¨¹ýÌá¹©ÓëµÍ¼¶ÌØÕ÷»¥²¹µÄ¸½¼Ó±³¾°ÐÅÏ¢À´ÓÐÖúÓÚÊ¶±ðµÍ²ãÖÐµÄÊµÌå¡£Òò´Ë£¬×ÔÉÏ¶øÏÂ·Ö²ã¿ç¶ÈÉú³ÉÄ£ÐÍÍøÂçÖ¼ÔÚÒÔ×ÔÉÏ¶øÏÂµÄ·½Ê½½«¸ß²ãÐÅÏ¢´«²¥µ½½ÏµÍ²ã¡£P±íÊ¾²ÉÓÃCNNÊ±µÄÌî³ä¡£

×ÜÌå¶øÑÔ£¬»ùÓÚ³¬Í¼µÄ·½·¨»ñµÃµÄ²»´íµÄ½á¹ûÈ¡¾öÓÚ±í´ïÐÔ±ê×¢Ä£Ê½£¬È»¶ø£¬Ä£ºýÐÔºÍ¸ßÊ±¼ä¸´ÔÓÐÔ¼¸ºõ²»ÊÇ²»¿É±ÜÃâµÄ¡£»ùÓÚ¿ç¶ÈµÄ·½·¨Ìá¸ßÁËNERµÄÐÔÄÜ£» È»¶ø£¬ËüÃÇ¿ÉÄÜ»á´òÆÆÉÏÏÂÎÄµÄÁ¬Ðø½á¹¹¡£ÎªÁË»º½âÕâ¸öÎÊÌâ£¬»ùÓÚ²ã´ÎµÄÄ£ÐÍÍ¨¹ý·Ö²ã½á¹¹½øÒ»²½Ìá¸ßÁË×îÖÕµÄÐÔÄÜ£¬µ«ÊÇ£¬¿ç¶È±íÊ¾¹ýÓÚ¼ò»¯¡£´ËÍâ£¬ÓëÔ¤ÑµÁ·ÓïÑÔÄ£ÐÍ(Preª²trained Language Models£¬PLMs)½áºÏµÄ·½·¨£¬ÀýÈç£¬BERTºÍALBERT£¬Í¨³£ÓÅÓÚÒÔÇ°µÄ·½·¨£¬ÆäÖÐÀûÓÃ²¶»ñ¾ä×Ó¼¶ÌØÕ÷µÄ·½·¨·ÖÎöÉÏÏÂÎÄ½á¹¹¡£

ÒÔ ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÖÐ»Ø×å¾íÖÐµÄÊ¶±ðÎªÀý£¬Ô­ÎÄÈçÏÂ£º ¡°ÖØÐÞ´óµî—¨ÅïË®·¿Ë®³Ø±®¼ÇÊ¯±®1Í¨¡£Ãñ¹ú3Äê(1914)ÂòÀ¼ð¥×«ÎÄ×«£¬Áõ·ïÎè¿Ì¡£ÇåÕæËÂÖØÐÞ´óµî±®¡£¼ÇÊöÖØÐÞ´óµî—¨Åï¡¢Ë®·¿¡¢Ë®³ØÊÂ£¬Âä³ÉÁ¢±®ÁôÄî£¬¿Ì¾è×ÊÕßÐÕÃû¡£±®ÔÚ½ñºÓÄÏÊ¡Û£ÏØ±±´ó½ÖÇåÕæËÂ£¬×Ü±®Ãæ155cm¡Á60cm£¬Ò»ÃæÓÐ×Ö¡£¿ÌÃæ120cm¡Á45cm£¬Êú¿ÌººÎÄ21ÐÐ¡£±®¶î100cm¡Á30cm£¬¿Ì°¢À­²®ÎÄ1ÐÐ¡£Ê¯²Ä¡£±£´æÍêºÃ¡££¨Ñî¿¡½Ü£©¡±¶ÔÓÚÕâ¶Î»°¿ÉÒÔÌáÈ¡³öÒ»Ð©±êÇ©ÐÅÏ¢£¬Èç¹Å¼®Ãû³Æ¡¢Ê±¼äºÍµØÃûµÈ¡£Õâ¶Î½ÚÑ¡µÄ¶ÎÂäµÄ±êÇ©³éÈ¡½á¹ûÈç±í3£®1ËùÊ¾¡£


±í3£®1HiTRANSÄ£ÐÍµÄ±êÇ©³éÈ¡½á¹û



¿ªÊ¼
½áÊø
ÎÄ±¾
±êÇ©
1
12
ÖØÐÞ´óµî—¨ÅïË®·¿Ë®³Ø±®¼Ç
¹Å¼®Ãû³Æ
13
14
Ê¯±®
Àà±ð
15
16
1Í¨
ÊýÁ¿
18
27
Ãñ¹ú3Äê(1914)
Ê±¼ä
28
30
ÂòÀ¼ð¥
±àÖøÕß
82
92
ºÓÄÏÊ¡Û£ÏØ±±´ó½ÖÇåÕæËÂ
µØÃû
94
106
×Ü±®Ãæ155cm¡Á60cm
´óÐ¡
113
124
¿ÌÃæ120cm¡Á45cm
´óÐ¡
130
132
21ÐÐ
´óÐ¡
134
145
±®¶î100cm¡Á30cm
´óÐ¡
170
173
Ñî¿¡½Ü
±àÖøÕß


3£®4»ùÓÚBERTª²CRFµÄNER
3£®4£®1ÒýÑÔ

Ëæ×ÅNLPÁìÓòµÄ²»¶Ï·¢Õ¹£¬ÀûÓÃÉñ¾­ÍøÂç½øÐÐÓïÑÔ±íÊ¾µÄ×îÐÂ½øÕ¹Ê¹µÃ½«ÑµÁ·Ä£ÐÍµÄÑ§Ï°ÄÚ²¿×´Ì¬×ªÒÆµ½ÏÂÓÎÈÎÎñ³ÉÎª¿ÉÄÜ£¬ÀýÈçNERºÍÎÊÌâ»Ø´ð¡£ÑÐ¾¿±íÃ÷£¬ÀûÓÃÔ¤ÑµÁ·µÄÓïÑÔÄ£ÐÍ¿ÉÒÔÌá¸ßÐí¶àÈÎÎñµÄÕûÌåÐÔÄÜ£¬²¢ÇÒÔÚ±ê¼ÇÊý¾ÝÏ¡È±Ê±·Ç³£ÓÐÒæ¡£±¾½ÚÌ½Ë÷ÁË»ùÓÚÌØÕ÷ºÍÎ¢µ÷µÄBERTÄ£ÐÍÑµÁ·²ßÂÔ£¬Î¢µ÷·½·¨ÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏ»ñµÃÁËÐÂµÄ×îÏÈ½øµÄ½á¹û£¬ÔÚÑ¡ÔñÐÔ³¡¾°(5¸öNEÀà)ÉÏ½«F1ÆÀ·ÖÌá¸ßÁË1·Ö£¬ÔÚ×Ü³¡¾°(10¸öNEÀà)ÉÏ½«F1ÆÀ·ÖÌá¸ßÁË4·Ö¡£ÕâÐ©½á¹û±íÃ÷£¬BERTª²CRFÄ£ÐÍ¾ßÓÐºÜ¸ßµÄÐÔÄÜºÍÇ¨ÒÆÄÜÁ¦£¬¿ÉÒÔÔÚNERµÈNLPÈÎÎñÖÐÈ¡µÃÓÅÒìµÄ±íÏÖ¡£

3£®4£®2ÎÊÌâÒýÈë

NERµÄÈÎÎñÊÇÊ¶±ðÌáµ½ÃüÃûÊµÌåµÄÎÄ±¾·¶Î§£¬²¢½«ËüÃÇ·ÖÀàµ½Ô¤¶¨ÒåµÄÀà±ðÖÐ£¬ÀýÈçÈËÔ±¡¢×éÖ¯¡¢Î»ÖÃ»òÈÎºÎÆäËû¸ÐÐËÈ¤µÄÀà±ð¡£¾¡¹Ü¸ÅÄîÉÏºÜ¼òµ¥£¬µ«NER²¢²»ÊÇÒ»ÏîÈÝÒ×µÄÈÎÎñ¡£ÃüÃûÊµÌåµÄÀà±ð¸ß¶ÈÒÀÀµÓÚÎÄ±¾ÓïÒå¼°ÆäÖÜÎ§µÄÉÏÏÂÎÄ¡£´ËÍâ£¬ÃüÃûÊµÌåºÍÆÀ¹À±ê×¼µÄ¶¨ÒåºÜ¶à£¬µ¼ÖÂÁËÆÀ¹À¸´ÔÓÐÔ¡£Ä¿Ç°×îÏÈ½øµÄNERÏµÍ³²ÉÓÃµÄÉñ¾­¼Ü¹¹ÒÑ¾­ÔÚÓïÑÔ½¨Ä£ÈÎÎñÉÏ½øÐÐÁËÔ¤ÑµÁ·¡£ÕâÀàÄ£ÐÍµÄÀý×ÓÓÐELMo¡¢OpenAI GPT¡¢BERT¡¢XLNet¡¢RoBERTa¡¢AlbertºÍT5¡£ÑÐ¾¿±íÃ÷£¬ÓïÑÔ½¨Ä£Ô¤ÑµÁ·ÏÔÖøÌá¸ßÁËÐí¶àNLPÈÎÎñµÄÐÔÄÜ£¬Ò²¼õÉÙÁË¼à¶½Ñ§Ï°ËùÐèµÄ±ê¼ÇÊý¾ÝÁ¿¡£½«ÕâÐ©×îÐÂ¼¼ÊõÓ¦ÓÃÓÚÖÐÎÄÖÐ·Ç³£ÓÐ¼ÛÖµ£¬ÒòÎª´ø±ê¼ÇµÄ×ÊÔ´ºÜÉÙ£¬¶øÎ´±ê¼ÇµÄÎÄ±¾Êý¾Ý·Ç³£·á¸»¡£ÑÐ¾¿ÈËÔ±²ÉÓÃÁËBERT(»ùÓÚ±ä»»Æ÷µÄË«Ïò±àÂë±íÊ¾)Ä£ÐÍ¶ÔÖÐÎÄµÄNERÈÎÎñ½øÐÐÁËÆÀ¹À£¬²¢±È½ÏÁË»ùÓÚÌØÕ÷ºÍ»ùÓÚÎ¢µ÷µÄÑµÁ·²ßÂÔ¡£ÕâÊÇµÚÒ»´Î½«BERTÄ£ÐÍÓ¦ÓÃÓÚÖÐÎÄµÄNERÈÎÎñ¡£

3£®4£®3Ïà¹Ø¹¤×÷

NERÏµÍ³¿ÉÒÔ»ùÓÚÊÖ¹¤¹æÔòÒ²¿ÉÒÔ»ùÓÚ»úÆ÷Ñ§Ï°·½·¨¡£¶ÔÓÚÖÐÎÄÀ´Ëµ£¬Ä¿Ç°µÄÑÐ¾¿Ì½Ë÷ÁË»úÆ÷Ñ§Ï°¼¼Êõ£¬ÑÐ¾¿ÁËÉñ¾­ÍøÂçÄ£ÐÍÔÚÖÐÎÄNERÖÐµÄÓ¦ÓÃ¡£VieiraÊ¹ÓÃ´ÓÖÐÐÄ´ÊºÍÖÜÎ§´ÊÖÐÌáÈ¡µÄ15¸öÌØÕ÷´´½¨ÁËÒ»¸öCRFÄ£ÐÍ¡£PirovaniµÈ½«CRFÄ£ÐÍÓëLocal Grammars½áºÏÆðÀ´£¬²ÉÓÃÁËÀàËÆµÄ·½·¨¡£´ÓCollobertµÄ¹¤×÷¿ªÊ¼£¬Éñ¾­ÍøÂçNERÏµÍ³ÒÑ¾­±äµÃÁ÷ÐÐ£¬ÒòÎª×îÐ¡µÄÌØÕ÷¹¤³ÌÒªÇó£¬ÕâÓÐÖúÓÚ¸ü¸ßµÄÁìÓò¶ÀÁ¢ÐÔ¡£CharWNNÄ£ÐÍÍ¨¹ýÊ¹ÓÃ¾í»ý²ã´ÓÃ¿¸öµ¥´ÊÖÐÌáÈ¡×Ö·û¼¶ÌØÕ÷£¬À©Õ¹ÁËCollobertµÄ¹¤×÷¡£ÕâÐ©ÌØÕ÷ÓëÔ¤ÑµÁ·µÄ´ÊÇ¶ÈëÏàÁ¬½Ó£¬È»ºóÓÃÓÚÖ´ÐÐË³Ðò·ÖÀà¡£LSTMª²CRF¼Ü¹¹ÒÑ±»¹ã·ºÓÃÓÚNERÈÎÎñ¡£¸ÃÄ£ÐÍÓÉÁ½¸öË«ÏòLSTM×é³É£¬ÓÃÓÚÌáÈ¡ºÍ×éºÏ×Ö·û¼¶ºÍ´Ê¼¶ÌØÕ÷£¬È»ºóÓÉCRF²ãÖ´ÐÐË³Ðò·ÖÀà¡£

×î½üµÄ¹¤×÷Ì½Ë÷ÁËÓëLSTMª²CRFÌåÏµ½á¹¹Ò»Æð´ÓÓïÑÔÄ£ÐÍÖÐÌáÈ¡µÄÉÏÏÂÎÄÇ¶Èë¡£SantosµÈÊ¹ÓÃFlair Embeddings´ÓÖÐÎÄÓïÁÏ¿âÉÏÑµÁ·µÄË«Ïò×Ö·û¼¶LMÖÐÌáÈ¡ÉÏÏÂÎÄ´ÊÇ¶Èë¡£ÕâÐ©Ç¶ÈëÓëÔ¤ÑµÁ·µÄ´ÊÇ¶ÈëÏàÁ¬½Ó£¬²¢À¡ËÍµ½Biª²LSTMª²CRFÄ£ÐÍ¡£CastroÊ¹ÓÃELMoÇ¶Èë£¬¸ÃÇ¶ÈëÊÇCNNÌáÈ¡µÄ×Ö·û¼¶ÌØÕ÷ÓëÓÉBiª²LSTMÄ£ÐÍ×é³ÉµÄË«ÏòLM (biLM)Ã¿²ãÒþ²Ø×´Ì¬µÄ×éºÏ¡£

3£®4£®4Ä£ÐÍ½á¹¹

Ä£ÐÍÌåÏµ½á¹¹Ö÷ÒªÓÉBERT¡¢CRF×é³É£¬BERTÄ£ÐÍ¶¥²¿ÓÐÒ»¸öÁîÅÆ¼¶·ÖÀàÆ÷£¬È»ºóÊÇÒ»¸öÏßÐÔÁ´CRF¡£¶ÔÓÚn¸ö±ê¼ÇµÄÊäÈëÐòÁÐ£¬BERTÊä³öÒ»¸öÒþ²ØÎ¬¶ÈÎªhµÄ±àÂë±ê¼ÇÐòÁÐ¡£Ä£ÐÍ½«Ã¿¸ö±ê¼ÇµÄ±àÂë±íÊ¾Í¶Ó°µ½±êÇ©¿Õ¼ä£¬¼´RH ¡úRK£¬ÆäÖÐKÊÇ±êÇ©µÄÊýÁ¿£¬È¡¾öÓÚÀàµÄÊýÁ¿ºÍ±ê¼Ç·½°¸¡£È»ºó½«·ÖÀàÄ£ÐÍµÄÊä³ö·ÖÊýP¡ÊRn¡ÁKÀ¡ËÍµ½CRF²ã£¬Æä²ÎÊýÎª±êÇ©×ª»»¾ØÕóa¡ÊRK+2¡ÁK+2¡£ÔÚ¾ØÕóAÖÐ£¬Ai£¬j±íÊ¾´Ó±êÇ©iµ½±êÇ©jµÄ×ªÒÆµÃ·Ö¡£A°üº¬ÁËÁ½¸ö¸½¼Ó×´Ì¬£º ÐòÁÐµÄ¿ªÊ¼ºÍ½áÊø¡£ÈçLampleËùÊö£¬¶ÔÓÚÊäÈëÐòÁÐX=(x1£¬x2£¬¡­£¬xn)ºÍ±êÇ©Ô¤²âÐòÁÐy=(y1£¬y2£¬¡­£¬yn)£¬yi¡Ê{1£¬2£¬¡­£¬K}£¬ÔòÐòÁÐµÄ·ÖÊý¶¨ÒåÎª

sX,y=¡Æni=0Ayi,yi+1+¡Æni=1Pi,yi(3£®1)


Ê½(3£®1)ÖÐ£¬y0ºÍyn+1ÊÇ¿ªÊ¼ºÍ½áÊø±ê¼Ç¡£¶ÔÄ£ÐÍ½øÐÐÑµÁ·£¬Ê¹ÕýÈ·±êÇ©ÐòÁÐµÄ¶ÔÊý¸ÅÂÊ×î´ó»¯Îª

logpy|X=sX,y-log¡Æy¡«¡ÊYXes(X,y-)(3£®2)

ÆäÖÐ,Y£¬XÊÇËùÓÐ¿ÉÄÜµÄ±êÇ©ÐòÁÐ¡£Ê½(3£®2)ÖÐµÄÇóºÍÊÇÓÃ¶¯Ì¬¹æ»®¼ÆËãµÄ¡£ÔÚÇóÖµ¹ý³ÌÖÐ£¬Í¨¹ýÎ¬ÌØ±È½âÂëµÃµ½×î¿ÉÄÜµÄÐòÁÐ¡£¼ÌDevlinÖ®ºó£¬±¾½Ú½ö¼ÆËãÃ¿¸öÁîÅÆµÄµÚÒ»¸ö×ÓÁîÅÆµÄÔ¤²âºÍËðÊ§¡£

±¾½ÚÊµÑéÁËÁ½ÖÖÇ¨ÒÆÑ§Ï°·½·¨£º »ùÓÚÌØÕ÷ºÍÎ¢µ÷¡£¶ÔÓÚ»ùÓÚÌØÕ÷µÄ·½·¨£¬BERTÄ£ÐÍÈ¨Öµ±£³Ö²»±ä£¬Ö»ÑµÁ··ÖÀàÆ÷Ä£ÐÍºÍCRF²ã¡£·ÖÀàÆ÷Ä£ÐÍÓÉÒ»¸ö1²ãµÄBiª²LSTMºÍÒ»¸öÏßÐÔ²ã×é³É¡£Ã»ÓÐÖ»Ê¹ÓÃBERTµÄ×îºóÒ»¸öÒþ²Ø±íÊ¾²ã£¬¶øÊÇ¸ù¾ÝDevlin¶Ô×îºó4²ãÇóºÍ¡£µÃµ½µÄ¼Ü¹¹ÀàËÆÓÚLampleµÄLSTMª²CRFÄ£ÐÍ£¬µ«Ê¹ÓÃÁËBERTÇ¶Èë¡£¶ÔÓÚÎ¢µ÷·½·¨£¬·ÖÀàÆ÷ÊÇÒ»¸öÏßÐÔ²ã£¬ËùÓÐÈ¨ÖØ£¬°üÀ¨BERTµÄÈ¨ÖØ£¬ÔÚÑµÁ·ÆÚ¼ä¹²Í¬¸üÐÂ¡£¶ÔÓÚÕâÁ½ÖÖ·½·¨£¬Ã»ÓÐCRF²ãµÄÄ£ÐÍÒ²±»ÆÀ¹À¡£ÔÚÕâÖÖÇé¿öÏÂ£¬ËüÃÇÍ¨¹ý×îÐ¡»¯½»²æìØËðÊ§À´ÓÅ»¯¡£

ÎªÁËÔÚ¼ÆËãBERTµÄÁîÅÆ±íÊ¾Ê±ÀûÓÃ½Ï³¤µÄÉÏÏÂÎÄ£¬±¾½ÚÊ¹ÓÃÎÄµµÉÏÏÂÎÄ¶ø²»ÊÇ¾ä×ÓÉÏÏÂÎÄ×÷ÎªÊäÈëÊ¾Àý¡£×ñÑ­Devlin¶ÔSQuADÊý¾Ý¼¯µÄ·½·¨£¬Ê¹ÓÃD¸öÁîÅÆµÄ¿ç²½½«³¬¹ýS¸öÁîÅÆµÄÊ¾Àý·Ö½âÎª×î³¤ÎªSµÄ¿ç¶È¡£ÔÚÑµÁ·¹ý³ÌÖÐ£¬Ã¿¸ö¿ç¶È±»ÓÃ×÷Ò»¸öµ¥¶ÀµÄÀý×Ó¡£È»¶ø£¬ÔÚÇóÖµÆÚ¼ä£¬µ¥¸ö±ê¼ÇTi¿ÉÒÔ³öÏÖÔÚN=SDµÄ¶à¸ö¿ç¶ÈsjÖÐ£¬Òò´Ë¿ÉÄÜÓÐ¶à´ïN¸ö²»Í¬µÄ±êÇ©Ô¤²âyi£¬j¡£Ã¿¸ö±ê¼ÇµÄ×îÖÕÔ¤²âÊÇ´Ó±ê¼Ç¸ü½Ó½üÖÐÐÄÎ»ÖÃµÄ·¶Î§ÖÐ»ñÈ¡µÄ£¬¼´Ëü¾ßÓÐ×î¶àÉÏÏÂÎÄÐÅÏ¢µÄ·¶Î§¡£Í¼3£®5ËµÃ÷ÁËÆÀ¹À¹ý³Ì¡£



Í¼3£®5BERTÄ£ÐÍÆÀ¹À¹ý³Ì(¼û²Ê²å)


3£®4£®5ÊµÑé½á¹û

±¾½ÚÊµÑéÖÐ£¬×î´ó¾ä×Ó³¤¶ÈÉèÖÃÎªS=512¸öÁîÅÆ¡£±¾½ÚÖ»ÑµÁ·´óÐ¡Ð´Ãô¸ÐµÄÄ£ÐÍ£¬ÒòÎª´óÐ´ÓëNERÏà¹Ø¡£Ê¹ÓÃsentencepeceºÍBPEËã·¨Éú³ÉÁËÒ»¸ö°üº¬3Íò¸ö×Ó´Êµ¥Î»µÄÖÐÎÄ´Ê»ã±íºÍ20Íò¸öËæ»úÖÐÎÄÎ¬»ù°Ù¿ÆÎÄÕÂ£¬È»ºó½«Æä×ª»»ÎªWordPiece¸ñÊ½¡£¶ÔÓÚÔ¤ÑµÁ·Êý¾Ý£¬±¾½ÚÊ¹ÓÃÁËbrWaCÓïÁÏ¿â£¬ÆäÖÐ°üº¬À´×Ô353Íò¸öÎÄµµµÄ26£®8ÒÚ¸öÁîÅÆ£¬ÊÇÆù½ñÎªÖ¹×î´óµÄ¿ª·ÅÖÐÎÄÓïÁÏ¿â¡£brWaCÊÇÓÉÍêÕûµÄÎÄµµ×é³ÉµÄ£¬ËüµÄ·½·¨±£Ö¤ÁË¸ß¶ÈµÄÁìÓò¶àÑùÐÔºÍÄÚÈÝÖÊÁ¿£¬ÕâÊÇBERTÔ¤ÑµÁ·ËùÐèÒªµÄÌØÕ÷¡£±¾½ÚÖ»Ê¹ÓÃÁËÎÄµµÖ÷Ìå£¬²¢¶ÔÊý¾ÝÓ¦ÓÃµ¥¸öºó´¦Àí²½Öè£¬Ê¹ÓÃftfy¿âÉ¾³ýmojibakes3ºÍ²ÐÓàµÄHTML±êÇ©¡£×îÖÕ´¦ÀíµÄÓïÁÏ¿âÓÐ17£®5GBµÄÔ­Ê¼ÎÄ±¾¡£Ô¤ÑµÁ·ÊäÈëÐòÁÐÊ¹ÓÃÄ¬ÈÏ²ÎÊýÉú³É£¬²¢Ê¹ÓÃÕû¸ö¹¤×÷ÆÁ±Î(Èç¹ûÓÉ¶à¸ö×Ó´Êµ¥Ôª×é³ÉµÄµ¥´Ê±»ÆÁ±Î£¬ÔòÆäËùÓÐ×Ó´Êµ¥Ôª¶¼±»ÆÁ±Î£¬²¢ÇÒ±ØÐëÔÚÆÁ±ÎÓïÑÔ½¨Ä£ÈÎÎñÖÐ½øÐÐÔ¤²â)¡£ÕâÐ©Ä£ÐÍ±»ÑµÁ·ÁË100Íò²½¡£±¾ÊéÊ¹ÓÃµÄÑ§Ï°ÂÊÊÇ0£®0001£¬ÔÚÇ°1Íò²½Ö®ºó£¬Ñ§Ï°ÂÊ³ÊÏßÐÔË¥¼õ¡£

¶ÔÓÚBERT BaseÄ£ÐÍ£¬Ê¹ÓÃ¶àÓïÑÔBERT BaseµÄ¼ì²éµã³õÊ¼»¯È¨ÖØ¡£ÔÚÕû¸öÑµÁ·¹ý³ÌÖÐ£¬±¾½ÚÊ¹ÓÃÁË128¸öÅú´¦Àí´óÐ¡ºÍ512¸öÁîÅÆÐòÁÐ¡£ÔÚTPUv3ª²8ÊµÀýÉÏ£¬¸ÃÑµÁ·ÐèÒª4Ìì£¬²¢ÔÚÑµÁ·Êý¾ÝÉÏÖ´ÐÐ´óÔ¼8´Îµü´ú¡£¶ÔÓÚBERT Large£¬ÓÃÓ¢ÓïBERT LargeµÄ¼ì²éµã³õÊ¼»¯È¨Öµ¡£ÓÉÓÚËüÊÇÒ»¸ö¸ü´óµÄÄ£ÐÍ£¬ÑµÁ·Ê±¼ä¸ü³¤£¬±¾½ÚÔÚÇ°90Íò²½ÖÐÊ¹ÓÃ128¸öÁîÅÆµÄÐòÁÐ£¬Åú´¦Àí´óÐ¡Îª256£¬È»ºóÔÚ×îºó10Íò²½ÖÐÊ¹ÓÃ512¸öÁîÅÆµÄÐòÁÐ£¬Åú´¦Àí´óÐ¡Îª128¡£ÔÚTPUv3ª²8ÊµÀýÉÏ£¬¸ÃÑµÁ·ÐèÒª7Ìì£¬²¢ÔÚÑµÁ·Êý¾ÝÉÏÖ´ÐÐ´óÔ¼6´Îepoch¡£ÓÃÓÚÑµÁ·ºÍÆÀ¹ÀÖÐÎÄNERµÄÁ÷ÐÐÊý¾Ý¼¯ÊÇ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±¡£±í3£®2°üº¬ÁËÊý¾Ý¼¯Ò»Ð©Í³¼ÆÐÅÏ¢¡£


±í3£®2Ê¶±ðÊ¾Àý(½ÚÑ¡×Ô¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯)


Êý¾Ý¼¯
ÎÄµµÊý
·ûºÅ
ÊµÌå
ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª
45
96593
4635/5436


¿¼ÂÇµ½ÎÄ±¾ÖÐµÄÄ£ºýÐÔºÍ²»È·¶¨ÐÔ£¬Èç¾ä×ÓÖÐµÄÆçÒå£¬ÑÐ¾¿ÈËÔ±¶Ô¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯½øÐÐÁË×¢ÊÍ¡£ÕâÑù£¬Ò»Ð©ÎÄ±¾¶Î°üº¬<ALT>±ê¼Ç£¬ÕâÐ©±ê¼Ç°üº¬¶à¸ö¿ÉÑ¡µÄÃüÃûÊµÌå±êÊ¶½â¾ö·½°¸¡£´ËÍâ£¬¿ÉÒÔ½«¶à¸öÀà±ð·ÖÅä¸øµ¥¸öÃüÃûÊµÌå¡£ÎªÁË½«NER½¨Ä£ÎªÐòÁÐ±ê¼ÇÎÊÌâ£¬ÐëÎªÃ¿¸öÎ´È·¶¨µÄ¶Î»òÊµÌåÑ¡ÔñÒ»¸öµ¥Ò»µÄÕæÀí¡£Òª½âÎöÊý¾Ý¼¯ÖÐµÄÃ¿¸ö<ALT>±ê¼Ç£¬±¾½ÚµÄ·½·¨ÊÇÑ¡Ôñ°üº¬×î¶àÃüÃûÊµÌåµÄÌæ´ú·½°¸¡£ÔÚÃüÃûÊµÌå´æÔÚÍ¬Ñù¶àµÄÇé¿öÏÂ£¬Ñ¡ÔñµÚÒ»¸ö¡£Òª½âÎöÃ¿¸ö·ÖÅäÁË¶à¸öÀàµÄÃüÃûÊµÌå£¬Ö»ÐèÎª³¡¾°Ñ¡ÔñµÚÒ»¸öÓÐÐ§µÄÀà¡£Êý¾Ý¼¯Ô¤´¦Àí½Å±¾ÔÚGitHub4ÉÏÌá¹©¡£

±È½ÏÁËÄ£ÐÍÔÚÁ½ÖÖÇé¿öÏÂ(ÍêÈ«ºÍÑ¡ÔñÐÔ)µÄÐÔÄÜ¡£ËùÓÐÖ¸±ê¶¼ÊÇÊ¹ÓÃCoNLL 2003ÆÀ¹À½Å±¾¼ÆËãµÄ£¬¸Ã½Å±¾ÓÉÊµÌå¼¶Î¢F1ÆÀ·Ö×é³É£¬Ö»¿¼ÂÇ¾«È·Æ¥Åä¡£±¾½ÚÌÖÂÛµÄBERTª²CRFÄ£ÐÍÓÅÓÚÖ®Ç°µÄÄ£ÐÍ(Biª²LSTMª²CRF+FlairBBP)£¬ÔÚÑ¡ÔñÐÔ³¡¾°ÖÐ½«F1ÆÀ·ÖÌá¸ßÁËÔ¼1·Ö£¬ÔÚ×Ü³¡¾°ÖÐ½«F1ÆÀ·ÖÌá¸ßÁË4·Ö¡£ÓÐÈ¤µÄÊÇ£¬FlairÇ¶ÈëÔÚÓ¢ÓïNERÉÏÓÅÓÚBERTÄ£ÐÍ¡£ÓëÃ»ÓÐÉÏÏÂÎÄÇ¶ÈëµÄLSTMª²CRF¼Ü¹¹Ïà±È£¬±¾½ÚµÄÄ£ÐÍÔÚ×Ü³¡¾°ºÍÑ¡Ôñ³¡¾°µÄF1ÆÀ·ÖÉÏ·Ö±ð¸ß³ö8£®3·ÖºÍ7£®0·Ö¡£ÖÐÎÄBERT(PTª²BERTª²BASEºÍPTª²BERTª²LARGE)Ò²ÓÅÓÚÒÔÇ°µÄ½á¹û£¬¼´Ê¹Ã»ÓÐÇ¿ÖÆÖ´ÐÐCRF²ãÌá¹©µÄË³Ðò·ÖÀà¡£ÔÚ±È½Ï×ÜÌåF1ÆÀ·ÖÊ±£¬¾ßÓÐCRFµÄÄ£ÐÍÓëÆä¸ü¼òµ¥µÄ±äÌå¸Ä½ø»òÖ´ÐÐÏàËÆ¡£ÔÚ´ó¶àÊýÇé¿öÏÂ£¬ËüÃÇÏÔÊ¾³ö¸ü¸ßµÄ¾«È·ÂÊ¡¢¸üµÍµÄÕÙ»ØÂÊ¡£

ËäÈ»ÖÐÎÄBERT largeÄ£ÐÍÔÚÕâÁ½ÖÖÇé¿öÏÂ¶¼ÊÇ±íÏÖºÜºÃµÄ£¬µ«µ±ÔÚ»ùÓÚÌØÕ÷µÄ·½·¨ÖÐÊ¹ÓÃÊ±£¬ËüÃÇµÄÐÔÄÜ»áÏÂ½µ£¬±ÈËüÃÇµÄ½ÏÐ¡±äÌå±íÏÖµÃ¸ü²î£¬µ«ÈÔÈ»±È¶àÓïÑÔBERTºÃ¡£´ËÍâ£¬¿ÉÒÔ¿´³ö£¬ÓëBERT baseÄ£ÐÍÏà±È£¬BERT largeÄ£ÐÍ²¢Ã»ÓÐ¸øÑ¡Ôñ³¡¾°´øÀ´Ì«´óµÄ¸ÄÉÆ¡£¼ÙÉèÕâÊÇÓÉÓÚNERÊý¾Ý¼¯µÄ¹æÄ£½ÏÐ¡¡£ÓëÎ¢µ÷·½·¨Ïà±È£¬»ùÓÚÌØÕ÷µÄ·½·¨µÄÄ£ÐÍ±íÏÖÃ÷ÏÔ½Ï²î¡£ÑÐ¾¿·¢ÏÖ£¬±íÏÖÔ¶¸ßÓÚÓ¢ÓïÓïÑÔµÄNER±¨¸æÖµ¡£¶ÔÓÚIOB2·½°¸£¬ÂË³ýÎÞÐ§¹ý¶ÉµÄºó´¦Àí²½ÖèÆ½¾ùÊ¹»ùÓÚÌØÕ÷µÄ·½·¨ºÍÎ¢µ÷·½·¨µÄF1ÆÀ·Ö·Ö±ðÌá¸ß1£®9·ÖºÍ1£®2·Ö¡£ÕâÒ»²½ÖèÊ¹ÕÙ»ØÂÊ½µµÍÁË0£®4%£¬µ«Æ½¾ù¶øÑÔ£¬¾«È·ÂÊÌá¸ßÁË3£®5%¡£

ÀýÈçÔÚÃÉ¹Å×å¾íÎÄÊéÖÐµÄÒ»¶Î£º ¡°¶õ¶û¶àË¹ÓÒÒíÖÐÆìÔýÈø¿Ë±´ÀÕË÷ÅµÄ¾À®²¼Õ«¸ù¶ØÔýÎÄ 1¼þ¡£2Ò³¡£Çå¼ÎÇìËÄÄê(1799)Ë÷ÅµÄ¾À®²¼Õ«¸ù¶Ø×«¡£ÃÉ¹ÅÎÄ¡£¼ÇµÇ¼Ç¶õ¶û¶àË¹ºóÒíÖÐÆì(½ñ¶õÍÐ¿ËÆì)ËùÓÐËÂÃíÔì²áÊÂÒË¡£¶õ¶û¶àË¹ÓÒÒíÖÐÆìÔýÈø¿Ë±´ÀÕË÷ÅµÄ¾À®²¼Õ«¸ù¶ØÖÂÒÁ¿ËÕÑÃË¶õ¶û¶àË¹ÓÒÒíºóÆì(½ñº¼½õÆì)ÔýÈø¿Ë±´×ÓÀ®Ê²´ï¶û¼ÃÔýÎÄ¡£ÎÄÖÐ¼ÇÔØÉêÇë¶õ¶û¶àË¹ÓÒÒíÖÐÆìÖ±Ï½¹âÔµËÂ¼°ËùÓÐÒÑÃüÃûµÄËÂÃí½øÐÐÖØÐÂµÇ¼ÇÔì²áÖ®ÊÂ¡£¶ÔÑÐ¾¿ÃÉ¹Å×å·ð½ÌÎÄ»¯ÓÐÊ·ÁÏ¼ÛÖµ¡£È«×ÚÃû¡¶Çå³¯º¼½õÆìÕþ¸®¡·¡£È«×ÚºÅ57£¬Ä¿Â¼ºÅ1£¬¾íºÅ113£¬¼þºÅ1£¬µÚ7~8Ò³¡£ÂéÖ½£¬Ã«±Ê¿¬Ìå£¬Ä«Êé£¬Ò³Ãæ24£®1cm¡Á12£®2cm£«6ÕÛ¡£îÔÓÐ¶õ¶û¶àË¹ÓÒÒíÖÐÆì´óºìÓ¡¡£²ÐÈ±¡£½ñ²Ø¶õ¶û¶àË¹ÊÐµµ°¸¹Ý(°ÍÒôµÇÂ¼º«³¤ÊÙ¡¢³¯Â×°ÍÌØ¶û¡¢°ÍÒôÒë)¡£¡±¶ÔÓÚÕâ¶Î»°¿ÉÒÔÌáÈ¡³öÒ»Ð©±êÇ©ÐÅÏ¢£¬Èç¹Å¼®Ãû³Æ¡¢Ê±¼äºÍÊÕ²Øµ¥Î»µÈ¡£±êÇ©³éÈ¡½á¹ûÈç±í3£®3ËùÊ¾¡£


±í3£®3BERTÄ£ÐÍµÄ±êÇ©³éÈ¡½á¹û


¿ªÊ¼
½áÊø
ÎÄ±¾
±êÇ©
1
23
¶õ¶û¶àË¹ÓÒÒíÖÐÆìÔýÈø¿Ë±´ÀÕË÷ÅµÄ¾À®²¼Õ«¸ù¶ØÔýÎÄ
¹Å¼®Ãû³Æ
31
46
Çå¼ÎÇìËÄÄê(1799)
Ê±¼ä
263
288
¶õ¶û¶àË¹ÊÐµµ°¸¹Ý
ÊÕ²Øµ¥Î»


±¾½ÚÍ¨¹ýÔÚ´óÁ¿Î´±ê¼ÇÎÄ±¾µÄÓïÁÏ¿âÉÏÔ¤ÑµÁ·ÖÐÎÄBERTÄ£ÐÍ£¬²¢¶ÔÖÐÎÄNERÈÎÎñÉÏµÄBERTª²CRFÄ£ÐÍ½øÐÐÎ¢µ÷£¬ÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±ÓïÁÏ¿âÉÏÌÖÂÛ·ÖÎöÁËÒ»ÖÖÐÂµÄ¼¼Êõ¡£¾¡¹ÜËüÊÇÔÚ¸üÉÙµÄÊý¾ÝÉÏ½øÐÐÔ¤ÑµÁ·£¬µ«ÊµÑé½á¹û±íÃ÷£¬BERTª²CRFÄ£ÐÍÓÅÓÚÖ®Ç°Ä£ÐÍ£¨Biª²LSTMª²CRF+FlairBBP£©µÄÐ§¹û¡£

3£®5»ùÓÚÇ¨ÒÆÑ§Ï°µÄÏ¸Á£¶ÈBERTµÄNER
3£®5£®1ÒýÑÔ

ÔÚÈç½ñµÄÊý×Ö»¯Ê±´ú£¬¶ÔÓÚ¹Å¼®ÎÄ±¾µÄ´¦ÀíºÍÑÐ¾¿¾ßÓÐÖØÒªµÄÑ§ÊõºÍÎÄ»¯¼ÛÖµ¡£È»¶ø£¬ÓÉÓÚ¹Å¼®ÎÄ±¾µÄÌØÊâÐÔºÍ¸´ÔÓÐÔ£¬´«Í³µÄÎÄ±¾Ê¶±ð·½·¨ÍùÍùÄÑÒÔ´ïµ½ÀíÏëµÄÐ§¹û¡£½üÄêÀ´£¬»ùÓÚÉî¶ÈÑ§Ï°µÄ¼¼ÊõÔÚNLPÁìÓòÈ¡µÃÁË¾Þ´óµÄ½øÕ¹£¬Îª¹Å¼®ÎÄ±¾Ê¶±ð´øÀ´ÁËÐÂµÄÏ£Íû¡£ÌØ±ðÊÇ»ùÓÚTransformer¼Ü¹¹µÄBERTÄ£ÐÍµÄ³öÏÖ£¬ÔÚ´¦Àí×ÔÈ»ÓïÑÔÊý¾Ý·½ÃæÈ¡µÃÁËÍ»ÆÆÐÔµÄ³É¹û¡£È»¶ø£¬Ãæ¶Ô¹Å¼®ÎÄ±¾µÄÌØÊâÌôÕ½£¬´«Í³µÄBERTÄ£ÐÍÈÔÈ»´æÔÚÒ»Ð©¾ÖÏÞÐÔ¡£ÎªÁË½â¾öÕâÒ»ÎÊÌâ£¬Ç¨ÒÆÑ§Ï°³ÉÎª¹Å¼®ÎÄ±¾Ê¶±ðÖÐµÄÒ»ÖÖÓÐÐ§·½·¨¡£Ç¨ÒÆÑ§Ï°Í¨¹ýÀûÓÃÆäËûÁìÓòµÄÖªÊ¶ºÍÊý¾ÝÀ´ÌáÉýÄ¿±êÁìÓòÈÎÎñµÄÐÔÄÜ¡£ÔÚ¹Å¼®ÎÄ±¾Ê¶±ðÖÐ£¬Ç¨ÒÆÑ§Ï°µÄË¼Ïë±»³É¹¦µØÓ¦ÓÃÓÚÌá¸ßÄ£ÐÍµÄÊ¶±ð×¼È·¶ÈºÍ·º»¯ÄÜÁ¦¡£Í¨¹ýÔ¤ÑµÁ·Ò»¸ö´ó¹æÄ£µÄBERTÄ£ÐÍ£¬ÔÚÆäËûÏà¹ØÁìÓòµÄ´óÁ¿ÎÄ±¾Êý¾ÝÉÏÑ§Ï°·á¸»µÄÓïÑÔÖªÊ¶£¬È»ºóÍ¨¹ýÎ¢µ÷µÄ·½Ê½£¬ÔÚ¹Å¼®ÎÄ±¾Ê¶±ðÈÎÎñÉÏ½øÐÐÑµÁ·£¬¿ÉÒÔÓÐÐ§µØÀûÓÃ¿çÁìÓòµÄÖªÊ¶£¬Ìá¸ßÄ£ÐÍ¶ÔÓÚ¹Å¼®ÎÄ±¾µÄÊ¶±ðÄÜÁ¦¡£

3£®5£®2ÎÊÌâÒýÈë

ÔÚÖÐÎÄNER·½Ãæ£¬YinÌá³öÁËÒ»ÖÖ»ùÓÚ²¿Ê×¼¶ÌØÕ÷ºÍ×Ô×¢Òâ»úÖÆµÄBiª²LSTMª²CRFÀ´½â¾öÖÐÎÄÁÙ´²NERÎÊÌâ¡£HeÕë¶ÔÖÐÎÄÉç½»Ã½ÌåÖÐµÄNERÎÊÌâÌá³öÁËÒ»¸öÍ³Ò»µÄÌØÕ÷Ä£ÐÍ£¬¸ÃÄ£ÐÍ¿ÉÒÔ´ÓÍâ¹úÓïÁÏ¿âºÍ¸ÃÁìÓòµÄÎ´×¢ÊÍÎÄ±¾ÖÐÑ§Ï°¡£YinÌá³öÁËÒ»ÖÖ¿¼ÂÇÄ£ºýÊµÌå±ß½çµÄ±ê×¢²ßÂÔ£¬½áºÏÁìÓò×¨¼ÒÖªÊ¶£¬¹¹½¨ÁË»ùÓÚÎ¢²©Êý¾ÝµÄMilitaryCorpus¡£ÔÚË«Ïò±àÂëÆ÷´ÊÏòÁ¿±í´ï²ãºÍÔÚBERTµÄÖ¸µ¼ÏÂ£¬ÀûÓÃ¸ÃÄ£ÐÍ»ñµÃ´Ê¼¶×Ö·û¡£ÔÚBiª²LSTMµÄÖ¸µ¼ÏÂ£¬¸Ã²ãÌáÈ¡ÉÏÏÂÎÄÌØÕ÷£¬ÐÎ³ÉÌØÕ÷¾ØÕó£¬×îºóÓÃCRFÉú³É×îÓÅ±êÇ©ÐòÁÐ¡£

Shen½«Éî¶ÈÑ§Ï°ÓëÖ÷¶¯Ñ§Ï°Ïà½áºÏ£¬ÒÔ¼õÉÙ±ê¼ÇµÄÑµÁ·Êý¾ÝµÄÊýÁ¿¡£ÒýÈëÁËÒ»ÖÖÇáÁ¿¼¶µÄNER·½·¨£¬¼´CNNª²CNNª²LSTMÄ£ÐÍ£¬ÒÔ¼Ó¿ì²Ù×÷¡£¸ÃÄ£ÐÍÓÉÒ»¸öCNN×Ö·û±àÂëÆ÷¡¢Ò»¸öCNNµ¥´Ê±àÂëÆ÷ºÍÒ»¸öLSTM±êÇ©½âÂëÆ÷×é³É¡£LukaGligicÒýµ¼Éñ¾­ÍøÂç(NN)Ä£ÐÍÍ¨¹ýÇ¨ÒÆÑ§Ï°¶ÔÎ´×¢ÊÍµÄµç×Ó½¡¿µ¼ÇÂ¼(EHR)ÉÏÖ´ÐÐµÄ´ÎÒªÈÎÎñ½øÐÐ´ÊÇ¶ÈëÔ¤ÑµÁ·£¬²¢½«Êä³öÇ¶Èë×÷ÎªÒ»ÏµÁÐNN¼Ü¹¹µÄ»ù´¡¡£Van CuongTran×é×°ÁËÒ»ÖÖ·½·¨£¬Ê¹ÓÃÖ÷¶¯Ñ§Ï°(AL)ºÍ×ÔÎÒÑ§Ï°£¬Í¨¹ýÊ¹ÓÃ»úÆ÷±ê¼ÇºÍÊÖ¶¯±ê¼ÇµÄÊý¾ÝÀ´¼õÉÙÍÆÎÄÁ÷ÖÐNERÈÎÎñµÄ¹¤×÷¸ººÉ¡£CRFÒ²±»Ñ¡Îª¸ß¶È¿É¿¿°¸ÀýµÄËã·¨¡£Kung½¨Á¢ÁËÒ»¸ö»ùÓÚÆÕÍ¨»°NERÄ£¿éµÄÇ¨ÒÆÑ§Ï°ÏµÍ³£¬ÔÚÔÖº¦¹ÜÀíÖÐ¶ÔËðÊ§ÐÅÏ¢½øÐÐÊÕ¼¯ºÍ·ÖÎö¡£Õë¶ÔÎÄÎïÇøÈ±·¦±êÇ©Êý¾ÝµÄÇé¿ö£¬ÕÅÏþÃ÷Ìá³öÁËÒ»¸öÄ£ÐÍ¡ª¡ªÎÄÎïNERµÄ°ë¼à¶½Ä£ÐÍ£¬Õâ¸öÄ£ÐÍÀûÓÃÃ»ÓÐ±êÇ©Êý¾ÝÑµÁ·µÄBiª²LSTMºÍCRFÄ£ÐÍ£¬»ñµÃÁËÓÐÐ§µÄÊ¶±ðÐÔÄÜ¡£

ÌØ¶¨ÁìÓòNERµÄÖ÷ÒªÀ§ÄÑÔÚÓÚÈ±·¦¹æ·¶µÄ±ê×¢ÓïÁÏ£¬È»¶ø£¬Éî¶ÈÍøÂçÄ£ÐÍµÄÑµÁ·Í¨³£ÐèÒªÒ»¸ö´óµÄ×¢ÊÍÓïÁÏ¿âÀ´ÑµÁ·¡£Òò´Ë£¬Éî¶ÈÍøÂçÄ£ÐÍÖ±½ÓÓ¦ÓÃÓÚÄ³Ò»ÌØ¶¨ÁìÓòµÄ×÷ÓÃÍùÍù²»´ó¡£±¾½ÚÍ¨¹ý½áºÏÖ÷¶¯Ñ§Ï°ºÍÇ¨ÒÆÑ§Ï°£¬Ìá³öÁËÒ»ÖÖ¿¼ÂÇÖ÷¶¯Ñ§Ï°µÄÄ£ÐÍÇ¨ÒÆ·½·¨£¬¶ÔNERµÄÑÐ¾¿»ùÓÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯£¬ÔÚ¹Å¼®ÑÐ¾¿ÁìÓòÖÐÓ¦ÓÃNER¼¼ÊõÊÇºÜÓÐ±ØÒªµÄ£¬¹Å¼®ÎÄ±¾ÍùÍù¾ßÓÐ¸´ÔÓµÄÓïÑÔÐÎÊ½ºÍÌØ¶¨µÄÎÄ»¯±³¾°£¬¶øÆäÖÐÔÌº¬µÄ·á¸»ÊµÌåÐÅÏ¢¶ÔÓÚÉîÈëÀí½âÀúÊ·¡¢ÎÄ»¯ºÍÉç»áµÈ·½ÃæÐÅÏ¢¾ßÓÐÖØÒªÒâÒå£¬Ó¦ÓÃNER¼¼Êõ¿ÉÒÔÓÐÐ§µØ×Ô¶¯»¯ÊµÌåÊ¶±ðµÄ¹ý³Ì£¬Í¨¹ýÊ¶±ðºÍ±ê×¢¹Å¼®ÎÄ±¾ÖÐµÄÃüÃûÊµÌå£¬°üÀ¨ÈËÃû¡¢µØÃû¡¢»ú¹¹Ãû¡¢ÈÕÆÚµÈ£¬´Ó¶øÌá¹©¸ü¸ßÐ§¡¢×¼È·µÄÎÄ±¾·ÖÎöºÍÐÅÏ¢³éÈ¡¡£ÑÐ¾¿Õß¿ÉÒÔ¸ü¼Ó·½±ãµØ½øÐÐ½øÒ»²½µÄÎÄ±¾·ÖÎö¡¢ÐÅÏ¢¼ìË÷ºÍÖªÊ¶·¢ÏÖ¡£Í¨¹ýÔ¤ÑµÁ·ºÍÎ¢µ÷BERTÄ£ÐÍ£¬ÀûÓÃÏÖ´úÎÄ±¾Êý¾ÝµÄ·á¸»ÓïÑÔ±íÊ¾£¬¸Ã·½·¨ÄÜ¹»Ìá¸ß¹Å¼®ÎÄ±¾µÄNER×¼È·¶ÈºÍÎÈ½¡ÐÔ£¬Îª¹Å¼®ÎÄÏ×µÄÊý×Ö»¯´¦ÀíºÍÑÐ¾¿Ìá¹©ÁËÓÐÁ¦µÄ¹¤¾ßºÍ¼¼ÊõÖ§³Ö¡£

3£®5£®3ÊµÑé¹ý³Ì

ÔÚ±¾½ÚÌá³öµÄÄ£ÐÍµÄÑµÁ·¹ý³ÌÖÐ£¬²ÉÓÃÁËÖ÷¶¯Ñ§Ï°ºÍ×ÔÎÒÑ§Ï°Ïà½áºÏµÄ·½·¨£¬²¢Ñ¡ÔñCRF²ãµÄÌõ¼þ¸ÅÂÊ×÷ÎªCRF²ãÔ¤²âµÄÖÃÐÅ¶È(nx)¡£ÔÚµü´ú¹ý³ÌÖÐ£¬ÖÃÐÅ¶È¸ßÓÚãÐÖµµÄÑù±¾Ö±½Ó×÷ÎªÑµÁ·Ñù±¾¼ÓÈë£» ÖÃÐÅ¶ÈµÍÓÚãÐÖµµÄÑù±¾Ôò½»¸øÈË¹¤±ê×¢¡£Õâ½«½â¾öÁìÓòÓïÁÏ¿âÊý¾ÝµÄÎÊÌâ£¬²¢Ìá¸ßÄ£ÐÍµÄÆÕÊÊÐÔ¡£¿¼ÂÇ¼¤»îÑ§Ï°·½·¨µÄALBERTª²AttBiLSTMª²CRFÄ£ÐÍÇ¨ÒÆÈçÍ¼3£®6ËùÊ¾¡£




Ëã·¨¿¼ÂÇ¼¤»îÑ§Ï°µÄÄ£ÐÍÇ¨ÒÆ£¨L¡¢U¡¢M¡¢Conf£©
ÊäÈë£º 

L£º ÓÐ±ê¼ÇµÄÑµÁ·Êý¾Ý¼¯£» 

U£º Î´±ê¼ÇµÄÑµÁ·Êý¾Ý¼¯£» 

M£º ÄâÒéÄ£Ê½£»

Conf: ÖÃÐÅË®Æ½¡£

Êä³ö£º ÑµÁ·ºÃµÄÄ£ÐÍM¡ä¡£

1£º //Ä£ÐÍ×ªÒÆ

2£º Ê¹ÓÃÑµÁ·¼¯L½øÐÐÑµÁ·£¬µÃµ½Ä£ÐÍM

3£º Ê¹ÓÃÄ£ÐÍMÔ¤²âÎ´±ê¼ÇµÄÊý¾Ý¼¯U

4£º ¼ÆËãÄ£ÐÍCRF²ãµÄÌõ¼þ¸ÅÂÊµÄµÃ·Ö£¨Y|X£©×÷ÎªÖÃÐÅË®Æ½Conf

5: //Ö÷¶¯Ñ§Ï°

6£º ¶ÔÃ¿¸öÑù±¾µÄÃ¿¸öÖÃÐÅ¶ÈÖ´ÐÐ²Ù×÷

7£º Ñ¡ÔñËùÓÐConf¡ÝConfhighµÄÑù±¾Uhigh£¬½«Æä¼ÓÈëL£¨L=L+Uhigh£©£¬²¢´ÓU£¨U=U-Uhigh£©ÖÐÉ¾³ýUhigh

8£º Ñ¡ÔñËùÓÐConf<ConflowµÄÑù±¾Ulow£¬¶ÔÆä½øÐÐÊÖ¶¯ÖØÐÂ×¢ÊÍ£¬½«Æä¼ÓÈëL£¨L=L+Ulow£©£¬²¢´ÓU£¨U=U-Ulow£©ÖÐÉ¾³ýUlow

9£º °´ÕÕÉÏÊö²½Öèµü´ún´Î£¬Ö±µ½Ä£ÐÍM¡äÊÕÁ²

10£º ½áÊø

11£º ·µ»ØÑµÁ·¹ýµÄÄ£ÐÍM¡ä



Í¼3£®6¿¼ÂÇ¼¤»îÑ§Ï°·½·¨µÄALBERTª²AttBiLSTMª²CRFÄ£ÐÍÇ¨ÒÆ

±¾½Ú²ÉÓÃ»ùÓÚÇáÁ¿¼¶¶àÍøÂçÐ­×÷ºÍÖ÷¶¯Ñ§Ï°µÄÐÂÐÍÖÐÎÄÏ¸Á£¶ÈNER·½·¨½øÐÐÊ¶±ð¡£Ê×ÏÈ£¬ALBERT±»ÓÃÀ´ÌáÈ¡ÎÄ±¾Êý¾ÝµÄ´ÊÏòÁ¿£¬Ò»¸öAttBiLSTM±»ÓÃÀ´´ÓÊäÈëÏòÁ¿ÖÐ²¶×½ÌØÕ÷£¬²¢»ñµÃÎÄ±¾µÄÉÏÏÂÎÄÐÅÏ¢¡£Ç°Ò»¸öÍøÂçÊä³öµÄÌØÕ÷¾ØÕóÓÉCRF±ê¼Ç£¬ÒÔ»ñµÃ±ê¼ÇµÄÐòÁÐ¡£È»ºó£¬Ìá³öÁËÒ»ÖÖ¿¼ÂÇÖ÷¶¯Ñ§Ï°µÄÄ£ÐÍ×ªÒÆ·½·¨£¬Í¨¹ýÔÚÔ´ÓòÉÏÑµÁ·µÃµ½µÄÄ£ÐÍ×ªÒÆµ½Ä¿±êÓò£¬µÃµ½Ò»¸öÐÂµÄÄ£ÐÍ¡£ÔÚÐÂÄ£ÐÍµÄ»ù´¡ÉÏ£¬Ö÷¶¯Ñ§Ï°±»ÓÃÀ´±ê¼ÇÎ´±ê¼ÇµÄÊý¾Ý£¬ÒÔ²»¶ÏÔö¼ÓÊý¾ÝÁ¿²¢Ìá¸ßÄ£ÐÍµÄÖÊÁ¿¡£

ÎªÁËÑéÖ¤ËùÌá³öµÄ·½·¨µÄÓÐÐ§ÐÔ£¬±¾½ÚÉè¼ÆÁËÏà¹ØµÄ±È½ÏÊµÑé£¬½«ÆäÓëÖ÷Á÷µÄNER·½·¨½øÐÐ±È½Ï¡£´ËÍâ£¬Kª²fold½»²æÑéÖ¤·¨±»ÓÃÀ´½«ÓïÁÏ¿âÊý¾Ý¼¯»®·ÖÎª10¸öÏàµÈµÄ²¿·Ö£¬Ã¿¸ö²¿·Ö¶¼Í¨¹ý·Ö²ã³éÑùµÃµ½¡£ÊµÑéÍ¨¹ýÂÖ»»9²¿·Ö½øÐÐÑµÁ·£¬Ê£ÓàÊý¾Ý½øÐÐ²âÊÔ£¬ÆÀ¹ÀµÄÖ¸±êÊÇÕÙ»ØÂÊ£¨R£©¡¢¾«È·ÂÊ£¨P£©ºÍF1ÆÀ·Ö£¬ÈçÊ½(3£®3)~Ê½(3£®5)ËùÊ¾¡£×îºó£¬½«10¸öÊµÑéµÄ½á¹ûÏà¼Ó£¬ÔÙÈ¡Æ½¾ùÖµ£¬¿ÉÒÔ×÷ÎªÄ£ÐÍÓÅ»¯µÄÒ»¸öÖ¸±ê£º 

ÕÙ»ØÂÊ=TPTP+FN¡Á100%(3£®3)
¾«È·ÂÊ=TPTP+FP¡Á100%(3£®4)
F1ÆÀ·Ö=2¡Á¾«È·ÂÊ¡ÁÕÙ»ØÂÊ¾«È·ÂÊ+ÕÙ»ØÂÊ¡Á100%(3£®5)


±¾ÊéµÄ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯°üº¬45±¾ÒÑ¾­±ê×¢ºÃµÄ¹À¼ÆÎÄ±¾Êé¼þ£¬ÆäÖÐ°üÀ¨¹Å´úµÄÊé¼®¡¢ÎÄÏ×ºÍÊÖ¸å£¬Í¨³£°üº¬ÁË¸÷ÖÖÁìÓòµÄÖªÊ¶¡¢ÀúÊ·ÊÂ¼þ¡¢ÎÄÑ§×÷Æ·µÈ£¬±¾Êé¶ÔÆäÖÐ¹Å¼®¹ÊÊÂÖÐÈËÎï¡¢µØµã¡¢×÷Õß¡¢ÊÕ²ØµØµÈÊ®¶à¸öÐÅÏ¢½øÐÐÁË±ê×¢£¬ÓÃÓÚÊµÌåÊ¶±ðÑÐ¾¿¡£Õâ¸öÊý¾Ý¼¯µÄÌØµãÔÚÓÚËü¾Û½¹ÓÚÖÐ¹úµÄÉÙÊýÃñ×å¹Å¼®ÎÄÏ×£¬ÎªÑÐ¾¿ÕßÌá¹©ÁËÉîÈëÁË½âºÍÌ½Ë÷ÖÐ¹ú¶àÔªÎÄ»¯ÒÅ²úµÄ»ú»á¡£Í¨¹ý¶Ô¹Å¼®µÄÑÐ¾¿£¬ÈËÃÇ¿ÉÒÔ¸üºÃµØÀí½â¹Å´úÉç»áºÍË¼Ïë£¬ÍÚ¾ò±¦¹óµÄÎÄ»¯ÒÅ²ú£¬ÒÔ¼°ÍÆ¶¯Ñ§ÊõÑÐ¾¿ºÍÎÄ»¯´«³Ð¡£

»ñµÃÏàÓ¦µÄÎÄ±¾Êý¾Ýºó£¬±¾½Ú¶ÔÓïÁÏ¿â½øÐÐ×¢ÊÍ¡£×¢ÊÍÊ¹ÓÃYEDDA(ÇáÁ¿¼¶Ð­×÷ÎÄ±¾¿ç¶È×¢ÊÍ¹¤¾ß)ÏµÍ³¶Ô8ÖÖÀàÐÍµÄÃüÃûÊµÌå½øÐÐÊÖ¹¤×¢ÊÍ£¬ÓïÁÏ¿âÎªÖÐÎÄ¡£ÎªÁË»ñµÃ¸ßÖÊÁ¿µÄ±êÇ©Ô¤²â½á¹û²¢Ìí¼ÓÏàÓ¦µÄÔ¼ÊøÌõ¼þ£¬±¾½ÚÊ¹ÓÃBIO×¢ÊÍ·½·¨¡£±¾½Ú½«Ã¿¸öÔªËØ×¢ÊÍÎª¡°Bª²ÊµÌå¡±¡¢¡°Iª²ÊµÌå¡±»ò¡°O¡±¡£¡°Bª²ÊµÌå¡±±íÊ¾¸ÃÆ¬¶ÎÊÇXÀàÐÍµÄ£¬²¢ÇÒ¸ÃÏîÄ¿Î»ÓÚÁ£×ÓµÄ¿ªÍ·¡£¡°Iª²ÊµÌå¡±ÒâÎ¶×Å¸ÃÆ¬¶ÎÊÇXÀàÐÍµÄ£¬²¢ÇÒ¸ÃÔªËØÎ»ÓÚÆ¬¶ÎµÄÖÐ¼ä¡£¡°O¡±±íÊ¾¸ÃÆ¬¶Î²»ÊôÓÚÈÎºÎÀàÐÍ¡£

3£®5£®4ÊµÑé½á¹û

ALBERTª²AttBiLSTMª²CRFÓëÆäËû»ù×¼Ëã·¨Ò»ÆðÓ¦ÓÃÓÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯£¬NERµÄ½á¹ûÈç±í3£®4ËùÊ¾¡£¿ÉÒÔ¿´³ö£¬ALBERTª²AttBiLSTMª²CRFÔÚP¡¢RºÍF1ÆÀ·Ö·½ÃæÓÅÓÚCLUENER2020Ï¸Á£¶ÈÊý¾Ý¼¯·¢²¼ÕßÌá¹©µÄRoBERTaµÄ×î¼Ñ½á¹û¡£ÌØ±ðÊÇËüµÄF1ÆÀ·Ö¸ß³ö5£®4%¡£ÎªÁË³¹µ×ÑéÖ¤²»Í¬ALBERT°æ±¾¶ÔÊµÌåÊ¶±ðÐ§¹ûµÄÓ°Ïì£¬±¾½ÚÊ¹ÓÃÁËÎ¢Ð¡¡¢»ù±¾¡¢´óºÍxlargeËÄ¸ö°æ±¾½øÐÐ±È½Ï¡£±í3£®4ÏÔÊ¾ÁË²»Í¬Ëã·¨ÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏµÄµÃ·ÖÇé¿ö¡£¿ÉÒÔ¿´³ö£¬ÕûÌåÐ§¹û²¢Ã»ÓÐËæ×ÅÄ£ÐÍÔ¤ÑµÁ·ÓïÁÏ¿â´óÐ¡ºÍ²ÎÊýµÄÔö¼Ó¶øÔ½À´Ô½ºÃ¡£×îºÃµÄ½á¹û³öÏÖÔÚ´ó°æ±¾ÖÐ£¬ÆäÖÐ¾«È·ÂÊ¡¢ÕÙ»ØÂÊºÍF1ÆÀ·Ö·Ö±ðÎª0£®9253¡¢0£®8702ºÍ0£®8962¡£ÕâÐ©½á¹û±ÈÌáÒéµÄ»ù×¼µÄ×î¼Ñ½á¹û·Ö±ð¸ß13£®27%¡¢5£®33%ºÍ9£®2%¡£


±í3£®4»ùÓÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏ²»Í¬Ëã·¨µÄ±È½Ï


·½·¨
¾«È·ÂÊ
ÕÙ»ØÂÊ
F1ÆÀ·Ö
Biª²LSTMª²CRF
0£®7106
0£®6120
0£®6936
ALBERTª²Biª²LSTMª²CRF
0£®8876
0£®8270
0£®8555
ALBERTª²CRF
0£®8094
0£®6897
0£®7000
ALBERTª²Biª²LSTM
0£®7736
0£®8132
0£®7925
En2Biª²LSTMª²CRF
0£®9156
0£®8337
0£®8720
ALBERT
0£®7992
0£®6459
0£®7107
BERT
0£®7724
0£®8046
0£®7882
RoBERTa
0£®7926
0£®8169
0£®8042
ALBERTª²AttBiLSTMª²CRF (our)
0£®9253
0£®8702
0£®8962


´ÓÇ°ÃæµÄÊµÑé½á¹û¿ÉÖª£¬ALBERTª²AttBilSTMª²CRF£¨our£©ÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏÈ¡µÃÁË×îºÃµÄ½á¹û£¬ËùÒÔÔÚÄ£ÐÍ×ªÒÆ²¿·Ö²ÉÓÃÁËALBERTª²AttBiLSTMª²CRF(our)Ä£ÐÍ¡£

±¾½ÚÊ¹ÓÃÁËÒ»¸ö¾«¼òµÄÔ¤ÑµÁ·Ä£ÐÍ¶ÔÎÄ±¾Êý¾Ý½øÐÐ½×¶ÎÐÔµÄÎÄ±¾Ç¶Èë±íÊ¾£» Ê¹ÓÃBiª²LSTM¶ÔÎÄ±¾ÊäÈë½øÐÐÌØÕ÷ÌáÈ¡£¬ÕâÑù¿ÉÒÔÓÐÐ§µØ²¶×½ÎÄ±¾µÄÉÏÏÂÎÄÐÅÏ¢£¬ÌáÈ¡µÄÌØÕ÷ÊäÈë±»Ëæ»ú·ÖÅäµ½ÏÖ³¡ÍøÂç£¬ÒÔ»ñµÃÏàÓ¦ÊµÌåµÄÎÄ±¾Êý¾Ý¡£Ëæºó£¬±¾½ÚÍ¨¹ý½áºÏÖ÷¶¯Ñ§Ï°ºÍÇ¨ÒÆÑ§Ï°£¬Ìá³öÁËÒ»ÖÖ¿¼ÂÇÖ÷¶¯Ñ§Ï°µÄÄ£ÐÍÇ¨ÒÆ·½·¨¡£¸Ã·½·¨ÀûÓÃ¹«¹²Êý¾Ý¼¯¶ÔÌá³öµÄALBERTª²AttBiLSTMª²CRF£¨our£©Ä£ÐÍ½øÐÐÔ¤ÑµÁ·£¬²¢¶ÔÁìÓòÊý¾Ý½øÐÐ±ê¼ÇÒÔµ÷ÕûÄ£ÐÍ²ÎÊý£¬¶ÔÎ´±ê¼ÇµÄÁìÓòÊý¾Ý½øÐÐÖ÷¶¯Ñ§Ï°£¬ÓÃÓÚÓÅ»¯ÃûÎªÊµÌåÊ¶±ðµÄÁìÓòµÄ½á¹û¡£ÎªÁËÑéÖ¤ËùÌá³öALBERTª²AttBiLSTMª²CRF(our)·½·¨µÄÓÐÐ§ÐÔ£¬¸Ã·½·¨ÓëBERT¡¢RoBERTaµÈÖ÷Á÷·½·¨ÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏ½øÐÐÁËÑéÖ¤£» ÓëÄ¿Ç°×î¼Ñ»ù×¼RoBERTaª²wwmª²largeª²extÏà±È£¬½á¹ûµÄ×¼È·ÂÊÌá¸ßÁË9£®2%¡£Ê¹ÓÃÔÚ¡°ÖÐ¹úÉÙÊýÃñ×å¹Å¼®×ÜÄ¿ÌáÒª¡±Êý¾Ý¼¯ÉÏÈ¡µÃ×î¼Ñ½á¹ûµÄALBERTª²AttBiLSTMª²CRF£¨our£©Ä£ÐÍ×÷ÎªÔ´Ä£ÐÍ£¬±¾½ÚÊ¹ÓÃMTALÇ¨ÒÆµ½Manufacturingª²NERÊý¾Ý¼¯¡£Ç¨ÒÆ½á¹ûÏÔÊ¾¸Ä½øÁË3£®55%£¬Ö¤Ã÷ÁËALBERTª²AttBiLSTMª²CRFÄ£ÐÍÇ¨ÒÆ¿¼ÂÇ¼¤»îÑ§Ï°·½·¨µÄÓÐÐ§ÐÔ¡£

ÀýÈçÔÚÃÉ¹Å×å¾íÎÄÊéÖÐµÄÒ»¶Î£º ¡°°¢À­ÉÆÆìÔýÈø¿Ë¶àÂÞ±´ÀÕÂÞ²·²Ø¶à¶û¼Ã×ÉÎÄ1¼þ¡£1Ò³¡£ÇåÇ¬Â¡¶þÊ®Ò»Äê(1756)ÈýÔÂÂÞ²·²Ø¶à¶û¼Ã×«¡£ÃÉ¹ÅÎÄ¡£°¢À­ÉÆÆìÔýÈø¿Ë¶àÂÞ±´ÀÕÂÞ²·²Ø¶à¶û¼ÃÖÂÈ«ÆìÌ¨¼ª¡¢Ëþ²¼ÄÒ¡¢À®Âï×ÉÎÄ¡£ÎÄÖÐ¼ÇÔØ×¼Ðí¸ÊÖé¶û°ÍÀ®ÂïÔÚ°¢À­ÉÆÆì¾³ÄÚÄ¼»¯Ö®ÊÂ¡£¶ÔÑÐ¾¿ÃÉ¹Å×å·ð½ÌÎÄ»¯ÓÐÊ·ÁÏ¼ÛÖµ¡£È«×ÚÃû¡¶Çå´ú°¢À­ÉÆÆìµµ°¸¡·£¬È«×ÚºÅ101£¬Ä¿Â¼ºÅ3£¬¾íºÅ58£¬¼þºÅ23£¬µÚ68Ò³¡£Ö½£¬¿¬Ìå£¬Ä«Êé£¬Ò³Ãæ31cm¡Á28cm¡£±£´æÍêºÃ¡£½ñ²Ø°¢À­ÉÆ×óÆìµµ°¸¹Ý¡£(ÎÚÈçÏ£À­ÌØµÇÂ¼ÈüÒô³¯¸ñÍ¼Òë)¡±¶ÔÓÚÕâ¶Î»°µÄ³éÈ¡½á¹ûÈç±í3£®5ËùÊ¾¡£


±í3£®5BERTÄ£ÐÍ±êÇ©³éÈ¡½á¹û


¿ªÊ¼
½áÊø
ÎÄ±¾
±êÇ©
1
19
°¢À­ÉÆÆìÔýÈø¿Ë¶àÂÞ±´ÀÕÂÞ²·²Ø¶à¶û¼Ã×ÉÎÄ
¹Å¼®Ãû³Æ
26
40
ÇåÇ¬Â¡¶þÊ®Ò»Äê(1756)ÈýÔÂ
Ê±¼ä
194
201
°¢À­ÉÆ×óÆìµµ°¸¹Ý
ÊÕ²Øµ¥Î»