µÚ5ÕÂ»ùÓÚ»úÆ÷Ñ§Ï°µÄ°²È«¼ì²â

Ëæ×ÅÍøÂç¿Õ¼ä°²È«ÎÊÌâÏò¸´ÔÓ»¯¡¢Éç»á»¯µÈÇ÷ÊÆ·¢Õ¹£¬ÔÚÍøÂç¹¥»÷Óë·ÀÓùÖÐÔËÓÃÈË¹¤ÖÇÄÜ¼¼ÊõÔ½À´Ô½³ÉÎª·Ç³£±ØÒªµÄÑ¡Ôñ¡£¶øÐí¶àÍøÂç¿Õ¼ä°²È«ÎÊÌâµÄ¼ì²âÊ¶±ð¶¼¿ÉÒÔ¹é½áÎª·ÖÀàÎÊÌâ£¬½ø¶øÔËÓÃ·ÖÀàÆ÷Ïà¹ØÀíÂÛºÍ¼¼ÊõÀ´½â¾ö¡£±¾ÕÂÒÔÍøÂçÈëÇÖ¡¢SQL×¢ÈëÒÔ¼°Ðé¼ÙÐÂÎÅµÄ¼ì²âÎªÀý½éÉÜ»úÆ÷Ñ§Ï°·ÖÀàÆ÷¼¼ÊõµÄÔËÓÃ·½·¨£¬Éæ¼°ÍøÂç²ã¡¢Ó¦ÓÃ²ãºÍÄÚÈÝ²ã¡£
5.1ÍøÂçÈëÇÖ¼ì²â
5.1.1¸ÅÊö


ÈëÇÖ¼ì²âÊÇÍøÂç°²È«ÖÐµÄ¾­µäÎÊÌâ£¬ÈëÇÖÊÇÖ¸¹¥»÷ÕßÎ¥·´ÏµÍ³°²È«²ßÂÔ£¬ÊÔÍ¼ÆÆ»µ¼ÆËã×ÊÔ´µÄÍêÕûÐÔ¡¢»úÃÜÐÔ»ò¿ÉÓÃÐÔµÄÈÎºÎÐÐÎª¡£ÓÉ¶¨Òå¿É¼û£¬ÈëÇÖ²¢·ÇÒ»ÖÖÌØ¶¨µÄÈëÇÖÐÐÎª£¬¶øÊÇÒ»ÀàÈëÇÖÐÐÎªµÄÍ³³Æ¡£³£¼ûµÄÍøÂç¹¥»÷·½Ê½°üÀ¨¾Ü¾ø·þÎñ¹¥»÷¡¢Î±×°Éí·ÝÈëÇÖµÈ¡£
ÈëÇÖ¼ì²âÏµÍ³£¨Intrusion Detection System£¬IDS£©ÊÇÒ»ÖÖÍøÂç°²È«Éè±¸£¬¿ÉÒÔ¶ÔÈëÇÖÐÐÎª½øÐÐÊµÊ±¼à²â£¬²¢ÔÚ±ØÒªÊ±·¢³ö¸æ¾¯»ò²ÉÈ¡·ÀÓù´ëÊ©£¬ÇÐ¶ÏÈëÇÖÕßµÄÍøÂç·ÃÎÊ¡£×îÔçIDSÏµÍ³µÄÏà¹Ø½éÉÜÓÉDenningÓÚ1980Äê·¢±íÓÚIEEEÈí¼þ¹¤³Ì»ã¿¯ÉÏ¡£
IDSÓÐ¶àÖÖ²»Í¬µÄ»®·Ö·½·¨£¬¿ÉÒÔ¸ù¾ÝÐÅÏ¢À´Ô´¡¢¼ì²â·½·¨¡¢ÌåÏµ½á¹¹½øÐÐ·ÖÀà¡£¸ù¾ÝÐÅÏ¢À´Ô´¿É·ÖÎª»ùÓÚÖ÷»úµÄIDS¡¢»ùÓÚÍøÂçµÄIDSºÍ»ìºÏÐÍIDS£» ¸ù¾Ý¼ì²â·½·¨¿É·ÖÎªÒì³£¼ì²âºÍÎóÓÃ¼ì²â£» ¸ù¾ÝÌåÏµ½á¹¹µÄ²»Í¬£¬¿ÉÒÔ·ÖÎª¼¯ÖÐÊ½IDSºÍ·Ö²¼Ê½IDS¡£ÒÔÏÂ¶ÔÕâÐ©Ö÷ÒªIDSÄ£ÐÍ½øÐÐ½éÉÜ¡£
£¨1£© Òì³£¼ì²â£¨anomaly detection£©£º ÕâÖÖ·½·¨ÒªÇóÏÈ½¨Á¢Õý³£ÐÐÎªµÄÌØÕ÷ÂÖÀªºÍÄ£Ê½±íÊ¾£¬È»ºóÔÚ¼ì²âÊ±½«¾ßÌåÐÐÎªÓëÕý³£ÐÐÎª½øÐÐ±È½Ï£¬Èç¹ûÆ«²î³¬¹ýÒ»¶¨Öµ£¬ÔòÈÏÎªÊÇÈëÇÖÐÐÎª£¬·ñÔòÎªÕý³£ÐÐÎª¡£ÕâÖÖ¼ì²âÄ£ÐÍ²»ÐèÒª¶ÔÃ¿ÖÖÈëÇÖÐÐÎª½øÐÐ¶¨Òå£¬ÄÜÓÐÐ§¼ì²âÎ´ÖªµÄÈëÇÖ£¬Òò´ËÂ©±¨ÂÊµÍ£¬µ«Îó±¨ÂÊ¸ß¡£
£¨2£© ÎóÓÃ¼ì²â£¨misuse detection£©£º ÊÂÏÈ¹¹½¨Òì³£²Ù×÷µÄÐÐÎªÌØÕ÷£¬½¨Á¢ÏàÓ¦µÄÄ£Ê½ÌØÕ÷¿â¡£µ±¼à²âµ½µÄÓÃ»§»òÏµÍ³ÐÐÎªÓëÌØÕ÷¿âÖÐµÄ¼ÇÂ¼ÏàÆ¥ÅäÊ±£¬ÔòÈÏÎª·¢ÏÖÈëÇÖ¡£ÓëÒì³£¼ì²â·½·¨Ïà·´£¬ÕâÖÖ·½·¨Îó±¨ÂÊµÍ¡¢Â©±¨ÂÊ¸ß¡£
£¨3£© »ùÓÚÖ÷»úµÄIDS£º ÆäÊý¾ÝÀ´Ô´ÓÚ¼ÆËã»ú²Ù×÷ÏµÍ³µÄÊÂ¼þÈÕÖ¾¡¢Ó¦ÓÃ³ÌÐòµÄÊÂ¼þÈÕÖ¾¡¢ÏµÍ³µ÷ÓÃ¡¢¶Ë¿Úµ÷ÓÃºÍ°²È«Éó¼Æ¼ÇÂ¼¡£Òò´Ë£¬ÕâÖÖIDSÊÇ¶ÔÖ÷»úÈëÇÖÐÐÎªµÄ¼ì²â¡£
£¨4£© »ùÓÚÍøÂçµÄIDS£º ÕâÖÖIDSÓÃÓÚ¼ì²âÕû¸öÍø¶ÎµÄÈëÇÖÐÅÏ¢¡£ÆäÊý¾ÝÀ´Ô´ÓÚÍøÂçÍ¨ÐÅÊý¾Ý°ü£¬ÓÉ²¿ÊðÓÚÍøÂçµÄÊý¾Ý°ü²É¼¯Æ÷ÐáÌ½ÍøÂçÉÏµÄÊý¾Ý°ü¡£ÕâÖÖÊý¾Ý°üº­¸ÇÁË¸÷ÖÖÀàÐÍÍøÂçµÄÇëÇóºÍÏìÓ¦¼ÇÂ¼£¬Í¨³£ÓÉIPµØÖ·¡¢¶Ë¿ÚºÅ¡¢Êý¾Ý°ü³¤¶ÈµÈÐÅÏ¢×é³É¡£




£¨5£© »ìºÏÐÍIDS£º Ç°Êö¸÷ÖÖIDS¶¼´æÔÚÒ»¶¨²»×ã£¬¸÷ÓÐÆäÓÅÊÆºÍÈ±µã£¬Òò´Ë»ìºÏÐÍIDSÄÜ¹»½ÏºÃµØÕûºÏ¸÷×ÔµÄÓÅÊÆ¡£»ìºÏµÄ·½Ê½ÓÐ»ùÓÚÍøÂçºÍ»ùÓÚÖ÷»úµÄ»ìºÏ»òÕßÒì³£¼ì²âºÍÎóÓÃ¼ì²âµÄ»ìºÏ¡£
²»¹ÜÊÇÄÄÖÖÀàÐÍµÄIDS£¬Æä¹¤×÷¹ý³Ì´óÌåÊÇÏàÍ¬µÄ£¬¿ÉÒÔ·ÖÎªÈý¸öÖ÷ÒªµÄ»·½Ú£¬¼´ÐÅÏ¢ÊÕ¼¯¡¢·ÖÀà¼ì²âºÍ¾ö²ß£¬ÆäÖÐ·ÖÀà¼ì²âºÍ¾ö²ß»·½ÚÊÇIDSµÄ¹Ø¼ü£¬¶¼ÐèÒªÒ»¶¨µÄÈË¹¤ÖÇÄÜ¼¼ÊõÀ´Ö§³Ö¡£
£¨1£© ÐÅÏ¢ÊÕ¼¯£º ÈëÇÖ¼ì²âµÄµÚÒ»²½ÊÇÐÅÏ¢ÊÕ¼¯£¬ÊÕ¼¯ÄÚÈÝ°üÀ¨ÏµÍ³¡¢ÍøÂç¡¢Êý¾Ý¼°ÓÃ»§»î¶¯µÄ×´Ì¬ºÍÐÐÎª¡£ÓÉ·ÅÖÃÔÚ²»Í¬Íø¶ÎµÄ´«¸ÐÆ÷»ò²»Í¬Ö÷»úµÄ´úÀíÀ´ÊÕ¼¯ÐÅÏ¢£¬°üÀ¨ÏµÍ³ºÍÍøÂçÈÕÖ¾ÎÄ¼þ¡¢ÍøÂçÁ÷Á¿¡¢·ÇÕý³£µÄÄ¿Â¼ºÍÎÄ¼þ¸Ä±ä¡¢·ÇÕý³£µÄ³ÌÐòÖ´ÐÐ¡£
£¨2£© ·ÖÀà¼ì²â£º ÊÕ¼¯µ½µÄÓÐ¹ØÏµÍ³¡¢ÍøÂç¡¢Êý¾Ý¼°ÓÃ»§»î¶¯µÄ×´Ì¬ºÍÐÐÎªµÈÐÅÏ¢±»ËÍµ½¼ì²âÒýÇæ¡£¼ì²âÒýÇæ¸ù¾Ý²»Í¬µÄ¼ì²â»úÖÆ½øÐÐ¼ì²â£¬µäÐÍµÄ·½·¨ÓÐÄ£Ê½Æ¥Åä¡¢¼à¶½Ñ§Ï°Ä£ÐÍ¡¢°ë¼à¶½Ñ§Ï°Ä£ÐÍºÍÀëÈºµã¼ì²âµÈ¡£µ±È»£¬ÔÚÖ´ÐÐ·ÖÀàÖ®Ç°£¬ÐèÒªÔÚÏµÍ³ºóÌ¨ÏÈ½øÐÐÄ£ÐÍÑµÁ·£¬Æä¿ÉÒÔÀëÏßÍê³É¡£
£¨3£© ¾ö²ß£º µ±¼ì²âµ½Ä³ÖÖÈëÇÖÐÐÎªÊ±£¬¿ØÖÆÌ¨°´ÕÕ¸æ¾¯²úÉúÔ¤ÏÈ¶¨ÒåµÄÏìÓ¦´ëÊ©£¬¿ÉÒÔÊÇÖØÐÂÅäÖÃÂ·ÓÉÆ÷»ò·À»ðÇ½¡¢ÖÕÖ¹½ø³Ì¡¢ÇÐ¶ÏÁ¬½Ó¡¢¸Ä±äÎÄ¼þÊôÐÔµÈ£¬Ò²¿ÉÒÔÊÇ¼òµ¥µØ·¢ËÍ¸æ¾¯¡£¾ö²ß×îÖ÷ÒªµÄÎÊÌâÔÚÓÚ£¬¼ì²âÆ÷µÄÕÙ»ØÂÊºÍ×¼È·ÂÊ²¢²»»á´ïµ½100%µÄÐ§¹û£¬µ¼ÖÂ¾ö²ßÊ±¿ÉÄÜ²úÉú²»ºÏÊÊµÄ´ëÊ©¡£
5.1.2Êý¾Ý¼¯
Ò»°ãÈÏÎªÊý¾ÝÖÊÁ¿¾ö¶¨ÁË»úÆ÷Ñ§Ï°ÐÔÄÜµÄÉÏÏÞ£¬¶ø»úÆ÷Ñ§Ï°Ä£ÐÍºÍËã·¨µÄÓÅ»¯×î¶àÖ»ÄÜ±Æ½üÕâ¸öÉÏÏÞ¡£Òò´ËÔÚÊý¾Ý²É¼¯½×¶ÎÐèÒª¶Ô²É¼¯ÈÎÎñ½øÐÐ¹æ»®¡£ÔÚÊý¾Ý²É¼¯Ö®Ç°£¬Ö÷ÒªÊÇ´ÓÊý¾Ý¿ÉÓÃÐÔ¡¢²É¼¯³É±¾¡¢ÌØÕ÷¿É¼ÆËãÐÔ¡¢´æ´¢³É±¾µÄ½Ç¶È½øÐÐ·ÖÎö£¬ÒÔ»ñµÃ¾¡¿ÉÄÜ¶àµÄÑù±¾ÌØÕ÷Îª»ù±¾Ä¿±ê¡£
ÈëÇÖ¼ì²âµÄÊý¾Ý²É¼¯·½·¨È¡¾öÓÚÈëÇÖ¼ì²âÏµÍ³µÄÀàÐÍ£¬¼´ÍøÂçÈëÇÖ¼ì²âºÍÖ÷»úÈëÇÖ¼ì²âÏµÍ³¡£¶ÔÓÚÍøÂçÈëÇÖ¼ì²â£¬²ÉÓÃÍøÂçÐáÌ½¡¢ÍøÂçÊý¾Ý°ü½Ø»ñµÈ·½·¨»ñµÃÁ÷Á¿Êý¾Ý¡£¶ÔÓÚÖ÷»úÈëÇÖ¼ì²â£¬²ÉÓÃµÄ·½·¨±È½ÏÁé»î£¬¼È¿ÉÒÔÊÇ²Ù×÷ÏµÍ³µÄ¸÷ÖÖÈÕÖ¾£¬Ò²¿ÉÒÔÊÇÄ³Ð©Ó¦ÓÃÏµÍ³µÄÈÕÖ¾£¬»¹¿ÉÒÔÍ¨¹ý¿ª·¢×¤ÁôÓÚÖ÷»úµÄÓ¦ÓÃÈí¼þµÈ·½·¨»ñµÃÖ÷»úÊý¾Ý¡£Òò´Ë£¬ÓëÍøÂçÁ¬½Ó¡¢ÍøÂçÇëÇóÓÐ¹ØµÄÌØÕ÷£¬ÒÔ¼°¸÷ÀàÈÕÖ¾ÖÐµÄÌØÕ÷¶¼ÊÇÈëÇÖ¼ì²â³£ÓÃµÄÊý¾ÝÔ´¡£
ÕâÀï½éÉÜÈëÇÖ¼ì²âÁìÓò³£ÓÃµÄÊý¾Ý¼¯£¬°üÀ¨NSLª²KDDµÈ£¬ÕâÐ©¹«¿ªµÄÊý¾Ý¼¯Îª°ïÖúÑÐ¾¿ÈËÔ±±È½Ï²»Í¬µÄÈëÇÖ¼ì²â·½·¨Ìá¹©ÁË»ù×¼¡£NSLª²KDDÊý¾Ý¼¯ÊÇÍ¨¹ýÍøÂçÊý¾Ý°üÌáÈ¡¶ø³É£¬ÓÉM.TavallaeeµÈÓÚ2009Äê¹¹½¨£¬Ëü¿Ë·þÁË¸üÔçÖ®Ç°KDD Cup 99Êý¾Ý¼¯ÖÐ´æÔÚµÄÒ»Ð©ÎÊÌâ¡£
NSLª²KDD¹²Ê¹ÓÃ41¸öÌØÕ÷À´ÃèÊöÃ¿ÌõÁ÷Á¿£¬ÕâÐ©ÌØÕ÷¿ÉÒÔ·ÖÎªÈý×é¡£
£¨1£© »ù±¾ÌØÕ÷£¨basic features£©£¬´ÓTCP/IPÁ¬½ÓÖÐÌáÈ¡¡£
£¨2£© Á÷Á¿ÌØÕ÷£¨traffic features£©£¬ÓëÍ¬Ò»Ö÷»ú»òÍ¬Ò»·þÎñÏà¹Ø¡£
£¨3£© ÄÚÈÝÌØÕ÷£¨content features£©£¬·´Ó³ÁËÊý¾Ý°üÖÐµÄÄÚÈÝ¡£
³ý´ËÖ®Íâ£¬Ã¿ÌõÁ÷Á¿¶¼´øÓÐÒ»¸ö±êÇ©£¬¼´normalºÍanomaly£¬±íÊ¾ÏàÓ¦µÄÁ÷Á¿ÎªÕý³£»òÒì³£¡£Òò´ËNSLª²KDDÊÇÒ»¸ö¶þ·ÖÀàµÄÒì³£¼ì²âÊý¾Ý¼¯¡£
´ÓÌØÕ÷¹¤³ÌµÄ½Ç¶È¿´£¬NSLª²KDDÊµ¼ÊÉÏÒÑ¾­Íê³ÉÁËÌØÕ÷¹¤³ÌÖÐµÄÌØÕ÷¿ÉÓÃÐÔ¡¢ÌØÕ÷²É¼¯£¬ÒÔ¼°ÑÜÉúÌØÕ÷µÄ¶¨ÒåºÍ¼ÆËã¡£Ê¹ÓÃ¸ÃÊý¾Ý¼¯½øÐÐ¼ì²âÊµÑé£¬Ö»Òª´ÓÌØÕ÷ÇåÏ´¡¢ÌØÕ÷Ñ¡Ôñ»òÌØÕ÷ÌáÈ¡¿ªÊ¼¾Í¿ÉÒÔ¡£
NSLª²KDDÃ¿ÌõÁ÷Á¿µÄ41¸öÌØÕ÷µÄº¬ÒåÈç±í5ª²1ËùÊ¾£¬±íÖÐÁÐ³öÁËÌØÕ÷Ãû³Æ¼°ÆäÀàÐÍ£¬ÆäÖÐcontinuousÊÇÁ¬ÐøÊýÖµÐÍ£¬symbolicÊÇ·ûºÅÀàÐÍ¡£ÀýÈç£¬protocol_typeÊôÓÚsymbolicÀàÐÍ£¬ËüµÄÈ¡Öµ·¶Î§ÊÇ {'tcp','udp'£¬'icmp'}£¬ÊÇÒ»ÖÖÃ¶¾ÙÖµ¡£


±í5ª²1NSLª²KDDÌØÕ÷




ÌØÕ÷ÀàÐÍ
ÌØÕ÷ÀàÐÍ

duration
continuous
is_guest_login
symbolic
protocol_type
symbolic
count
continuous
service
symbolic
srv_count
continuous
flag
symbolic
serror_rate
continuous
src_bytes
continuous
srv_serror_rate
continuous
dst_bytes
continuous
rerror_rate
continuous
land
symbolic
srv_rerror_rate
continuous
wrong_fragment
continuous
same_srv_rate
continuous
urgent
continuous
diff_srv_rate
continuous
hot
continuous
srv_diff_host_rate
continuous
num_failed_logins
continuous
dst_host_count
continuous
logged_in
symbolic
dst_host_srv_count
continuous
num_compromised
continuous
dst_host_same_srv_rate
continuous
root_shell
continuous
dst_host_diff_srv_rate
continuous
su_attempted
continuous
dst_host_same_src_port_rate
continuous
num_root
continuous
dst_host_srv_diff_host_rate
continuous
num_file_creations
continuous
dst_host_serror_rate
continuous
num_shells
continuous
dst_host_srv_serror_rate
continuous
num_access_files
continuous
dst_host_rerror_rate
continuous
num_outbound_cmds
continuous
dst_host_srv_rerror_rate
continuous
is_host_login
symbolic

´Óhttps://www.unb.ca/cic/datasets/nsl.htmlÏÂÔØÊý¾ÝÎÄ¼þ£¬¸ÃÊý¾ÝÑ¹ËõÎÄ¼þÖÐ°üº¬µÄÎÄ¼þËµÃ÷ÈçÏÂ¡£
KDDTrain + .TXT£º ÊÇÍêÕûµÄNSLª²KDDÑµÁ·¼¯£¬³ýÁË41¸öÌØÕ÷Íâ£¬»¹°üÀ¨Êý¾Ý°üÀàÐÍµÄ±êÇ©ºÍÄÑ¶ÈµÈ¼¶¡£ÆäÖÐ£¬Êý¾Ý°üÀàÐÍÓÐnormal£¬ÒÔ¼°back¡¢buffer_overflow¡¢guess_passwd¡¢portsweep¡¢rootkit¡¢satan¡¢smurf¡¢teardrop¡¢warezclient¡¢warezmasterµÈÈëÇÖÀàÐÍ¡£ÄÑ¶ÈµÈ¼¶±íÊ¾Ã¿Ìõ¼ÇÂ¼·ÖÀàÊ±ÅÐ¶ÏµÄÄÑÒ×³Ì¶È£¬ÊÇÒ»¸ö£Û0,21£Ý·¶Î§ÄÚµÄÕûÊý£¬ÊýÖµÔ½´ó±íÊ¾¸Ã¼ÇÂ¼Ô½ÈÝÒ×·ÖÀà£¬0ÊÇ×î²»ÈÝÒ×·ÖÀàµÄ¡£Õû¸öÊý¾Ý¼¯¹²125973Ìõ¼ÇÂ¼£¬ÄÑ¶ÈµÈ¼¶Ð¡ÓÚ15µÄ¼ÇÂ¼Õ¼2.94%£¬¿ÉÒÔ¿´³ö¾ø´ó²¿·Ö¼ÇÂ¼µÄ·ÖÀà±êÇ©¶¼ÊÇ±È½ÏÈ·ÇÐµÄ¡£
KDDTrain + .ARFF£º ÓëKDDTrain + .TXT´óÖÂÏàÍ¬£¬Ö»ÊÇÃ¿Ìõ¼ÇÂ¼²»°üº¬ÄÑ¶ÈµÈ¼¶£¬Í¬Ê±Êý¾Ý°üÀàÐÍµÄ±êÇ©±»¹éÀàÎªnormalºÍanomalyÁ½ÖÖ¡£¸ÃÎÄ¼þ´øÓÐ41¸öÌØÕ÷µÄÊôÐÔÃûºÍÀàÐÍÃèÊö£¬¿ÉÒÔÖ±½ÓÔÚWekaÖÐÊ¹ÓÃ¡£
KDDTrain + _20Percent.TXT£º ÊÇKDDTrain + .txtÎÄ¼þµÄ20£¥×Ó¼¯£¬Êµ¼ÊÉÏÊÇKDDTrain + .txtÇ°20%µÄ¼ÇÂ¼¡£
KDDTrain + _20Percent.ARFF£º ÊÇKDDTrain + .arffÎÄ¼þµÄ20£¥×Ó¼¯¡£
KDDTest + .TXT£º ÊÇÍêÕûµÄNSLª²KDD²âÊÔ¼¯£¬°üÀ¨¹¥»÷ÀàÐÍµÄ±êÇ©ºÍCSV¸ñÊ½µÄÄÑ¶ÈµÈ¼¶¡£
KDDTest + .ARFF£º ÊÇÍêÕûµÄNSLª²KDD²âÊÔ¼¯£¬´øÓÐARFF¸ñÊ½µÄ¶þ½øÖÆ±êÇ©¡£
KDDTestª²21.TXT£º ÊÇKDDTest + .txtÎÄ¼þµÄ×Ó¼¯£¬ÆäÖÐ²»°üÀ¨ÄÑ¶È¼¶±ðÎª21µÄ¼ÇÂ¼£¬¼´¸ÃÊý¾Ý¼¯ÖÐ¹²21¸öÄÑ¶ÈµÈ¼¶¡£
KDDTestª²21.ARFF£º ÊÇKDDTest + .arffÎÄ¼þµÄ×Ó¼¯£¬ÆäÖÐ²»°üÀ¨ÄÑ¶È¼¶±ðÎª21µÄ¼ÇÂ¼£¬¸ÃÊý¾Ý¼¯¹²°üº¬21¸öÄÑ¶ÈµÈ¼¶¡£
5.1.3Êý¾ÝÔ¤´¦Àí
¶ÔÓÚ·ÖÀàÈÎÎñÀ´Ëµ£¬ÓÉÓÚÔ­Ê¼Êý¾Ý¿ÉÄÜ´æÔÚÒì³£¡¢È±Ê§ÖµÒÔ¼°²»Í¬ÌØÕ÷µÄÈ¡Öµ·¶Î§²îÒì´óµÈÎÊÌâ£¬¶Ô»úÆ÷Ñ§Ï°»á²úÉúÓ°Ïì£¬Òò´Ë£¬ÔÚ½øÐÐ»úÆ÷Ñ§Ï°Ä£ÐÍÑµÁ·Ö®Ç°£¬ÐèÒªÏÈ¶ÔÊý¾Ý½øÐÐÔ¤´¦Àí¡£Êý¾ÝÔ¤´¦ÀíµÄÖ÷Òª¹ý³Ì°üÀ¨Êý¾ÝÇåÏ´¡¢È¥Á¿¸Ù¡¢ÀëÉ¢»¯µÈ¡£
1. Êý¾ÝÇåÏ´
¶Ô²É¼¯µ½µÄÊý¾Ý½øÐÐÇåÏ´£¬Ö÷Òª¹¤×÷°üÀ¨È±Ê§Öµ´¦ÀíºÍÒì³£Öµ´¦Àí¡£
1£© È±Ê§Öµ´¦Àí
È±Ê§ÖµÊÇÖ¸Ñù±¾ÖÐ´æÔÚÄ³¸ö»òÄ³Ð©ÌØÕ÷Ã»ÓÐÖµµÄÇé¿ö£¬¶Ô´Ë£¬¿ÉÒÔ²ÉÈ¡µÄ´¦Àí²ßÂÔÓÐÉ¾³ýÊý¾Ý¡¢Êý¾ÝÌî³ä¡£
Èç¹ûÕû¸öÊý¾Ý¼¯ÖÐµÄÄ³¸öÌØÕ÷ÖµÈ±Ê§µÃ½Ï¶à£¬¾Í¿ÉÒÔ¼òµ¥½«¸ÃÌØÕ÷ÉáÆú¡£Èç¹û°üº¬È±Ê§ÖµµÄ¼ÇÂ¼²»¶à£¬Ôò¿ÉÒÔ²ÉÓÃÒ»Ð©³£ÓÃµÄÌî³ä²ßÂÔ¡£µäÐÍµÄ·½·¨ÓÐ¹Ì¶¨ÖµÌî³ä¡¢¾ùÖµÌî³ä¡¢ÖÐÎ»ÊýÌî³ä¡¢ÉÏÏÂÊý¾ÝÌî³ä¡¢²åÖµ·¨Ìî³äºÍËæ»úÊýÌî³äµÈ¡£ÕâÐ©·½·¨µÄ»ù±¾³ö·¢µãÊÇÀûÓÃ¸ÃÌØÕ÷ÔÚÕû¸öÊý¾Ý¼¯ÖÐµÄÍ³¼ÆÁ¿À´Ìî³ä£¬ÀýÈçÖÐÎ»Êý¾ÍÊÇ°Ñ·ÇÈ±Ê§µÄÌØÕ÷Öµ½øÐÐÅÅÐòºóÈ¡ÖÐ¼äÎ»ÖÃÉÏµÄÊý×÷ÎªÈ±Ê§¼ÇÂ¼µÄÌØÕ÷Öµ¡£
2£© Òì³£Öµ´¦Àí
Òì³£ÖµÊÇÖ¸Ñù±¾ÖÐµÄÄ³¸öÌØÕ÷È¡ÖµÓëÆäËûÑù±¾ÓÐÏÔÖø²îÒì£¬ÀýÈçÄ³¸ö¼ÇÂ¼µÄÄêÁä×Ö¶ÎÎª200Ëê£¬Ä³³ÇÊÐµÄÆøÎÂÎª100¡æµÈ¡£
Õë¶ÔÕâÖÖÇé¿ö¿ÉÒÔ²ÉÈ¡µÄ²ßÂÔÓÐ°´ÕÕÈ±Ê§Öµ´¦Àí¡¢²ÉÓÃÆäËûÑù±¾µÄÆ½¾ùÖµ»ò×î´óÖµµÈÍ³¼ÆÁ¿À´´úÌæ£¬Ò²ÊÇÒ»Ð©Æô·¢Ê½µÄ´¦Àí·½Ê½¡£
2. È¥Á¿¸Ù
Êý¾Ý¼¯ÖÐ²»Í¬ÊôÐÔµÄÈ¡Öµ·¶Î§¿ÉÄÜ´æÔÚºÜ´óµÄ²îÒì£¬ÀýÈçÓÃÃ×Îªµ¥Î»¶ÈÁ¿µÄÉí¸ßºÍÒÔÇ§Ã×¶ÈÁ¿µÄÁ½¸ö³ÇÊÐÖ®¼äµÄ¾àÀë¡£ÕâÖÖ²îÒì»áµ¼ÖÂ»úÆ÷Ñ§Ï°Ä£ÐÍµÄÄ¿±êº¯ÊýÔÚÄ³Ð©Î¬¶ÈÉÏÈ¡Öµ·¶Î§Ô¶Ô¶´óÓÚÆäËûÎ¬¶È£¬µ±½øÐÐÌÝ¶ÈÏÂ½µÊ±£¬ÊÕÁ²Âý£¬ÑµÁ·Ê±¼ä¹ý³¤¡£
È¥Á¿¸ÙµÄÒªÇóÊÇÊ¹²»Í¬È¡Öµ·¶Î§µÄÌØÕ÷Öµ×ª»»µ½Í¬Ò»¹æ¸ñ£¬Ò»°ãÊÇ£Û0,1£Ý»ò£Û-1,1£ÝµÈ¡£³£¼ûµÄÈ¥Á¿¸Ù·½·¨ÓÐ¹éÒ»»¯ºÍ±ê×¼»¯¡£
Í¨¹ý¹éÒ»»¯°ÑÔ­Ê¼Êý¾Ý×ª»»Îªµ¥Î»ÏòÁ¿£¬Ö÷ÒªÓÐ×î´ó×îÐ¡Ëõ·Å¡¢¶ÔÊý±ä»»¡¢·´ÕýÇÐ±ä»»£¬¼ÆËã¹«Ê½·Ö±ðÈçÏÂ¡£


x¡ä=x-MinMax-Min(5ª²1)

x¡ä=logx(5ª²2)

x¡ä=2¦Ðarctanx(5ª²3)


×î´ó×îÐ¡Ëõ·ÅÓÃÓÚÏßÐÔÊý¾Ý£¬¶ÔÊý±ä»»ºÍ·´ÕýÇÐ±ä»»ÓÃÓÚ·ÇÏßÐÔÊý¾Ý¡£
µ±Ô­Ê¼Êý¾Ý·þ´ÓÕýÌ¬·Ö²¼Ê±£¬»¹¿ÉÒÔÊ¹ÓÃ±ê×¼»¯È¥Á¿¸Ù£¬Ê×ÏÈ¼ÆËãÔ­Ê¼Êý¾ÝµÄ¾ùÖµ¦ÌºÍ±ê×¼²îS£¬È»ºóÊ¹ÓÃÊ½(5ª²4)¶ÔÊý¾Ý½øÐÐ±ê×¼»¯£¬¼´×ª»»³É±ê×¼ÕýÌ¬·Ö²¼¡£

x¡ä=x-¦ÌS(5ª²4)


3. ÀëÉ¢»¯
µ±ÎÒÃÇÊ¹ÓÃÄ³Ð©»úÆ÷Ñ§Ï°Ä£ÐÍ½øÐÐÑµÁ·Ê±£¬ÒªÇóÏàÓ¦µÄÑµÁ·Êý¾Ý±ØÐëÎªÀëÉ¢ÐÍÊý¾Ý£¬ÀýÈç¾ö²ßÊ÷¡¢ÆÓËØ±´Ò¶Ë¹µÈËã·¨¶¼»ùÓÚÀëÉ¢ÐÍÊý¾Ý¡£
ÀëÉ¢»¯·½·¨ÓÐµÈ¿í·¨¡¢µÈÆµ·¨ºÍ»ùÓÚ¾ÛÀàµÄ·½·¨µÈ¡£
µÈ¿í·¨£¬¹ËÃûË¼Òå¾ÍÊÇ½«ÌØÕ÷Öµ´Ó×îÐ¡Öµµ½×î´óÖµ°´´ÎÐò·Ö³É¾ßÓÐÏàÍ¬¿í¶ÈµÄn¸öÇø¼ä¡£ÀýÈç£Û0£¬59£Ý°´3µÈ·Ö±»»®·ÖÎª£Û0,19£Ý¡¢£Û20,39£Ý¡¢£Û40£¬59£Ý¡£µÈÆµ·¨¸ù¾ÝÊý¾ÝµÄÆµÂÊ·Ö²¼½øÐÐÅÅÐò£¬È»ºó°´ÕÕÏàÍ¬ÆµÂÊ½øÐÐÇø¼ä»®·Ö£¬Òò´ËÄÜ±£Ö¤Ã¿¸öÇø¼äµÄÑù±¾ÊýÁ¿ÏàÍ¬¡£
»ùÓÚ¾ÛÀàµÄ·½·¨Ò²¿ÉÒÔ½«Á¬ÐøÊôÐÔÖµ×ª»»ÎªÀëÉ¢Öµ¡£Í¨¹ý¾ÛÀàËã·¨¼°¾ÛÀàÓÐÐ§ÐÔÖ¸±ê£¨validity index£©½øÐÐ×î¼Ñ´ØµÄ»®·Ö£¬°ÑÍ¬Ò»¸ö´ØÄÚµÄÑù±¾°´Í¬Ò»¸öÖµÀ´´¦Àí£¬¼´´ØµÄ±êÊ¶»ò¾ÛÀàÖÐÐÄ¡£
4. ÑÆ±äÁ¿
ÑÆ±äÁ¿£¨dummy variables) Ò²³ÆÐéÉè±äÁ¿£¬Í¨³£È¡ÖµÎª0»ò1¡£ÀýÈç£¬·´Ó³ÐÔ±ðµÄÑÆ±äÁ¿¿ÉÒÔÈ¡ÖµÎª0£º ÄÐÐÔ£¬1£º Å®ÐÔ¡£
ÔÚ»úÆ÷Ñ§Ï°ÖÐ£¬¾­³£»áÓöµ½Àà±ðÐÍÌØÕ÷£¬ÈçÈëÇÖ¼ì²âÊý¾Ý¼¯ÖÐµÄÍøÂçÐ­Òé£¨protocol_type£©£¬ËüµÄÈ¡ÖµÎª{'tcp','udp', 'icmp'}£¬ÕâÖÖ×Ö¶Î²»ÄÜÖ±½ÓÊäÈë¸ø·ÖÀàÆ÷¡£×ª»»·½Ê½¾ÍÊÇÔö¼ÓÑÆ±äÁ¿£¬²¢½øÐÐoneª²hot±àÂë¡£¶ÔÓÚ¾ßÓÐÈýÖÖÈ¡ÖµµÄprotocol_type×Ö¶Î£¬¿ÉÒÔÍØÕ¹ÎªÈý¸ö×Ö¶Î£¬²¢±àÂë¡£Èç±í5ª²2ËùÊ¾£¬±íÖÐµÄÈýÐÐ·Ö±ðÎªtcp¡¢udpºÍicmpµÄ±àÂë¡£


±í5ª²2protocol_typeµÄÑÆ±äÁ¿±àÂë




protocol_type_tcp
protocol_type_udp
protocol_type_icmp

1
0
0
0
1
0
0
0
1

5.1.4ÌØÕ÷¹¤³Ì
Ñù±¾ÌØÕ÷ÊýÁ¿µÄ¶àÉÙÏÔÈ»¶Ô»úÆ÷Ñ§Ï°Ä£ÐÍÐÔÄÜ»á²úÉúÒ»¶¨µÄÓ°Ïì¡£µ±ÌØÕ÷ÊýÁ¿Ì«ÉÙÊ±£¬Ñù±¾ÔÚ½ÏÐ¡µÄÌØÕ÷¿Õ¼äÄÚ¿ÉÄÜÖØµþÔÚÒ»Æð¡£ÈçÍ¼5ª²1ËùÊ¾£¬ÔÚ¶þÎ¬¿Õ¼äÏßÐÔ¿É·ÖµÄÁ½ÀàÑù±¾£¬µ±Ëõ¼õµ½Ò»Î¬Ê±£¬±äµÃÏßÐÔ²»¿É·Ö£¬×îÖÕµ¼ÖÂ·ÖÀàÆ÷¶¼Ê§Ð§£» ·´Ö®£¬µ±ÌØÕ÷ÊýÁ¿Ì«¶àÊ±£¬ÊôÓÚÍ¬ÀàÑù±¾µÄÊý¾ÝÔÚÌØÕ÷¿Õ¼äÖÐ±äµÃÏ¡Êè£¬µ¼ÖÂÀà±ð±ß½çÄ£ºý£¬·ÖÀàÐÔÄÜÊÜµ½Ó°Ïì¡£´ËÍâ£¬ÌØÕ÷ÊýÁ¿¶à£¬ÌØÕ÷Ö®¼ä´æÔÚÏà¹ØÐÔµÄ¿ÉÄÜÐÔÔö¼Ó£¬Ä£ÐÍµÄ¸´ÔÓ¶ÈÒ²»á±ä´ó¡£


Í¼5ª²1¼õÉÙÌØÕ÷Î¬Êýµ¼ÖÂÑù±¾ÖØµþ


Õë¶ÔÍøÂçÈëÇÖ¼ì²âÓ¦ÓÃ£¬ÆäÌØÕ÷Êý¾ÝÍ¨³£À´×Ô¶à¸ö²»Í¬µÄÈíÓ²¼þÉè±¸¡¢²»Í¬µÄÓ¦ÓÃÏµÍ³¡¢²»Í¬µÄÈÕÖ¾ÏµÍ³£¬µ«ÊÇ¶¼Óë¹¥»÷ÐÐÎªÓÐÒ»¶¨ÁªÏµ£¬ÓÉ´Ë¿ÉÄÜµ¼ÖÂÌØÕ÷Ö®¼ä´æÔÚÒ»¶¨µÄÏà¹ØÐÔ¡£ÀýÈç£¬Õë¶ÔÄ³¸ö¶Ë¿ÚµÄ´óÁ¿²¢·¢Á¬½ÓÇëÇó£¬Ò²±ØÈ»ÒýÆðÄÚ´æÊ¹ÓÃÁ¿µÄÔö¼Ó¡£ÓÖÈç£¬Web·þÎñÆ÷Í¨³£Ê¹ÓÃÄ¬ÈÏ¶Ë¿Ú80½øÐÐ¼àÌý£¬²»Í¬·þÎñÆ÷Ò»°ãÓÐÄ¬ÈÏ¶Ë¿Ú£¬ÓÉ´Ë·þÎñÆ÷ÀàÐÍºÍ¶Ë¿Ú¾Í´æÔÚÒ»¶¨µÄÏà¹ØÐÔ¡£Òò´Ë£¬¹¹ÔìºÏÊÊµÄÌØÕ÷¿Õ¼äÒ²ÊÇºÜÓÐ±ØÒªµÄ¡£
ÌØÕ÷Ñ¡ÔñºÍÌØÕ÷³éÈ¡ÊÇÌØÕ÷¹¤³ÌµÄÁ½¸öÖØÒªµÄ·½Ãæ£¬Ä¿µÄ¶¼ÊÇÑ°ÕÒºÏÊÊµÄÑù±¾±íÊ¾¿Õ¼ä¡£ËüÃÇµÄ×î´óÇø±ðÊÇÊÇ·ñÉú³ÉÐÂµÄÊôÐÔ¡£ÌØÕ÷ÌáÈ¡Í¨¹ý±ä»»µÄ·½·¨»ñµÃÁËÐÂµÄÌØÕ÷¿Õ¼ä£¬ÈçPCA¡¢NMFµÈ¡£ÌØÕ÷Ñ¡ÔñÖ»ÊÇ´ÓÔ­Ê¼ÌØÕ÷¼¯ÖÐÑ¡Ôñ³ö²¿·Ö×Ó¼¯£¬Ã»ÓÐÉú³ÉÐÂµÄÌØÕ÷£¬Ö÷ÒªÓÐÉ¸Ñ¡£¨filter£©Ê½¡¢°ü¹ü£¨wrapper£©Ê½ºÍÇ¶Èë£¨embedded£©Ê½¡£ÐÅÏ¢ÔöÒæÊôÓÚÒ»ÖÖÉ¸Ñ¡Ê½Ñ¡Ôñ·½·¨¡£¾ßÌåµÄ¼ÆËã·½·¨ÔÚºÜ¶à»úÆ÷Ñ§Ï°·½ÃæµÄÊéÖÐ¶¼ÓÐ½éÉÜ£¬ÕâÀï²»ÔÙ×¸Êö¡£
5.1.5ÔÚÌì³ØAIÆ½Ì¨ÉÏµÄ¿ª·¢
ÒÔNSLª²KDDÊý¾Ý¼¯ÎªÀý£¬Ñ¡ÔñÆäÖÐµÄ²¿·ÖÊý¾Ý¹¹ÔìÁË¶þ·ÖÀàÎÊÌâ¡¢¶à·ÖÀàÎÊÌâ¡£ÔÚ¶þ·ÖÀàÖÐ£¬ÑµÁ·¼¯¹²ÓÐ125973Ìõ¼ÇÂ¼£¬Àà±ðÊÇÕý³£ºÍÒì³£Á½Àà¡£¾­¹ýÈ¥³ýÈ±Ê§Öµ¼ÇÂ¼¡¢¹éÒ»»¯µÈÊý¾Ý´¦Àíºó£¬½øÐÐÌØÕ÷Ñ¡Ôñ£¬È»ºóÒÔSVM¡¢¾ö²ßÊ÷¡¢Âß¼­»Ø¹éºÍËæ»úÉ­ÁÖ×÷Îª·ÖÀàÆ÷½øÐÐÁËÑµÁ·¡£¶ÔÁíÍâµÄ²âÊÔÊý¾ÝÎÄ¼þ½øÐÐ²âÊÔ¡£



def Entropy(X):

p_ = X.value_counts() / X.shape£Û0£Ý

return sum((-1) * p_ * np.log2(p_))



#ÐÅÏ¢ÔöÒæÂÊ

def Gain(data, str1, label):

E = data.groupby(str1).apply(lambda x: Entropy(x£Ûlabel£Ý))

p_ = data£Ûstr1£Ý.value_counts() / len(data£Ûstr1£Ý)

print(p_)

e_ = sum(p_ * E)

print(e_, Entropy(data£Ûlabel£Ý))

return Entropy(data£Ûlabel£Ý) - e_




Ö´ÐÐÌØÕ÷Ñ¡Ôñ£º °üº¬ÐÅÏ¢ÔöÒæºÍ·½²îãÐÖµÑ¡Ôñ·¨£¬ºóÕß±È½Ï¼òµ¥£¬ÊÇsklearn.feature_selectionÖÐÌá¹©µÄº¯Êý¡£
Èç¹ûÊ¹ÓÃÐÅÏ¢ÔöÒæ£¬¿ÉÒÔÖ±½ÓÔÚtrain_dataÉÏ½øÐÐ£¬ÈçÏÂ£º 




FeatureSet = £Û£Ý

for feature in range(0,41):

FeatureSet.append(feature, Gain(train_data, feature, 41))

Sort(FeatureSet)

#µÃµ½°´ÐÅÏ¢ÔöÒæÖµÅÅÐòµÄÌØÕ÷ÐòÁÐ£¬¿ÉÈ¡Ç°K¸ö£¬K×Ô¶¨



def Feature_select(X_train, X_test):

#È¥³ý³öÏÖ´ÎÊýµÄ·½²îÐ¡ÓÚÖ¸¶¨ÖµµÄÌØÕ÷

selector = VarianceThreshold(threshold = 0.000001)

selector.fit(X_train)

print(selector.variances_)

X_train = selector.transform(X_train)

X_test = selector.transform(X_test)

print(X_train.shape)



if __name__ == "__main__":

'''

1.Êý¾Ý´¦Àí²¿·Ö

'''

warnings.filterwarnings('ignore')

train_data = pd.read_csv("train-binary.txt", header = None)

test_data = pd.read_csv("test-binary.txt", header = None)






train_data.dropna(inplace = True)  # É¾³ýÓÐÈ±Ê§ÖµµÄÐÐ


test_data.dropna(inplace = True)



'''

2. ¶ÔÔ­Ê¼Êý¾Ý¼¯ÌØÕ÷½øÐÐ¹éÒ»»¯£¬ÌØÕ÷Ñ¡È¡£¬²úÉúÑµÁ·¼¯¡¢²âÊÔ¼¯

Ò»ÖÖ¸üÓÅµÄÌØÕ÷×Ó¼¯ÊÇfeatures = £Û0,2,3,4,10,11,13,16,26,29£Ý

'''

features = £Ûi for i in range(41)£Ý

x_train = pd.DataFrame(train_data, columns = features)

y_train = train_data£Û41£Ý

x_test = pd.DataFrame(test_data, columns = features)

y_test = test_data£Û41£Ý



scaler = Normalizer().fit(x_train)

x_train = scaler.transform(x_train)

scaler = Normalizer().fit(x_test)

x_test = scaler.transform(x_test)



Feature_select(x_train, x_test)

'''

3.¹¹½¨·ÖÀàÆ÷£¬²âÊÔÐÔÄÜ¡£ÕâÀïÑÝÊ¾ÁËSVM¡¢¾ö²ßÊ÷¡¢Âß¼­»Ø¹é¡¢Ëæ»úÉ­ÁÖ£¬

¿ÉÒÔ×ÔÐÐÊµÏÖÉñ¾­ÍøÂçÄ£ÐÍµÈ¸ü¶à·ÖÀàÆ÷²¢½øÐÐ²âÊÔ

'''

svm = SVC()

svm.fit(x_train£Û:1000£Ý, y_train£Û:1000£Ý)

print('F1 (SVM)£º %.4f' % f1_score(y_test, svm.predict(x_test)))



dt = tree.DecisionTreeClassifier()

dt.fit(x_train, y_train)

print('F1 (Decision Tree)£º %.4f' % f1_score(y_test, dt.predict(x_test)))



lr = LogisticRegression()

lr.fit(x_train, y_train)

print('F1 (Logistic Regression)£º %.4f' % f1_score(y_test, lr.predict(x_test)))



rf = RandomForestClassifier(n_estimators = 47)

rf.fit(x_train, y_train)

print('F1 (Random Forest)£º %.4f' % f1_score(y_test, rf.predict(x_test)))




ÔÚsklearn¿ò¼ÜÄÚ£¬ÉÏÊö³ÌÐò¿ÉÒÔºÜÈÝÒ×ÍØÕ¹µ½¶à·ÖÀàÇé¿ö£¬ÐèÒª¸Ä¶¯µÄ´úÂëÊÇ¼ÆËãF1ÖµµÄº¯Êýf1_score¡£¸Ãº¯ÊýÔ­ÐÍÈçÏÂ£º 



sklearn.metrics.f1_score(y_true, y_pred, labels=None, pos_label=1, average='binary', sample_weight=None)



¶ÔÓÚ¶þ·ÖÀàÎÊÌâ£¬averageÉèÖÃÎªbinary£» ¶ÔÓÚ¶à·ÖÀàÎÊÌâ£¬ÔòÐèÒªÉèÖÃÎªmacro»òmicroÀ´¼ÆËãºê¹Û»òÎ¢¹ÛÆ½¾ù¡£Èç¹ûÐèÒª¿¼ÂÇÀà±ðµÄ²»Æ½ºâÐÔ£¬°´ÕÕÀà±ðµÄ¼ÓÈ¨Æ½¾ù£¬ÔòÊ¹ÓÃweighted¡£
5.1.6ÈëÇÖ¼ì²âµÄ¼¬ÊÖÎÊÌâ
¾¡¹Ü»úÆ÷Ñ§Ï°·½·¨ÊµÏÖÁË¶ÔÈëÇÖÐÐÎªºÍÕý³£·ÃÎÊµÄ·ÖÀàÊ¶±ð£¬µ«ÊÇÈÔ´æÔÚÒ»Ð©»úÆ÷Ñ§Ï°ÄÑÒÔ½â¾öµÄÎÊÌâ£¬¸ÅÊöÈçÏÂ¡£
£¨1£© Îó±¨ÂÊ¸ß¡¢Â©±¨ÂÊ¸ß¡£¸÷ÖÖ»úÆ÷Ñ§Ï°Ä£ÐÍÈÔ´æÔÚ½Ï¸ßµÄÎó±¨ÂÊºÍÂ©±¨ÂÊ£¬²¢ÇÒ¶ÔÓÚ²ÎÊýÃô¸Ð¡£ÌØ±ðÊÇ¶ÔÓÚÎ´ÖªµÄÈëÇÖÐÐÎªµÄ¸ÐÖªÄÜÁ¦Èõ£¬ÒÑ³ÉÎªÖÆÔ¼ÈëÇÖ¼ì²â·¢Õ¹µÄ¹Ø¼ü¼¼ÊõÎÊÌâ¡£
£¨2£© ×ÔÑ§Ï°ÄÜÁ¦²î¡£Ìí¼ÓIDS¼ì²â¹æÔò³£ÒÀÀµÓÚÊÖ¹¤·½Ê½ÇÒ¸üÐÂ»ºÂý£¬ÏÞÖÆÁËIDSµÄ¿ÉÓÃÐÔ¡£
£¨3£© ´Ó¼ì²âµ½¾ö²ßµÄÀ§ÄÑ¡£ÈëÇÖ¼ì²âµÄ×îÖÕÄ¿±êÊÇÎª°²È«·ÀÓùÌá¹©Ö§³Ö£¬¶ø¼ì²â¼¼ÊõÖÐµÄÎó±¨ÂÊºÍÂ©±¨ÂÊ¸ßµÄÎÊÌâ£¬Ê¹µÃ×Ô¶¯»¯¾ö²ß¿ÉÄÜÓ°ÏìÕý³£Êý¾ÝµÄÁ÷¶¯£¬Ò²¿ÉÄÜµ¼ÖÂÎ´ÄÜ¼°Ê±×è¶ÏÈëÇÖÐÐÎª¡£
£¨4£© ×ÔÉíÒ×ÊÜ¹¥»÷¡£IDS±¾ÉíÊÇ´æÔÚÂ©¶´µÄÈí¼þ³ÌÐò£¬ËüÈÝÒ×³ÉÎªºÚ¿Í¹¥»÷µÄÄ¿±ê£¬Ò»µ©ºÚ¿Í¹¥»÷³É¹¦£¬ÄÇËüËù¹ÜÀíµÄÍøÂç°²È«¾Í²»ÄÜµÃµ½±£Ö¤¡£
Òò´Ë£¬»úÆ÷Ñ§Ï°¡¢ÈË¹¤ÖÇÄÜ·½·¨ÔÚ½â¾ö´ËÀàÊµ¼ÊÎÊÌâÊ±ÈÔÓÐºÜ¶àÐèÒªÉîÈëÑÐ¾¿µÄ¼¼Êõ¡£
5.2SQL×¢Èë¼ì²â
5.2.1¸ÅÊö


360»¥ÁªÍø°²È«ÖÐÐÄÔÚ¡¶2016ÄêÖÐ¹ú»¥ÁªÍø°²È«±¨¸æ¡·ÖÐÖ¸³ö£¬SQL×¢Èë¹¥»÷Õ¼ËùÓÐ¹¥»÷ÀàÐÍµÄ39.8%£¬ÔÚ2016ÄêÈ«¹ú¡°°×Ã±×Ó¡±Ìá½»µ½²¹ÌìÆ½Ì¨µÄ37188¸öÂ©¶´ÖÐ£¬SQL×¢ÈëÂ©¶´´ï44.9%¡£¸ù¾Ý¿ª·ÅÊ½WebÓ¦ÓÃ³ÌÐò°²È«ÏîÄ¿£¨OWASP£©×éÖ¯µÄ×îÐÂÍ³¼Æ±¨¸æ£¬SQL×¢ÈëÔÚWebÓ¦ÓÃ°²È«ÅÅÃûµÚÒ»¡£ÓÉ´Ë¿É¼û,SQL×¢ÈëÈÔÊÇÍøÂç°²È«ÎÊÌâÖÐÖØÒªµÄÎÊÌâ¡£
SQL×¢ÈëÊÇÖ¸¹¥»÷ÕßÀûÓÃWebÍøÒ³¶ÔÓÚÊäÈëÊý¾Ý´¦ÀíÊ±´æÔÚµÄÂ©¶´£¬ÏòÊý¾Ý¿â·¢Æð¶ñÒâÇëÇó¡£ÕâÖÖÂ©¶´Ò»°ãÊÇ¶ÔÊäÈëÊý¾ÝÃ»ÓÐ½øÐÐ¹ýÂË´¦Àí»òÕß´¦Àí¹æÔò²»ÍêÉÆ£¬½«¹¥»÷ÕßÊäÈëµÄ¶ñÒâSQLÓï¾ä»ò²ÎÊý×¢Èë²éÑ¯ÃüÁîÖÐ²¢´«¸øWeb·þÎñÆ÷£¬Web³ÌÐòÖ´ÐÐ±»×¢ÈëµÄSQLÓï¾ä¡£µ±×¢ÈëµÄSQL´øÓÐ¶ñÒâÐÔÊ±£¬ÔÚÊý¾Ý¿â¶ËµÄÖ´ÐÐ×îÖÕµ¼ÖÂÐÅÏ¢Ð¹Â¶»òÊý¾Ý¿âÏµÍ³±»ÆÆ»µ¡£
ÓÉÓÚSQLÊý¾Ý¿âÔÚWebÓ¦ÓÃÖÐµÄÆÕ±éÐÔ£¬Ê¹µÃSQL¹¥»÷ÔÚºÜ¶àÍøÕ¾ÉÏ¶¼¿ÉÒÔ½øÐÐ¡£²¢ÇÒÕâÖÖ¹¥»÷¼¼ÊõµÄÄÑ¶È²»¸ß£¬µ«¹¥»÷±ä»»ÊÖ¶ÎÖÚ¶à£¬Î£º¦ÐÔ´ó£¬Ê¹µÃËü³ÉÎªÍøÂç°²È«ÖÐ±È½Ï¼¬ÊÖµÄÎÊÌâ¡£
5.2.2SQL×¢Èë·½·¨
½á¹¹»¯²éÑ¯ÓïÑÔ£¨Structured Query Language,SQL£©ÊÇÒ»ÖÖÓÃÓÚÓëÊý¾Ý¿â½øÐÐÊý¾Ý½»»¥µÄÓïÑÔ£¬¶øSQL×¢Èë¾ÍÊÇÖ¸ÀûÓÃÊý¾Ý¿âÖ®ÍâµÄÆäËûÍâ²¿½Ó¿Ú£¬½«SQLÒªËØ°ó¶¨µ½½Ó¿Ú²¢´«ÈëÊý¾Ý£¬Ê¹µÃ½Ó¿Ú³ÌÐò¹¹½¨²¢·¢Æð´øÓÐ×¢ÈëÐÅÏ¢µÄSQLÇëÇó£¬´Ó¶ø´ïµ½ÈëÇÖÊý¾Ý¿âµÄÄ¿µÄ¡£
Web½Å±¾ÊÇSQL×¢Èë¹¥»÷ÖÐ³£¼ûµÄÒ»ÖÖÍâ²¿½Ó¿Ú£¬ÔÚÕâÖÖÇé¿öÏÂ£¬SQL×¢Èë¹¥»÷ÕßÍ¨¹ýWebÒ³ÃæÊäÈëÒ»Ð©ÌØ¶¨µÄ×Ö·û£¬µ±Web·þÎñÆ÷Ã»ÓÐ¶Ô´ËÊäÈë½øÐÐºÏ·¨ÐÔ¼ìÑéÊ±£¬ËüÃÇ¾ÍÐÎ³ÉÌØ¶¨µÄSQLÓï¾ä¡£×îÖÕSQLÓï¾ä±»·¢ËÍµ½Êý¾Ý¿âÒýÇæ²¢Ö´ÐÐ£¬´Ó¶ø²úÉú²»·ûºÏÔ¤ÆÚµÄÊý¾Ý¿â²Ù×÷¡£
ÀýÈç£¬Ä³¸öµÇÂ¼Ò³Ãæ°üº¬ÁËÓÃ»§ÃûºÍÃÜÂëµÄÊäÈë¿ò£¬ÈçÍ¼5ª²2ËùÊ¾¡£


Í¼5ª²2ÊµÏÖSQL×¢ÈëµÄWebÒ³Ãæ


¼ÙÈç¶ÔµÇÂ¼ÓÃ»§Éí·Ý½øÐÐºÏ·¨ÐÔÑéÖ¤µÄSQLÓï¾äÎª



select * from user where name = '{$name} ' and password ={$password}




ÆäÖÐ£¬nameºÍpassword·Ö±ðÎª×Ö·û´®ºÍÊý×ÖÐÍ£¬¶ÔÓ¦ÓÚ¸ÃÒ³ÃæµÄÁ½¸öÊäÈë¿òÄÚÈÝ¡£
¹¥»÷Õß¼´Ê¹Ã»ÓÐ¸ÃÍøÕ¾µÄÓÃ»§ÕËºÅºÍÃÜÂë£¬Ò²¿ÉÄÜÈÆ¹ýÕËºÅÑéÖ¤¶ø»ñµÃÏàÓ¦µÇÂ¼È¨ÏÞ¡£Ö»ÐèÔÚµÇÂ¼Ìá½»±íµ¥ÖÐ£¬½«ÓÃ»§ÃûÊäÈëÎªÒ»¸öËæÒâµÄ×Ö·û´®£¬Èçasndfas£¬ÃÜÂëÉèÎª1 or 2=2¡£ ´ËµÇÂ¼ÑéÖ¤µÄSQLÓï¾ä¾Í±»¹¹ÔìÎª



select * from user where name = 'asndfas' and password =1 or 2=2



ÔÚÕâ¸öSQL²éÑ¯ÖÐ£¬ÓÉÓÚ2=2µÄÌõ¼þºã³ÉÁ¢£¬Òò´Ë£¬SQLÖ´ÐÐµÄ½á¹ûÊÇ·µ»Øuser±íÖÐµÄËùÓÐ¼ÇÂ¼¡£ÔÚWeb½Å±¾µÄºóÐø´¦ÀíÖÐÈç¹ûÈÏÎªÓÐ¼ÇÂ¼·µ»Ø¶øÔÊÐíµÇÂ¼£¬ÄÇÃ´ÕâÑùµÄÊäÈë¹¥»÷¾Í¿ÉÒÔÈÆ¿ªÑéÖ¤¶ø»ñµÃºÏ·¨µÄµÇÂ¼È¨ÏÞ£¬¶øÇÒ¹¥»÷Õß²»ÐèÒªÖªµÀÕæÕýµÄÓÃ»§ÕËºÅ»òÃÜÂë¡£
³ýÁË¿ÉÒÔ×¢Èë²ÎÊýµ½SQLÖÐ£¬ÔÚÒ»¶¨Ìõ¼þÏÂ£¬Ò²¿ÉÒÔ×¢ÈëSQLÓï¾äÀ´½øÐÐÊý¾Ý¿â½á¹¹µÄ²Â²â¡£ÀýÈç¹¥»÷ÕßÏëÖªµÀÊý¾Ý¿âÖÐÊÇ·ñ´æÔÚÖ¸¶¨µÄ±í»ò±íµÄ×Ö¶ÎÃû£¬ÔÚÈ·¶¨Êý¾Ý±íÖÐ´æÔÚÓÃ»§ÃûºÍÃÜÂëÎªbbb/2345µÄ¼ÇÂ¼Çé¿öÏÂ£¬¹¥»÷Õß¿ÉÒÔÍ¨¹ýÈçÏÂµÄÃÜÂë×¢Èë£¬À´¼ì²âusers±íÖÐÊÇ·ñ´æÔÚemails×Ö¶Î¡£



select * from users where username='bbb' and password=2345 and exists(select emails from users)



ÓÉ´Ë¿ÉÒÔ½øÒ»²½¿´³ö£¬¹¥»÷Õß¿ÉÒÔ×¢Èë¶ñÒâÊý¾Ý¿â²Ù×÷À´ÊµÏÖ¸üÑÏÖØµÄÐ§¹û£¬ÈçÖ´ÐÐÒ»Ð©Êý¾Ý¿â²Ù×÷£¬µ¼ÖÂÊý¾Ý¶ªÊ§¡£ÀýÈçÔÚÃÜÂë¿òÖÐÊäÈë2345; drop table tmp£¬´Ó¶øÐÎ³ÉÁËÈçÏÂµÄ×¢ÈëSQL£¬ÆäÖÐ×¢ÈëµÄ·ÖºÅÊÇ½«SQLÖ¸Áî·Ö³É¶àÌõÖ¸ÁîÖ´ÐÐ¡£



select * from users where username='bbb' and password=2345; drop table tmp



¿ÉÒÔ¿´³ö£¬µ±WebÁ¬½ÓÊý¾Ý¿âµÄÓÃ»§¾ßÓÐÊý¾Ý¿âÖ´ÐÐdrop tableµÄÈ¨ÏÞÊ±£¬ÕâÌõÓï¾äÖÐµÄdrop table tmp½«»á±»Ö´ÐÐ£¬´Ó¶øÊµÏÖÉ¾³ýtmp±íµÄ²Ù×÷¡£ÓÃ´ËÀà·½·¨¿ÉÒÔ¶ÔÊý¾Ý±íÄÚÈÝ»òÕß½á¹¹½øÐÐÉ¾³ý£¬Ò²¿ÉÒÔÊ¹ÓÃUpdateµÈÓï¾ä¶ÔÊý¾Ý±íÐÅÏ¢½øÐÐÐÞ¸Ä¡£
5.2.3SQL×¢ÈëµÄ¼ì²â·½·¨
SQL×¢ÈëµÄ¼ì²âÍ¨³£Òª¶ÔÊäÈëµÄÄÚÈÝ½øÐÐÐ£Ñé£¬ÆäÖÐ½ÏÎªÓÐÐ§µÄÊÇ¶ÔÇëÇóÊý¾Ý¸ñÊ½»òÕßÄÚÈÝ½øÐÐ¹æÔò´¦Àí¡£Ä¿Ç°Ö÷ÒªµÄ¼ì²â·½·¨ÈçÏÂ¡£
1.  Õë¶ÔÌØ¶¨ÀàÐÍµÄ¼ì²é
¿¼ÂÇµ½SQL×¢ÈëÊÇÔÚÌØ¶¨µÄWebÒ³ÃæÊäÈë¿òÖÐÊµÏÖµÄ£¬Ã¿¸öÊäÈëÓÐÆäÌØ¶¨µÄ¸ñÊ½ÒªÇó¡£Òò´Ë£¬¿ÉÒÔ¶ÔÒ³Ãæ±äÁ¿µÄÊý¾ÝÀàÐÍ¡¢Êý¾Ý³¤¶È¡¢È¡Öµ¸ñÊ½¡¢È¡Öµ·¶Î§µÈ½øÐÐ¼ì²é¡£ÀýÈçwhere id ={$id},¶ÔÓÚÊäÈëµÄid½øÐÐÀàÐÍ¼ì²é¡£Ö»ÓÐµ±ÕâÐ©ÒªÇó¶¼Í¨¹ý¼ì²éÖ®ºó£¬²Å°ÑÇëÇó·¢ËÍµ½Êý¾Ý¿âÖ´ÐÐ¡£ÕâÖÖ·½·¨ÄÜ¶ÔÓÐÌØ¶¨µÄÊý¾Ý¸ñÊ½µÄÊäÈëÆðµ½·ÀSQL×¢ÈëµÄ×÷ÓÃ¡£µ«Æä¾ÖÏÞÐÔ½Ï´ó£¬¶ÔÃ¿¸öÍøÒ³³ÌÐò½Ó¿ÚÊäÈë¶¼½øÐÐ¸ñÊ½ÅÐ¶Ï£¬¹¤×÷Á¿½Ï´ó£¬²¢ÇÒ´æÔÚ½Ï´óµÄÒÅÂ©»ò²»×¼È·¡£
2. ¶ÔÌØ¶¨¸ñÊ½µÄ¼ì²é
¶ÔÓÚ¸ñÊ½ÓÐÃ÷È·ÒªÇóµÄÊäÈë£¬ÈçÓÊÏä»òÕßµç»°µÈ£¬¿ÉÒÔ²ÉÓÃÕýÔò±í´ïÊ½¹ýÂË·½·¨£¬ÅÅ³ý²»·ûºÏÒªÇóµÄ±äÁ¿¡£ÕýÔò±í´ïÊ½¹ýÂËµÄ·½·¨Ò²¿ÉÒÔ¹ýÂËµôÒ»Ð©³£¼ûµÄ×¢Èë£¬ÀýÈç¶ÔÓÚ' or 1=1 Ö®ÀàµÄ×¢Èë£¬ÆäÆ¥ÅäµÄÕýÔò±í´ïÊ½Îª('£Üs+)?or£Üs +£Û£Û:alnum:£Ý£Ý+ £Üs *=£Üs *£Û£Û:alnum:£Ý£Ý+£Üs *(--)? £¬Ö»Òª¾Ü¾ø·ûºÏ¸ÃÕýÔò±í´ïÊ½µÄÊäÈë¼´¿É´ïµ½·ÀÖ¹SQL×¢ÈëµÄÄ¿µÄ¡£ÕâÖÖ·½Ê½µÄÓÅµãÊÇ¿ÉÒÔ¹ýÂËÒÑÖªµÄ¸÷ÖÖ×¢Èë·½·¨£¬µ«ÊÇ²»ÄÜ¹ýÂËÎ´ÖªµÄ×¢Èë¡£È±µãÊÇÕâÖÖ·½·¨Ò²»á½«´øÓÐ·ûºÏ¹ýÂËÕýÔò±í´ïÊ½µÄºÏ·¨ÊäÈë¹ýÂËµô£¬ÀýÈçÓÃ»§µÄ²©¿ÍÖÐµÄÄ³Ò»¾ä×Ó´øÓÐ' or 1=1 --£¬ÄÇÃ´¸Ã¾ä×Ó»á±»´íÎó¹ýÂËµô¡£
3. SQLÔ¤±àÒëµÄ·ÀÓù·½·¨
SQLÔ¤±àÒëµÄ»ù±¾Ë¼ÏëÊÇ´´½¨SQLÓï¾äÄ£°æ£¬½«²ÎÊýÖµÓÃ¡°£¿¡±´úÌæ£¬ÀýÈç¡°select from table where id = ?¡±£¬È»ºó¾­¹ýÓï·¨Ê÷·ÖÎö¡¢²éÑ¯¼Æ»®Éú³É£¬»º´æÖÁÊý¾Ý¿â¡£ÕâÖÖ·½·¨²»ÂÛÊäÈëÄÚÈÝ°üº¬Ê²Ã´£¬×ÜÊÇ±»µ±×÷×Ö·û´®¡£ÕâÑù£¬ÓÃ»§´«½øÀ´µÄ²ÎÊýÖ»ÄÜ±»ÊÓÎª×Ö·û´®ÓÃÓÚ²éÑ¯¶ø²»»á±»Ç¶ÈëSQLÖÐÔÙÈ¥Ö´ÐÐÓï·¨·ÖÎö¡£Ò»Ð©Web¿ò¼ÜÈçHibernate¡¢MyBatisµÈÒÑ¾­ÊµÏÖÁË²ÎÊý»¯²éÑ¯£¬ÊÇÄ¿Ç°±È½ÏÓÐÐ§µÄ·ÀÖ¹SQL×¢ÈëµÄ·½·¨¡£µ«ÊÇ¿¼ÂÇµ½³ÌÐòÔ±µÄ±à³ÌÏ°¹ß¡¢Ô¤±àÒë¶Ô×ÊÔ´µÄÕ¼ÓÃÒÔ¼°ËùÑ¡ÔñµÄ¿ò¼ÜµÈÒòËØ£¬ÈÔ´æÔÚÐèÒª²ÉÈ¡×Ö·û´®Æ´½ÓÉú³ÉSQLµÄ³¡¾°¡£
4. »úÆ÷Ñ§Ï°·½·¨
»úÆ÷Ñ§Ï°·½·¨°ÑSQL×¢Èë¼ì²â¿´×÷Ò»¸ö¶þ·ÖÀàÎÊÌâ£¬´Ó¶ø°´ÕÕ»úÆ÷Ñ§Ï°µÄÒ»°ãÁ÷³Ì½øÐÐÉè¼Æ¡£Ö÷Òª»·½Ú°üº¬ÑµÁ·Êý¾ÝÊÕ¼¯Óë±ê×¢¡¢ÌØÕ÷ÌáÈ¡¡¢·ÖÀàÆ÷Ñ¡ÔñÓëÑµÁ·ÒÔ¼°Ö´ÐÐ·ÖÀàµÈ£¬¾ßÌå¹ý³Ì½«ÔÚ5.2.4½ÚÕ¹¿ªËµÃ÷¡£
5.2.4SQLÓï¾äµÄÌØÕ÷ÌáÈ¡
Ê¹ÓÃ»úÆ÷Ñ§Ï°½øÐÐSQL×¢ÈëµÄ¼ì²â£¬Ê×ÏÈÐèÒª½â¾öSQLÓï¾äÌØÕ÷±íÊ¾µÄÎÊÌâ¡£Ö÷ÒªµÄ·½·¨ÓÐ»ùÓÚÍ¼ÂÛµÄ·½·¨¡¢»ùÓÚÎÄ±¾·ÖÎöµÄ·½·¨µÈ¡£
1. »ùÓÚÍ¼ÂÛµÄ·½·¨
ÔÚÎÄ±¾·ÖÎö¡¢¹Ø¼ü´ÊÌáÈ¡¡¢Éç½»ÍøÂç·ÖÎöµÈÓ¦ÓÃÖÐ£¬ÀûÓÃÍ¼À´±íÊ¾ÆäÖÐµÄÌØÕ÷ÊÇºÜ³£¼ûµÄ¡£SQLÓï¾ä¾ßÓÐÎÄ±¾ÌØÕ÷£¬Òò´ËÓÐÎÄÏ×Ìá³ö»ùÓÚÍ¼ÂÛµÄSQLÓï¾äÌØÕ÷ÌáÈ¡·½·¨¡£¸Ã·½·¨°ÑSQL²éÑ¯½¨Ä£³É±ê¼ÇÍ¼£¬½ø¶øÉú³ÉÒÔ±ê¼ÇÎª½Úµã¡¢½Úµã¼äµÄ½»»¥Îª´øÈ¨±ßµÄÍ¼£¬ÀûÓÃ¸ÃÍ¼ÊµÏÖSQLÓï¾äµÄ×ª»»ºÍ±íÊ¾£Û1£Ý¡£
Ê×ÏÈ¶¨ÒåSQLÓï¾äÖÐµÄ±ê¼Ç£¨token£©£¬°ÑSQLÖÐµÄ¹Ø¼ü×Ö¡¢±êÊ¶·û¡¢²Ù×÷·û¡¢·Ö¸ô·û¡¢±äÁ¿ÒÔ¼°ÆäËû·ûºÅ¶¼³ÆÎª±ê¼Ç¡£ÕâÑù£¬Ò»ÌõSQL²éÑ¯£¬ÎÞÂÛÊÇÕæÕýµÄ²éÑ¯»¹ÊÇ×¢ÈëµÄ²éÑ¯£¬¶¼ÊÇÒ»¸ö±ê¼ÇÐòÁÐ¡£¼ì²âµÄ»ù±¾Ë¼Â·¾ÍÊÇ£¬¶ÔÕâÐ©ÕæÕý²éÑ¯ºÍ×¢Èë²éÑ¯µÄÐòÁÐ½øÐÐÌØÕ÷ÌáÈ¡£¬È»ºóÔÚÌØÕ÷¿Õ¼äÖÐ¹¹½¨Ê¶±ð×¢Èë²éÑ¯µÄ·ÖÀàÆ÷Ä£ÐÍ¡£
Ëù¶¨ÒåµÄ²¿·Ötoken¼°Æä¹æ·¶»¯µÄ·ûºÅÈç±í5ª²3ËùÊ¾£¬°üº¬ÁËÓÃ»§¶¨ÒåµÄ¶ÔÏó¡¢SQL¹Ø¼ü×Ö¡¢×Ö·ûÀàÐÍ¡¢ÔËËã·ûºÍ·ûºÅµÈ¡£


±í5ª²3SQLÓï¾ä·ûºÅÌæ»»¶ÔÕÕ±í




·ûºÅ
Ìæ»»Îª·ûºÅ
Ìæ»»Îª

ÕûÊýINTSQL¹Ø¼ü´Ê¡¢º¯Êý×ª»»Îª´óÐ´
IPµØÖ·IPADDR<LT
Ê®Áù½øÖÆÊýHEX >GT
ÏµÍ³±íSYSTBL()È¥³ý
ÓÃ»§±íÃûUSRTBL£¬CMMA
ÓÃ»§±íÖÐµÄ×Ö¶ÎÃûUSRCOL

¶ÔÓÚÒ»ÌõSQLÓï¾ä£¬Ê¹ÓÃtoken¶ÔÕÕ±í½øÐÐ×ª»»£¬Í¬Ê±¶ÔÓï¾ä×öÌØÊâ´¦Àí¡£
£¨1£© ¶ÔÄÜ¹»Æ¥ÅäµÄÀ¨ºÅ¶Ô½øÐÐÉ¾³ý£» ¶Ô²»ÄÜÆ¥ÅäµÄÀ¨ºÅ¸øÓè±£Áô£¬²¢×ª»¯³É±ê¼Ç¡£
£¨2£© ¿Õ×¢ÊÍ£¨°üº¬Ö»ÓÐ¿Õ°××Ö·ûµÄ×¢ÊÍ£©¿ÉÒÔ±»É¾³ý£¬µ«·Ç¿Õ×¢ÊÍ±ØÐë±£Áô¡£ÕâÊÇÒòÎª¹¥»÷ÕßÍ¨³£ÔÚ×¢Èë´úÂëÖÐÇ¶Èë¿Õ×¢ÊÍÀ´×ö»ìÏý£¨ÀýÈç/**/ OR /**/1/**/=/**/1£©£¬ÆóÍ¼ÈÆ¹ý¼ì²â¡£
ÒÔÏÂÊÇÁ½¸öÌæ»»µÄÀý×Ó¡£
£¨1£© select * from books where price>20.5 and discount<0.8 ¹æ·¶»¯Îª



SELECT STAR FROM USRTBL WHERE USRCOL GT DEC AND USRCOL LT DEC




£¨2£© select count(*)£¬sum(amount) from orders order by sum(amount)¹æ·¶»¯Îª



SELECT COUNT STAR CMMA SUM USRCOL FROM USRTBL ORDER BY SUM USRCOL




×îÖÕ£¬¹¹½¨ÁË686¸ö²»Í¬µÄ±ê¼Ç¡£Ã¿¸ö±ê¼Ç¶¼±»¿´×÷×îÖÕÊý¾Ý¼¯ÖÐµÄÒ»¸öÊôÐÔ£¨Î¬¶È£©¡£
¶¨Òå£¨±ê¼ÇÍ¼£©£º ±ê¼ÇÍ¼ÊÇÒ»¸öÓÐÈ¨Í¼G=(V£¬E£¬w)£¬ÆäÖÐVÖÐµÄÃ¿¸ö¶¥µã¶ÔÓ¦Ò»¸ö¹æ·¶»¯ÐòÁÐÖÐµÄ±ê¼Ç£¬EÊÇ±ßµÄ¼¯ºÏ£¬²¢ÇÒwÊÇÒ»¸ö¶¨Òå±ßÈ¨ÖØµÄº¯Êý¡£Èç¹ûtiºÍtjÔÚÒ»¸ö³¤¶ÈÎªs¸ö±ê¼ÇµÄ»¬¶¯´°¿ÚÖÐÍ¬Ê±³öÏÖ£¬Ôò³ÆÔÚ±ê¼ÇtiºÍtj¼äÓÐÒ»ÌõÈ¨ÖØÎªwijµÄ±ß¡£Èç¹ûÔÚ´°¿Ú»¬¶¯¹ý³ÌÖÐ£¬tiºÍtj¼äÒÑ¾­ÓÐÒ»Ìõ±ßÁË£¬ÔòËüµÄÈ¨ÖØÒª¼ÓÉÏÐÂµÄÈ¨ÖØ¡£
¶¨Òå£¨ÎÞÏòÍ¼£©£º ÔÚÎÞÏò±ê¼ÇÍ¼ÖÐ£¬Èç¹û±ê¼ÇtiºÍtjÖÐÓÐÒ»Ìõ±ß£¬ÄÇÃ´Ëü¾ßÓÐ¶Ô³ÆµÄÈ¨ÖØwij = wji¡£Èç¹ûÔÚÍ¬Ò»¸ö³¤¶ÈÎªs¸ö±ê¼ÇµÄ»¬¶¯´°¿ÚÖÐ³öÏÖÁËtiºÍtj£¬²»½øÐÐÈ¨ÖØÀÛ¼Ó¡£
¶ÔÓÚÓÐÏòÍ¼µÄ¹¹½¨£¬°´ÕÕSQLÓï¾ä£¬´Ó×óµ½ÓÒÑ°ÕÒ±ê¼Ç²¢½¨Á¢ÓÐÏò±ß¡£ 
¶¨Òå£¨ÓÐÏòÍ¼£©£º ÔÚÒ»¸öÓÐÏò±ê¼ÇÍ¼ÖÐ£¬µ±Ò»¸ö³¤¶ÈÎªs¸ö±ê¼ÇµÄ´°¿Ú»¬¹ýÊ±£¬Èç¹ûti³öÏÖÔÚtjÖ®Ç°£¬ÔòÈÏÎªti¡útjÐÎ³ÉÒ»ÌõÈ¨ÖØÎªwijµÄ±ß¡£±ßti¡útjºÍtj¡útiµÄÈ¨ÖØÊÇ¶ÀÁ¢µØ¼ÆËãµÄ¡£
¼ÆËãº¬È¨Í¼ÖÐÁ½¸ö½Úµã¼äÁ¬½ÓÈ¨ÖØµÄÁ½ÖÖ¼ÓÈ¨·½·¨ÈçÏÂ£º ¢ÙÔÚs»¬¶¯´°¿ÚÄÚ£¬Ã¿¸ö±êÇ©¾ßÓÐÏàÍ¬µÄÈ¨ÖØ£» ¢ÚÔÚs»¬¶¯´°¿ÚÄÚ£¬ÀëµÃ½üµÄ±êÇ©È¨ÖØ´ó£¬ÀëµÃÔ¶µÄ±êÇ©È¨ÖØÐ¡¡£ÒÔÁ½¸öSQL±ê¼ÇÐòÁÐÎªÀý£¬µÚÒ»¸ö±êÖ¾ÔÚ»¬¶¯´°¿ÚÄÚÓëºóÐø±ê¼ÇµÄÁ¬½Ó¹ØÏµ¼°È¨ÖØ£¬ÈçÍ¼5ª²3ËùÊ¾¡£ÉÏÃæ²ÉÓÃµÄÊÇ¾ùÔÈÈ¨ÖØ£¬ÏÂÃæ²ÉÓÃµÄÊÇ°´±ÈÀýÈ¨ÖØ¡£


Í¼5ª²3¾ùÔÈÈ¨ÖØÓë°´±ÈÀýÈ¨ÖØ



ÔÚ±ê¼ÇÍ¼¹¹ÔìÍê³ÉÖ®ºó£¬ËùÉú³ÉµÄÍ¼µÄÊ¾ÀýÈçÍ¼5ª²4ËùÊ¾£¬ÆäÖÐÍ¼5ª²4£¨a£©¡¢Í¼5ª²4£¨b£©·Ö±ðÊÇÕý³£²éÑ¯ºÍ×¢Èë²éÑ¯µÄ±ê¼ÇÍ¼¡£½«Ã¿¸ö½Úµã°´ÕÕÒ»¶¨µÄÌØÕ÷½øÐÐ±íÊ¾£¬ÏàÓ¦µÄÌØÕ÷ÖµÓ¦µ±·´Ó³½ÚµãµÄÖØÒªÐÔ¡£¿ÉÒÔÑ¡ÔñµÄÌØÕ÷Á¿°üÀ¨¶ÈÊý¡¢½éÊý¡¢½ôÃÜ¶ÈµÈÖÐÐÄÐÔ¶ÈÁ¿£¬ÕâÐ©Ò²¾­³£ÓÃÓÚºâÁ¿ÎÄ±¾¡¢Éç½»¹ØÏµÖÐµÄÖØÒªÐÔ¡£µ«¶ÔÓÚSQL×¢Èë¶øÑÔ£¬¿¼ÂÇµ½ÔÚSQLÊý¾Ý¿âÉÏÖ´ÐÐ¶øÔì³É¶Ô·þÎñÆ÷µÄ×ÊÔ´ÏûºÄ£¬Òò´Ë£¬¿ÉÒÔÑ¡Ôñ¼ÆËãÁ¿Ð¡µÄ¶ÈÊý¡£


Í¼5ª²4Õý³£²éÑ¯ºÍ×¢Èë²éÑ¯µÄ±ê¼ÇÍ¼£Û1£Ý



2. »ùÓÚÎÄ±¾·ÖÎöµÄ·½·¨
ÓÉÓÚ×¢ÈëÄÚÈÝÊÇÒ»ÖÖÎÄ±¾ÐÅÏ¢£¬ÆäÓï·¨»ù±¾×ñÑ­SQLÓïÑÔ£¬¶ø·ÇÔÓÂÒÎÞÕÂµÄÄÚÈÝ¡£´ÓÕâµãÀ´¿´£¬ËüÓë×ÔÈ»ÓïÑÔÀàËÆ¡£Òò´Ë£¬¿ÉÒÔ³¢ÊÔ°´ÕÕ×ÔÈ»ÓïÑÔÎÄ±¾·ÖÀàµÄ·½Ê½À´½øÐÐSQL×¢ÈëµÄ¼ì²â¡£
°ÑSQLÓï¾ä×¢ÈëµÄÇëÇóÐÅÏ¢½øÐÐ·Ö¸î£¬°´ÕÕÂß¼­Ë³Ðò½øÐÐÇÐ·Ö£¬ÔÚÂß¼­ÉÏ´æÔÚ¼ä¸ôµÄµØ·½¼ÓÉÏ¿Õ¸ñ¡£ 
ÀýÈç¶ÔÓÚÒÔÏÂWebÈÕÖ¾£º



--post-data 

"Login='and'1'='1~~~&Password='and'1'='1~~~&ret_page='and'1'='1~~~&qu erystring='and'1'='1~~~&FormAction=login&FormName=Login" 




×ª»¯Îª



-post-data "Login=' and '1'='1~~~&Password=' and '1'='1~~~&ret_page=' and '1'='1~~~&querystring=' and '1'='1~~~&FormAction=login&FormName=Login




°ÑÕâÐ©´ÓWebÈÕÖ¾ÖÐÌáÈ¡³öÀ´µÄ×Ö·û´®°´ÕÕ±êµã·ûºÅ½øÐÐÇÐ·Ö,×îÖÕ»ñµÃÆäÖÐµÄ´Ê»ãÌØÕ÷¼¯¡£ÕâÑùµÄ×ö·¨ÊÇ°ÑÕâÐ©×Ö·û´®µ±×÷ÎÄ±¾À´´¦Àí¡£
½ÓÏÂÀ´£¬²ÉÓÃÆÕÍ¨µÄÎÄ±¾·ÖÀà¼¼Êõ£¬Ê¹ÓÃÐÅÏ¢ÔöÒæ¡¢·½²îãÐÖµµÈÌØÕ÷Ñ¡Ôñ·½·¨Ñ¡ÔñÓÐÀûÓÚ·ÖÀàµÄTop k¸öÌØÕ÷£¬´Ó¶øÍê³ÉÎÄ±¾ÏòÁ¿¿Õ¼äµÄ¹¹½¨¡£
´ÓÎÄ±¾µÄ½Ç¶È£¬µ±È»Ò²¿ÉÒÔÀûÓÃÎÄ±¾·ÖÀàÖÐµÄ¾­µäÉñ¾­ÍøÂçÀ´½øÐÐSQL×¢ÈëµÄ¼ì²â¡£ÀýÈç£¬°ÑSQLÓï¾äµ±×÷ÎÄ±¾£¬Ê¹ÓÃTextCNN½øÐÐ·ÖÀà¡£ÈçÇ°ËùÊö£¬TextCNNµÄÊäÈëÎÄ±¾ÐÅÏ¢¿ÉÒÔÊÇ±ê¼Ç»¯Ö®ºóµÄSQLÓï¾ä¡¢¾­¹ý¿Õ¸ñ·Ö¸ôÖ®ºóµÄSQLÓï¾ä»ò¾­¹ý¿Õ¸ñºÍÂß¼­ÔËËã·û·Ö¸îÖ®ºóµÄSQLÓï¾ä¡£
5.2.5ÔÚÌì³ØAIÆ½Ì¨ÉÏµÄ¿ª·¢
Êý¾Ý¼¯À´×ÔÒ»¸öÍøÕ¾ÊÕ¼¯µÄÁ´½ÓÇëÇó£¬Ö»ÓÐnormal/attackÁ½Àà£¬·Ö±ð¶ÔÓ¦±êÇ©0/1¡£¸ÃÊý¾Ý¼¯¹²480Ìõ¼ÇÂ¼£¬ÓÐ×¢Èë¼ÇÂ¼339ÌõºÍÕý³£¼ÇÂ¼141Ìõ¡£ÒÔÏÂÁ½Ìõ¼ÇÂ¼·Ö±ðÊÇ×¢ÈëºÍ·Ç×¢ÈëÑù±¾¡£



--post-data ""username=test'%20or%201=1;~~~&password='''~~~"" http://endeavor.cc.gt.atl.ga.us:8080/checkers_current/servlet/processlogin



--post-data ""username=and&password=test"" http://endeavor.cc.gt.atl.ga.us:8080/checkers_current/servlet/processlogin 




»ù±¾µÄÈÎÎñÊÇ¹¹½¨·ÖÀàÆ÷À´Íê³ÉSQL×¢ÈëÓï¾äµÄ¼ì²â£¬Çø·ÖÕý³£·ÃÎÊ(normal)ºÍº¬SQL×¢Èë¹¥»÷(attack)µÄÍøÂçÇëÇó¡£
»ù±¾Ë¼Â·ÊÇ£¬°ÑÕû¸öÑµÁ·ÎÄ±¾¼¯½øÐÐÇÐ·Ö£¬×ª»»Îªtfª²idfÏòÁ¿£¬È»ºóÊ¹ÓÃ¸÷ÖÖ·ÖÀàÆ÷½øÐÐÑµÁ·ºÍ²âÊÔ¡£
£¨1£© Êý¾Ý´¦Àí²¿·Ö¡£



train_data = pd.read_csv("train.txt", header = None, sep = ",")

test_data = pd.read_csv("test.txt", header = None, sep = ",")

train_data.dropna(inplace = True)  #É¾³ýÓÐÈ±Ê§ÖµµÄÐÐ

test_data.dropna(inplace = True)




£¨2£© ÎÄ±¾ª²ÏòÁ¿×ª»»´¦Àí£¬Ê¹ÓÃsklearnÌá¹©µÄTfidfVectorizerÍê³ÉÏòÁ¿±íÊ¾¡£¿ÉÒÔ×ÔÐÐÊµÏÖword2vecµÈ¸ü¶à·½·¨¡£



x_train = list(train_data£Û0£Ý)

y_train = train_data£Û1£Ý

x_test = list(test_data£Û0£Ý)

y_test = test_data£Û1£Ý

vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(x_train + x_test)

point = len(x_train)

x_train = X£Û:point£Ý

x_test = X£Ûpoint:£Ý

#²é¿´ÌØÕ÷¿Õ¼ä

print("ÌØÕ÷¿Õ¼ä£º ")

print(vectorizer.get_feature_names())




£¨3£© ¹¹½¨·ÖÀàÆ÷£¬²âÊÔÐÔÄÜ¡£¿ÉÒÔÀûÓÃÉñ¾­ÍøÂçÄ£ÐÍµÈ¸ü¶à·ÖÀàÆ÷½øÐÐ²âÊÔ£¬ÓÉÓÚÊý¾ÝÖÊÁ¿½Ï¸ß£¬SVM·ÖÀàÆ÷ºÍ¾ö²ßÊ÷µÄF1Öµ·Ö±ð¿ÉÒÔ´ïµ½0.9406ºÍ0.9914¡£



svm = SVC()

svm.fit(x_train, y_train)

print('F1 (svm)£º %.4f' % f1_score(y_test, svm.predict(x_test)))



dt = tree.DecisionTreeClassifier()

dt.fit(x_train, y_train)

print('F1 (Decision Tree)£º %.4f' % f1_score(y_test, dt.predict(x_test)))




ÌØÕ÷¿Õ¼äµÄ²¿·ÖÎ¬¶ÈÈçÏÂ:



'20delete_priv', '20drop_priv', '20exec', '20fieldname', '20file_priv', '20from', '20grant_priv', '20having', '20host', '20index_priv', '20information_schema', '20inner_join', '20insert', '20insert_priv', '20into', '20join', '20left', '20limit', '20master', '20mysql', '20or', '20outer', '20password', '20process_priv', '20references_priv', '20reload_priv', '20select', '20select_priv', '20set', '20show', '20shutdown_priv', '20string', '20tab', '20table', '20table_name', '20tablename', '20tables', '20top', '20union',




¿ÉÒÔ¿´³ö£¬ÕâÀïÑ¡Ôñ³öµÄÌØÕ÷¶¼ÊÇÍ¨³£ÓÃÓÚSQLÓï¾äµÄ´Ê»ã£¬Òò´ËÓÃÀ´ÅÐ¶ÏSQL×¢ÈëÊÇ±È½ÏºÏÊÊµÄ¡£
5.3Ðé¼ÙÐÂÎÅ¼ì²â
5.3.1¸ÅÊö


Ðé¼ÙÐÂÎÅ¡¢Ò¥ÑÔµÈ²»ÊµÐÅÏ¢ÔÚ»¥ÁªÍøÉÏ²ã³ö²»Çî£¬Ðé¼ÙÐÂÎÅµÄ¼ì²â²»½ö¾ßÓÐÃ÷ÏÔµÄÓ¦ÓÃÐèÇó£¬Ò²ÊÇÈË¹¤ÖÇÄÜ¼¼Êõ·Ç³£ºÃµÄÊÔÑé³¡¡£Òò´Ë£¬½üÄêÀ´Ðé¼ÙÐÂÎÅ¼ì²â·½·¨µÃµ½ÁË¹ã·º¹Ø×¢¡£
²»Í¬ÓÚÍøÂçÈëÇÖµÈÍøÂç°²È«ÎÊÌâ£¬Ðé¼ÙÐÅÏ¢Àà°²È«ÎÊÌâ²¢·ÇÊý¾Ý²ãÃæµÄ°²È«ÎÊÌâ£¬¶øÊÇÔÚÊý¾ÝÖ®ÉÏ£¬ÊôÓÚÄÚÈÝ°²È«·¶³ë¡£ÄÚÈÝ°²È«ºÍÐÐÎª°²È«ÓÐÊ±²¢²»ÊÇÍêÈ«·Ö¿ªµÄ£¬ÀýÈç¿¼ÂÇµ½Ò¥ÑÔÄÚÈÝÊ¶±ðÊ±£¬Æä´«²¥ÐÐÎª»á±íÏÖ³öÒ»¶¨µÄÌØÕ÷£¬Òò´ËÔÚÒ¥ÑÔ¼ì²âÖÐÒ²¿ÉÒÔÊ¹ÓÃÒ¥ÑÔ´«²¥ÐÐÎªµÄÌØÕ÷£¬ÄÚÈÝ°²È«ºÍÐÐÎª°²È«»ìÔÓÔÚÒ»Æð¡£¿ÉÒÔ½øÒ»²½´ÓÒ¥ÑÔ´«²¥¡¢Ë®¾ü¡¢ÌØ¶¨ÈºÌåµÄÐÎ³ÉÓëÑÝ±äµÈÐÐÎª°²È«½Ç¶ÈÀ´ÌáÉýÐé¼ÙÐÅÏ¢¼ì²âÐ§¹û¡£
´ÓÈË¹¤ÖÇÄÜ¼¼Êõ½Ç¶È¿´£¬ÄÚÈÝ°²È«Ö÷ÒªÊÇ»ùÓÚÎÄ±¾´¦Àí¼¼Êõ¡£´ÓÎÄ±¾ÖÐÌáÈ¡¹Ø¼ü´Ê¡¢ÃüÃûÊµÌå¡¢Ö÷ÌâÌØÕ÷µÈ£¬Ê¹ÓÃ¸÷ÖÖÎÄ±¾±íÊ¾Ä£ÐÍ¸ø³öÊýÑ§±íÊ¾£¬²¢×îÖÕÑ¡ÔñºÏÊÊµÄ·ÖÀàÆ÷½øÐÐÑµÁ·ºÍ·ÖÀà¡£ÔÚÌØÕ÷·½Ãæ£¬Í¨³£¿ÉÒÔ¸ù¾ÝÎÄ±¾µÄ²»Í¬²¿·Ö£¬ÀýÈç±êÌâ¡¢¶ÎÂäºÍ½áÎ²²¿·Ö£¬·Ö±ð½øÐÐÌØÕ÷´¦Àí¡£
Ðé¼ÙÐÂÎÅ¼ì²âÓëÐé¼ÙÐÅÏ¢¡¢Ò¥ÑÔÐÅÏ¢¼ì²âÓÐÒ»¶¨µÄÏàËÆÐÔ£¬µ«Ðé¼ÙÐÅÏ¢°üº¬½Ï¶à·½Ãæ£¬°üÀ¨Ðé¼ÙÐÂÎÅ¡¢Ðé¼ÙÆÀÂÛµÈ£¬Ò¥ÑÔÐÅÏ¢¿ÉÄÜÊÇÐé¼ÙÐÅÏ¢£¬Ò²¿ÉÄÜÊÇÕæÊµÐÅÏ¢¡£´Ó¼¼ÊõÊÖ¶ÎÉÏ¿´£¬ÕâÐ©¼ì²â·½·¨ÓÐÒ»¶¨ÏàËÆÐÔ¡£×î»ù±¾µÄ·½·¨ÊÇ½öÀûÓÃÐÅÏ¢ÄÚÈÝ£¬Ö÷ÒªÊÇÎÄ±¾ÄÚÈÝ£¬´ÓÎÄ±¾·ÖÀàµÄ½Ç¶È½øÐÐ¼ì²â¡£
¸ü½øÒ»²½£¬ÐèÒªÕë¶Ô²»Í¬ÀàÐÍÐÅÏ¢£¬ÒýÈë¸ü¶àÌØÕ÷¡£¶ÔÓÚÒ¥ÑÔ¶øÑÔ£¬µäÐÍµÄÌØÕ÷»¹ÓÐÐÅÏ¢´«²¥ÌØÕ÷£¬Èç´«²¥µÄËÙ¶È¡¢Éæ¼°µÄÈËÈº¡¢´«²¥ÖÐµÄÖØÒªÈËÎïµÈ¡£¶ÔÓÚÐé¼ÙÆÀÂÛ¶øÑÔ£¬ÆäËû¿ÉÓÃµÄÌØÕ÷°üÀ¨ÆÀÂÛÈËµÄÐÐÎª£¬ÈçÆÀÂÛÖÐµÄÓïÆø¡¢ÆÀÂÛÊýÁ¿¡¢Éæ¼°µÄÉÌÆ·µÈ¡£¶ÔÓÚÐé¼ÙÐÂÎÅ£¬¿ÉÒÔ¿¼ÂÇ³¤ÎÄ±¾Ëù¾ßÓÐµÄÌØÕ÷£¬ÀýÈçÆªÕÂ¡¢Ö÷ÌâºÍÎÄ±¾ÖÐÌØ¶¨ÊµÌåÐÅÏ¢µÈ¡£
5.3.2½ÚºÍ5.3.3½ÚÌá¹©ÁËÁ½¸öÀý×Ó£¬·Ö±ðÊÇ»ùÓÚÍ³¼ÆÑ§Ï°µÄ¼ì²âºÍ»ùÓÚ¶àÈÎÎñÑ§Ï°µÄ¼ì²â£¬²¢ÔÚÌì³ØAIÑ§Ï°Æ½Ì¨µÄ¿Î³Ì°¸ÀýÖÐ¸ø³öÁËÍêÕûµÄ´úÂëºÍÊý¾Ý¼¯£¬¾ßÌåµÄ·ÃÎÊºÍÊ¹ÓÃ·½·¨¼ûµÚ14ÕÂµÄËµÃ÷¡£
5.3.2»ùÓÚÍ³¼ÆÑ§Ï°µÄ¼ì²â
1. Êý¾Ý¼¯


±¾½ÚËùÊ¹ÓÃµÄÊý¾Ý¼¯°üº¬ÁË2096ÌõÀ´×Ô68¸ö²»Í¬ÍøÕ¾µÄÐÂÎÅÐÅÏ¢£¬ÐÂÎÅ·¢²¼ÈÕÆÚÊÇ2016Äê10ÔÂ26ÈÕ¡ª11ÔÂ25ÈÕ¡£Ã¿ÌõÐÂÎÅ¾­¹ýÁË±ê×¢£¬¹²ÓÐ801ÌõÕæÊµÐÂÎÅ£¬1294ÌõÐé¼ÙÐÂÎÅ£¬ÁíÓÐÒ»ÌõÐÂÎÅÎ´×÷±ê¼Ç¡£±êÇ©¼¯Îª{'Fake'£¬'Real'£¬nan}¡£Ã¿ÌõÐÂÎÅÓÐ12¸öÊôÐÔ£¬ÊôÐÔÌØÕ÷¼°×Ö¶ÎÃû³ÆÈç±í5ª²4ËùÊ¾¡£


±í5ª²4Êý¾Ý¼¯ÖÐÐÂÎÅÊôÐÔ¼°×Ö¶ÎÃû³Æ




ÊôÐÔ
×Ö ¶Î Ãû ³Æ
È¡ Öµ Ëµ Ã÷
×÷Õß
author

·¢²¼ÈÕÆÚ
published

±êÌâ
title

ÎÄ±¾
text

ÓïÑÔ
language
{nan£¬'spanish'£¬'french'£¬'ignore'£¬'german'£¬'english'}
À´Ô´
site_url

Ö÷ÒªÍ¼ÏñµÄURL
main_img_url

ÀàÐÍ
type
conspiracy¡¢hate¡¢satire¡¢junksci¡¢stateµÈ±íÊ¾ÐÂÎÅÀàÐÍ
È¥³ýÍ£ÓÃ´ÊºóµÄ±êÌâ
title_without_stopwords

È¥³ýÍ£ÓÃ´ÊºóµÄÕýÎÄ
text_without_stopwords

ÊÇ·ñº¬ÓÐÍ¼Æ¬
hasImage
0£¨Ã»ÓÐÍ¼Æ¬£©¡¢1£¨ÓÐÍ¼Æ¬£©
±êÇ©
Label
±ê×¢½á¹û



Í¼5ª²5ÐÂÎÅÀàÐÍµÄ·Ö²¼



2. Êý¾ÝÌØÕ÷·ÖÎö
¶ÔÓÚ¸ø¶¨µÄÊý¾Ý¼¯£¬¿ÉÒÔÏÈÀûÓÃ¿ÉÊÓ»¯¼¼Êõ¶ÔÊý¾Ý¼¯½øÐÐÌ½Ë÷ÐÔ·ÖÎö£¬ÒÔ±ã¶Ô¸÷¸öÊôÐÔÌØÕ÷ÓÐÉîÈëÁË½â£¬ÓÐÖúÓÚÉè¼Æ¸üºÃµÄÌØÕ÷¹¤³Ì¡£
Ê×ÏÈ¶ÁÈëÎÄ¼þ£º news_articles.csv£¬É¾³ý±í¸ñÖÐº¬ÓÐnanµÄ¼ÇÂ¼£¬¹²µÃµ½2045Ìõ¼ÇÂ¼¡£
ÀûÓÃÏÂÃæµÄÓï¾ä£¬¿ÉÒÔÊ¹ÓÃ±ý×´Í¼²é¿´²»Í¬ÀàÐÍÐÂÎÅµÄ·Ö²¼Çé¿ö£¬ÈçÍ¼5ª²5ËùÊ¾¡£¿ÉÒÔ¿´³ö£¬bs¡¢conspiracy¡¢biasºÍhateËùÕ¼±ÈÀý³¬¹ýÁË75%¡£



df£Û'type'£Ý.value_counts().plot.pie(figsize = (8,8), startangle = 75)





ÀûÓÃWordCloud×é¼þ£¬Éú³É´ÊÔÆÍ¼£¬ÓÃ´ÊÔÆ²é¿´ÐÂÎÅÖÐµÄ¹Ø¼ü´Ê·Ö²¼£¬ÈçÍ¼5ª²6ËùÊ¾¡£



wc = WordCloud(background_color="black", max_words=100,

max_font_size=256,random_state=42, width=2000, height=2000)

wc.generate(' '.join(df£Û'text_without_stopwords'£Ý))





Í¼5ª²6´ÊÔÆÍ¼



3. Êý¾Ý´¦ÀíÓë·ÖÀà
¶ÔÇåÏ´ºóµÄÊý¾Ý¼¯½øÐÐÑµÁ·¼¯Óë²âÊÔ¼¯µÄ»®·Ö£¬ÎªÁË¼ò»¯Ê¾Àý£¬ÕâÀïÑ¡È¡ÁËurlºÍÎÄ±¾ÌØÕ÷£¬½«Á½ÁÐºÏ³ÉÒ»ÁÐ×÷ÎªÐÂµÄÌØÕ÷source£¬²¢ÓÃtfª²idf´ÊÏòÁ¿´¦ÀíÊý¾Ý¼¯£¬½«ÏòÁ¿Êý¾Ý´æÔÚDataFrameÖÐ£¬±ãÓÚºóÐøÑµÁ·ºÍ²âÊÔ¡£



#·Ö¸îÑµÁ·¼¯ºÍ²âÊÔ¼¯£¬²¢ÓÃtfª²idfÏòÁ¿±íÊ¾£¬±£´æµ½tfidf_dfÖÐ

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.30)

tfidf_vect = TfidfVectorizer(stop_words = 'english')

tfidf_train = tfidf_vect.fit_transform(x_train)

tfidf_test = tfidf_vect.transform(x_test)

tfidf_df = pd.DataFrame(tfidf_train.A, columns=tfidf_vect.get_feature_names())




ÎªÁËÕ¹Ê¾·ÖÀàÆ÷µÄÓ¦ÓÃ£¬ÕâÀïÒÔSVM¡¢AdaBoost¡¢RandomForest¡¢XGBoostÎªÀý£¬¿ÉÒÔ½øÒ»²½²é¿´²»Í¬·ÖÀàÆ÷¶Ô½á¹ûµÄÓ°Ïì¡£



# AdaBoost

Adab = AdaBoostClassifier(DecisionTreeClassifier(max_depth=10),n_estimators=5,random_state=1)

Adab.fit(tfidf_train, y_train)

y_pred2 = Adab.predict(tfidf_test)

ABscore = metrics.accuracy_score(y_test,y_pred2)

print("accuracy: %0.3f" %ABscore)

# RandomForest

Rando = RandomForestClassifier(n_estimators=100,random_state=0)

Rando.fit(tfidf_train,y_train)






y_pred3 = Rando.predict(tfidf_test)



#XGBoost

xgb_clf = XGBClassifier()

xgb_clf.fit(tfidf_train,y_train)

y_pred4 = xgb_clf.predict(tfidf_test)




¸ù¾Ý²âÊÔ½á¹û¿ÉÒÔ¿´³ö£¬ÔÚÕâ¼¸ÖÖ²»Í¬µÄ·ÖÀàÆ÷ÖÐ£¬AdaBoost¿ÉÒÔ»ñµÃ×îºÃµÄ·ÖÀàÐÔÄÜ£¬×¼È·ÂÊ´ïµ½96.9%£» ¶øËæ»úÉ­ÁÖºÍXGBoostÏàµ±£¬¶¼»ñµÃ85.3%µÄ×¼È·ÂÊ¡£¾ßÌåµÄÊµÏÖ·½·¨ÊÇµ÷ÓÃsklearnÖÐµÄ¹¦ÄÜ£¬ÔÚÊ¹ÓÃÖ®Ç°ÏÈ¼ÓÔØÈçÏÂ°ü£¬ÆäÖÐRandomForestClassifierºÍAdaBoostClassifierÔÚ¼¯³ÉÑ§Ï°ÖÐ¡£



from sklearn.svm import SVC

from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

from xgboost import XGBClassifier




5.3.3»ùÓÚ¶àÈÎÎñÑ§Ï°µÄ¼ì²â
ÔÚ4.3½Ú½éÉÜÁËÐ¡Ñù±¾ÖÐµÄ¶àÈÎÎñÑ§Ï°£¬ÄÜ¹»±È½ÏÓÐÐ§µØ½â¾öÑù±¾²»×ãµÄÎÊÌâ¡£±¾½ÚÒÔ´ËÎªÀý½éÉÜÆäÔÚÐé¼ÙÐÂÎÅÖÐµÄÔËÓÃ·½·¨¡£
1. Êý¾Ý¼¯
2017Äê£¬William Yang Wang ¹«²¼ÁËÒ»·Ý½Ï´óµÄÊý¾Ý¼¯ LIAR£¬ÆäÖÐ¹²°üº¬ÁË12836ÌõÐÂÎÅ£Û2£Ý¡£¸ÃÊý¾Ý¼¯ÊÇ´ÓÒ»¸öÊÂÊµºË²éÍøÕ¾PolitiFactÊÕ¼¯µÄ£¬°üÀ¨¼ò¶Ì³ÂÊö£¬ÀýÈçÐÂÎÅ¸å¡¢µçÊÓ»òµçÌ¨²É·Ã¡¢¾ºÑ¡ÑÝ½²µÈ£¬²¢°üº¬ÔªÊý¾Ý¡£
³ýÁËÐÂÎÅµÄÎÄ±¾ÄÚÈÝÍâ£¬LIAR Êý¾Ý¼¯»¹Ìá¹©ÁË·á¸»µÄÉÏÏÂÎÄÐÅÏ¢£¬Èç×÷Õß¡¢µ³ÅÉ¡¢×÷ÕßÀúÊ·ÐÅÓÃ±íÏÖµÈ£¬Ã¿ÌõÐÂÎÅ¾ùÓÉ×¨ÒµµÄÐÂÎÅ¹¤×÷ÕßÉóºË£¬²¢¸³ÓèÒ»¸ö·´Ó³ÐÂÎÅÕæÊµ³Ì¶ÈµÄ±êÇ©£¬°´ÕÕ´Ó¼Ùµ½Õæ·ÖÎªÒÔÏÂÁù¸öµÈ¼¶£º pantsª²fire¡¢false¡¢barelyª²true¡¢halfª²true¡¢mostlyª²trueºÍtrue¡£´ËÍâ£¬Ã¿ÌõÐÂÎÅ¾ùÌá¹©ÁËÏêÏ¸µÄ¼ø¶¨±¨¸æ£¬²ûÊöÁËÐÂÎÅ²úÉúµÄ±³¾°ÒÔ¼°ÐÂÎÅÖÐÏà¹ØÂÛµãµÄ±³¾°ÖªÊ¶£¬ÊÇÑÐ¾¿Ðé¼ÙÐÂÎÅ¼ì²â½ÏÎª¿É¿¿µÄÊý¾Ý¼¯¡£¸ÃÊý¾Ý¼¯×Ö¶Î¼°Àý×ÓµÄ½âÊÍÈç±í5ª²5ËùÊ¾¡£


±í5ª²5LIARÊý¾Ý¼¯×Ö¶Î




×Ö¶Î
È¡ Öµ Ñù Àý

ËùÔÚÎÄ¼þ
8616.json
ÕæÊµ³Ì¶È
mostlyª²true
ÎÄ±¾ÄÚÈÝ
The economy bled $24 billion due to the government shutdown
Ö÷Ìâ
economy¡¢federalª²budget¡¢healthª²care
À´Ô´
Doonesbury
×÷Õß

µ³ÅÉ
Democrats¡¢Republicans»òÎÞ
¹¤×÷
Ðø±í


×Ö¶Î
È¡ Öµ Ñù Àý

ËùÔÚÖÝ

ÀúÊ·ÐÅÓÃ
00240

£¨ÔÚpantsª²fire¡¢false¡¢barelyª²true¡¢halfª²true¡¢mostlyª²trueÐÅÏ¢µÄ¼ÆÊý£©
ÉÏÏÂÎÄ
a Doonesbury strip in the Sunday comics

±¾½Ú»ùÓÚ´ËÊý¾Ý¼¯À´ÑéÖ¤Ä£ÐÍµÄÓÐÐ§ÐÔ¡£LIAR Êý¾Ý¼¯ÖÐ¹²ÓÐÈý·ÝÊý¾Ý¼¯£¬·Ö±ðÎªÑµÁ·¼¯¡¢ÑéÖ¤¼¯ºÍ²âÊÔ¼¯¡£Ê¹ÓÃÑµÁ·¼¯À´ÑµÁ·¶àÈÎÎñÑ§Ï°Ä£ÐÍ£¬ÑéÖ¤¼¯ÓÃÀ´ÑéÖ¤ÑµÁ·Ä£ÐÍµÄÐ§¹û²¢Ñ¡Ôñ×îÓÅ²ÎÊý£¬ÊµÑéÖÐµÄÏà¹ØÐÔÄÜÖ¸±ê¾ùÎªÄ£ÐÍÔÚ²âÊÔ¼¯ÉÏ¼ÆËãµÃµ½¡£
2. Éî¶ÈÉñ¾­ÍøÂçÄ£ÐÍÉè¼Æ
¶àÈÎÎñÑ§Ï°¿ÉÒÔÀûÓÃ¶à¸öÑ§Ï°ÈÎÎñÖÐµÄ¹²ÏíÌØÕ÷ÐÅÏ¢À´ÌáÉýÏà¹ØÈÎÎñµÄ·º»¯ÐÔÄÜ£¬´Ó¶ø½øÒ»²½Ìá¸ßÄ£ÐÍµÄÕûÌåÐÔÄÜ¡£ÔÚÐé¼ÙÐÂÎÅÐÅÏ¢Ñù±¾ÓÐÏÞµÄÇé¿öÏÂ£¬ÔËÓÃ¶àÈÎÎñÑ§Ï°ÊÇÖµµÃ³¢ÊÔµÄ×ö·¨¡£
1£© Ô´ÈÎÎñµÄÑ¡Ôñ
»ùÓÚ¶àÈÎÎñµÄË¼Â·£¬±ØÐëÎªÐé¼ÙÐÂÎÅ¼ì²âÑ°ÕÒÆäËûÏà¹Ø»òÏàËÆµÄÔ´ÈÎÎñ£¬È»ºó²ÅÄÜ½øÐÐÈÎÎñÖ®¼äµÄ²ÎÊý¹²ÏíºÍÄ£ÐÍÑµÁ·¡£ÒÔÍ¬Ò»¸öÊý¾Ý¼¯Îª»ù´¡½øÐÐÔ´ÈÎÎñÉè¼Æ£¬Ó¦µ±¿¼ÂÇµ½Ô´ÈÎÎñËùÑ§Ï°µ½µÄÌØÕ÷ÓÐÀûÓÚÌáÉýÄ¿±êÈÎÎñ£¨¼´Ðé¼ÙÐÂÎÅ¼ì²â£©µÄ×¼È·ÐÔ£¬ÕâÖÖÌáÉýÊÇÏà¶ÔÓÚÄ¿±êÈÎÎñ½öÀûÓÃÓëÐé¼ÙÐÂÎÅÖ±½ÓÏà¹ØµÄÌØÕ÷¶øÑÔµÄ¡£
ÓÉÓÚ²»Í¬Ö÷ÌâÐÂÎÅ³öÏÖÐé¼ÙÐÅÏ¢µÄ¿ÉÄÜÐÔ²î±ð½Ï´ó£¬ÀýÈçÓéÀÖÀàÐÂÎÅ³öÏÖÐé¼ÙÐÅÏ¢µÄ¿ÉÄÜÐÔ±È¿Æ¼¼ÀàÐÂÎÅÒª´óµÃ¶à£¬Éç»áÍ»·¢ÊÂ¼þ³öÏÖÐé¼ÙÐÅÏ¢µÄ¿ÉÄÜÐÔ±ÈÆäËûÀàÐÍÖ÷ÌâÐÂÎÅÒª´óµÃ¶à¡£Òò´Ë£¬Èç¹ûÄÜ¹»°ÑÖ÷ÌâÌØÕ÷ÌáÈ¡³öÀ´£¬²¢ÓëÐé¼ÙÌØÕ÷½øÐÐÈÚºÏ£¬½«ÓÐ¿ÉÄÜÌáÉýÐé¼ÙÐÂÎÅµÄ¼ì²âÐ§¹û¡£ÓÉÓÚÐÂÎÅµÄÖ÷ÌâÌØÕ÷²¢²»Ö±½Ó´æÔÚÓÚÐÂÎÅÎÄ±¾ÖÐ£¬ÌáÈ¡ÐÂÎÅÖ÷ÌâÌØÕ÷±¾Éí¾ÍÊÇÒ»¸ö»úÆ÷Ñ§Ï°ÈÎÎñ¡£
´ËÍâ£¬¶àÈÎÎñÑ§Ï°µÄÄ¿µÄÊÇÀûÓÃÔ´ÈÎÎñµÄ³ä×ãÊý¾ÝÀ´ÍÚ¾ò¸ü¶àÌØÕ÷£¬ÒÔÀûÓÚÏòÄ¿±êÈÎÎñ¹²ÏíÓÐÐ§²ÎÊý¡£¾¡¹ÜÔÚ±¾ÎÊÌâÖÐ£¬Á½¸öÈÎÎñÊ¹ÓÃÍ¬Ò»¸öÊý¾Ý¼¯£¬µ«ÊÇÔ´ÈÎÎñ¿ÉÒÔ´ÓÊý¾Ý¼¯ÖÐ½øÒ»²½¹¹Ôì³öËüµÄÑµÁ·Êý¾Ý¡£
×ÛÉÏËùÊö£¬ÔÚÐé¼ÙÐÂÎÅ·ÖÀàµÄ¶àÈÎÎñÑ§Ï°Éè¼ÆÖÐ£¬¿ÉÒÔ°ÑÐÂÎÅÖ÷Ìâ·ÖÀà×÷ÎªÔ´ÈÎÎñ£¬°ÑÐé¼ÙÐÂÎÅ·ÖÀà×÷ÎªÄ¿±êÈÎÎñ¡£»ùÓÚÐÂÎÅÕæÊµÐÔÓëÐÂÎÅÖ÷ÌâÖ®¼äµÄ¹ØÏµ£¬ÔËÓÃÉî¶ÈÑ§Ï°¼¼Êõ£¬¹¹½¨¶àÈÎÎñÑ§Ï°Ä£ÐÍ£¬Ê¹Ä£ÐÍ¿ÉÒÔÍ¬Ê±Ô¤²âÐÂÎÅµÄÕæÊµÐÔÒÔ¼°ÐÂÎÅµÄÖ÷Ìâ¡£
2£© Ä£ÐÍ½á¹¹
ÓÉÓÚÉî¶ÈÑ§Ï°Ä£ÐÍÄÜ¹»Ñ§Ï°²»Í¬²ãÃæµÄÌØÕ÷£¬¾ßÓÐÌìÈ»µÄ²ÎÊý¹²Ïí»úÖÆ£¬Òò´ËÔÚ¶àÈÎÎñÑ§Ï°Ä£ÐÍÖÐ£¬Í¨³£ÒÔÉî¶ÈÉñ¾­ÍøÂç×÷Îª»ù±¾Ä£ÐÍ¡£ÔÚ¶à¸öÈÎÎñÖ®¼ä¹²Ïíµ×²ãµÄÒþ²Ø²ã£¬²¢ÇÒÕë¶Ô²»Í¬ÈÎÎñÉè¼ÆÏàÓ¦µÄÉñ¾­ÍøÂçÀ´´¦Àí¸ß²ãÌØÕ÷¡£Ò»°ãÀ´Ëµ£¬ËùÑ¡ÔñµÄÔ´ÈÎÎñÓ¦µ±ÓÐ½Ï³ä×ãµÄÊý¾Ý£¬ÔÚ¹²ÐÔÌØÕ÷¹²ÏíÊ±£¬ÏÈÓÉÔ´ÈÎÎñÑµÁ·²ÎÊý£¬È»ºó¸´ÖÆ¸øÄ¿±êÈÎÎñ¡£Ä¿±êÈÎÎñÖ»¸üÐÂÄ£ÐÍÖÐÓëÈÎÎñÏà¹ØµÄ²ã£¬¶øÔ´ÈÎÎñ¿ÉÒÔÍ¬Ê±¸üÐÂÓë¹²ÏíºÍÈÎÎñÏà¹ØµÄ²ã¡£
Ä£ÐÍ½á¹¹ÈçÍ¼5ª²7ËùÊ¾¡£


Í¼5ª²7Ò¥ÑÔ¼ì²âµÄ¶àÈÎÎñÄ£ÐÍ




Í¼5ª²7ÖÐ£¬Ê¹ÓÃË«ÏòRNN½á¹¹´¦ÀíÊäÈëµÄ¾ä×ÓÎÄ±¾£¬Ç°ÏòºÍºóÏòµÄ»ù±¾µ¥Ôª¾ùÎªGRU,»ñµÃµÄÊä³öÐòÁÐ½øÒ»²½´«µÝ¸øAttention½á¹¹ÓëºóÐøµÄ½á¹¹¡£¾ßÌå¿ÉÒÔÊ¹ÓÃBahdanauAttentionµÈ×¢ÒâÁ¦»úÖÆ£¬½âÂëÆ÷²ÉÓÃµ¥ÏòRNN½á¹¹£¬½á¹¹µÄÊä³ö½«·Ö±ðÊäÈëÁ½¸öÎÞ¹ØÁªµÄMLP½á¹¹ÖÐ£¬ÒÔÊµÏÖÏÂÓÎÁ½¸ö·ÖÀàÈÎÎñµÄÔ¤²â¡£ÒÔGRUÎª»ù±¾µ¥ÔªµÄRNNÒþ²Ø²ãµÄµ¥ÔªÊýÎª1024¡£
GRUÄÜ¹»¶Ô¾ßÓÐÊ±¼äÐòÁÐµÄÊý¾Ý½øÐÐÌØÕ÷Ñ§Ï°£¬ÒÑ¾­ÔÚÖÚ¶à×ÔÈ»ÓïÑÔ´¦ÀíÈÎÎñÖÐÈ¡µÃ³É¹¦¡£Í¨¹ý²»¶ÏµØÊäÈëÊ±¼äÐòÁÐµÄÊý¾Ý£¬GRUÄÜ¹»ÓÐÑ¡ÔñµØ±£ÁôÓÐÓÃÐÅÏ¢²¢½«Æä×÷ÓÃÓÚºóÐøµÄ¼ÆËãÖÐ£¬´Ó¶ø»ñµÃ¸÷Ê±¼äÐòÁÐ¶ÔÏóµÄ¸ß½×ÌØÕ÷±íÊ¾¡£
ÔÚÉî¶ÈÑ§Ï°ÖÐ£¬×¢ÒâÁ¦»úÖÆÊÇÍ¨¹ý¶ÔÊäÈë¸³Óè²»Í¬µÄÈ¨ÖØÏµÊýÀ´ÊµÏÖµÄ£¬È¨ÖØÏµÊýÔ½´óÔòÐÅÏ¢Ô½ÖµµÃ±»¹Ø×¢¡£×¢ÒâÁ¦»úÖÆµÄ¼ÆËã¹ý³Ì¿É¸ÅÀ¨Îª


Attention£¨Query,Source£©=¡ÆLi=1Similarity£¨Query,Keyi£©¡ÁValuei(5ª²5)


ÆäÖÐ£¬SourceÓÉÒ»ÏµÁÐµÄ<Key,Value>Êý¾Ý¶Ô¹¹³É£» LÎªKeyºÍValueµÄÊýÁ¿¡£µ±¸ø¶¨QueryÊ±£¬Í¨¹ý¼ÆËãQueryºÍÃ¿¸öKeyµÄÏàËÆ³Ì¶È£¬¿ÉÒÔ»ñµÃÃ¿¸öKey¶ÔÓ¦ValueµÄÈ¨ÖØÏµÊý£¬¸ÃÈ¨ÖØÏµÊýÔò±íÊ¾ÁËValueµÄÖØÒª³Ì¶È£¬×îÖÕµÄÊä³ö¼´ÎªÈ¨ÖØÏµÊý¶ÔValueµÄ¼ÓÈ¨ÇóºÍ¡£
Òò´Ë£¬×¢ÒâÁ¦»úÖÆ±¾ÖÊÉÏÊÇ¶ÔValueÖµ½øÐÐ¼ÓÈ¨ÇóºÍ£¬¶ø¼ÓÈ¨ÇóºÍËùÓÃµ½µÄÈ¨ÖØÏµÊýÔòÓÉQueryºÍKey½øÐÐÏàËÆÐÔ¼ÆËãµÃµ½¡£ÔÚ¼ÆËãQueryºÍKeyµÄÏàËÆ³Ì¶ÈÊ±£¬¿ÉÒÔÊ¹ÓÃ²»Í¬µÄ¼ÆËã·½·¨¡£
3. Êý¾Ý´¦Àí
ÓÉÓÚLIARÊý¾Ý¼¯º­¸ÇÖ÷Ìâ¶à´ï140¸ö£¬²¢ÇÒÒ»Ð©Ö÷Ìâ¶ÔÓ¦µÄÑù±¾ÊýÄ¿½ÏÉÙ£¬Òò´ËÔÚ´¦ÀíÐÂÎÅµÄÖ÷Ìâ±êÇ©Ê±£¬±¾½ÚÖ»È¡Ç°24¸ö³öÏÖ´ÎÊý×î¶àµÄÖ÷Ìâ×÷ÎªÐÂÎÅµÄÖ÷Ìâ±êÇ©£¬ÆäÓàµÄÐÂÎÅÔò¸³ÓèOthers±êÇ©¡£Òò´Ë£¬¶Ô¼ÙÐÂÎÅ¼ì²âÈÎÎñ¶øÑÔ£¬ÊÇÒ»¸öÁù·ÖÀàÎÊÌâ£» ¶ÔÐÂÎÅÖ÷Ìâ·ÖÀàÈÎÎñ¶øÑÔ£¬ÊÇÒ»¸ö¶þÊ®Îå·ÖÀàÎÊÌâ¡£LIARÊý¾Ý¼¯ÖÐÉæ¼°µÄÖ÷Ìâ°üÀ¨Economy¡¢Health Care¡¢Immigration¡¢CrimeµÈ¡£
Ö÷ÒªµÄÊý¾Ý´¦Àí»·½ÚÈçÏÂ¡£
1£© ÎÄ±¾±íÊ¾
ÎÄ±¾±íÊ¾·½·¨Ê¹ÓÃÁËGloVe¼¼Êõ¡£GloVe£¨Global Vectors for Word Representation£©ÊÇÒ»¸ö»ùÓÚÈ«¾Ö´ÊÆµÍ³¼Æ£¨countª²based & overall statistics£©µÄ´Ê±íÕ÷£¨word representation£©¹¤¾ß£¬Ëü¿ÉÒÔ°ÑÒ»¸öµ¥´Ê±í´ï³ÉÒ»¸öÓÉÊµÊý×é³ÉµÄÏòÁ¿£¬ÕâÐ©ÏòÁ¿²¶×½µ½ÁËµ¥´ÊÖ®¼äµÄÒ»Ð©ÓïÒåÌØÐÔ£¬ÀýÈçÏàËÆÐÔ£¨similarity£©¡¢Àà±ÈÐÔ£¨analogy£©µÈ¡£
2£© ÎÄ±¾ÇåÏ´
Õë¶ÔÎÄ±¾ÄÚÈÝ½øÐÐ±ØÒªµÄÔ¤´¦Àí£¬ÈçÈ¥³ýÍ£Ö¹´Ê£¬Ìæ»»Êý×Ö¡¢½ðÇ®Ãæ¶î¡¢ÈÕÆÚµÈ¶Ô¼ÙÐÂÎÅ¼ì²âºÍÐÂÎÅÖ÷Ìâ·ÖÀàÎÞ¹Ø¼üÒâÒåµÄ´Ê£» ÎÄ±¾µÄ×î´ó³¤¶ÈÎª30£¬ÎÄ±¾³¤¶È³¬¹ý30µÄ½Ø¶ÏºóÃæµÄÄÚÈÝ¶ªÆú²»ÓÃ£¬ÎÄ±¾³¤¶È²»×ã30µÄÓÃ0Ìî²¹¡£Ê¹ÓÃÔ¤ÑµÁ·µÄGloVe ´ÊÏòÁ¿³õÊ¼»¯´ÊÇ¶Èë¾ØÕó£¬´ÊÏòÁ¿µÄÇ¶ÈëÎ¬¶ÈÎª300£¬¶ÔÓÚÎ´µÇÂ¼´ÊÈ«Áã³õÊ¼»¯¡£
3£© Ä£ÐÍµÄÑµÁ·
Ä£ÐÍÊµÏÖÖ÷ÒªÊ¹ÓÃTensorFlow¿ò¼Ü£¬´úÂëÊ¹ÓÃPython±àÐ´¡£±¾½ÚÌá³öµÄ¶àÈÎÎñÄ£ÐÍÖÐµÄËðÊ§º¯ÊýÎªÁ½¸öÈÎÎñµÄËðÊ§º¯Êýµþ¼Ó¡£Ä£ÐÍÑµÁ·Ê¹ÓÃAdamËã·¨£¬³õÊ¼Ñ§Ï°ÂÊÉèÎª0.01£¬×î´óµü´ú´ÎÊýÉèÖÃÎª10¡£
4. Ö÷Òª´úÂë
¾ßÌå´úÂëÊ¾ÀýÈçÏÂ¡£



#Ò¥ÑÔ¼ì²âµÄMLP½á¹¹

class MLP_RUMOR(tf.keras.Model):

def __init__(self):

super(MLP_RUMOR, self).__init__()

self.dense1 = tf.keras.layers.Dense(units=256, activation='relu')

self.dense2 = tf.keras.layers.Dense(units=64, activation='relu')

self.dense3 = tf.keras.layers.Dense(units=16, activation='relu')

self.dense4 = tf.keras.layers.Dense(units=6, activation=tf.keras.activations.softmax)

self.bn1 = tf.keras.layers.BatchNormalization()



def call(self, x, training):

x = self.bn1(x, training=training)

x = self.dense1(x)

x = self.dense2(x)

x = self.dense3(x)

x = self.dense4(x)

return x








#ÐÂÎÅÖ÷Ìâ·¢ÏÖµÄMLP½á¹¹

class MLP_NEWS(tf.keras.Model):

def __init__(self):

super(MLP_NEWS, self).__init__()

self.dense1 = tf.keras.layers.Dense(units=512, activation='relu')

self.dense2 = tf.keras.layers.Dense(units=128, activation='relu')

self.dense3 = tf.keras.layers.Dense(units=64, activation='relu')

self.dense4 = tf.keras.layers.Dense(units=25, activation=tf.keras.
activations.softmax)

self.bn1 = tf.keras.layers.BatchNormalization()



def call(self, x, training):

x = self.bn1(x, training=training)

x = self.dense1(x)

x = self.dense2(x)

x = self.dense3(x)

x = self.dense4(x)

return x



#ÑµÁ·º¯Êý

def train_step(inp, targ_news, targ_rumor, enc_hidden):

with tf.GradientTape() as tape:

# encoder

enc_output, enc_hidden = encoder(inp, enc_hidden)

dec_hidden = enc_hidden



#decoder

for i in range(32):

dec_hidden, _ = decoder(dec_hidden, enc_output)



# mlp

predictions_news = mlp_news(dec_hidden, training=True)

predictions_rumor = mlp_rumor(dec_hidden, training=True)



# ËðÊ§º¯Êý¶¨ÒåÎªÁ½¸öÈÎÎñËðÊ§µÄÆ½¾ù

batch_loss = 1/2 * (tf.reduce_mean(loss(targ_news, predictions_news)) + tf.reduce_mean(loss(targ_rumor, predictions_rumor)))



# acc

batch_news_acc = acc_func(predictions_news, targ_news)

batch_rumor_acc = acc_func(predictions_rumor, targ_rumor)



#ÐèÒªÓÅ»¯µÄ²ÎÊý°üÀ¨±àÂëÆ÷ºÍ½âÂëÆ÷ÒÔ¼°Á½¸öÈÎÎñµÄMLP²ÎÊý£¬Í¨¹ýtf.GradientTapeÌÝ¶ÈÓÅ

#»¯Æ÷À´Çó½â

variables = encoder.trainable_variables + decoder.trainable_variables £Ü+ 

mlp_news.trainable_variables + mlp_rumor.trainable_variables

gradients = tape.gradient(batch_loss, variables)

optimizer.apply_gradients(zip(gradients, variables))

return batch_loss, batch_news_acc, batch_rumor_acc



5. ½á¹û¼ìÑé
ÎªÁËÑéÖ¤¶àÈÎÎñÑ§Ï°µÄÓÐÐ§ÐÔ£¬ÐèÒª°Ñ¶àÈÎÎñÑ§Ï°Ä£ÐÍÓëµ¥ÈÎÎñÒ¥ÑÔ¼ì²âÄ£ÐÍ½øÐÐ¶Ô±È£¬¿¼ÂÇµ½¼òµ¥µÄµ¥ÈÎÎñÄ£ÐÍ´æÔÚ¹ýÄâºÏ·çÏÕ£¬Òò´Ë£¬ÔÚµ¥ÈÎÎñÄ£ÐÍÉÏÔö¼ÓÁËÊ¹ÓÃdropout·½·¨µÄÄ£ÐÍÓÃÀ´¶Ô±È¶àÈÎÎñÑ§Ï°Ä£ÐÍµÄÓÐÐ§ÐÔ¡£
´Ó±í5ª²6¿ÉÒÔ·¢ÏÖ£¬¶àÈÎÎñÑ§Ï°Ä£ÐÍ¶Ô·ÖÀà½á¹ûµÄÌáÉýÊÇÏÔÖøµÄ¡£ÆäÖÐ£¬Ò¥ÑÔ¼ì²âÈÎÎñµÄ×¼È·ÂÊ´Ó19.3% ÌáÉýÖÁ 26.4%£¬×îÎªÃ÷ÏÔ¡£¾­¹ý·ÖÎö£¬ÎÒÃÇÈÏÎªÒòÎªµ¥ÈÎÎñµÄÒ¥ÑÔ¼ì²âÈÎÎñ¹ýÓÚÀ§ÄÑ£¬Ä£ÐÍºÜÄÑÑ§Ï°µ½ÓÐÓÃµÄÌØÕ÷£¬¶ø¹¹½¨¶àÈÎÎñÑ§Ï°Ä£ÐÍºó£¬Ò¥ÑÔ¼ì²âÄ£ÐÍÒòÎªºÍÐÂÎÅ·ÖÀàÄ£ÐÍ¹²Ïíµ×²ã½á¹¹£¬¶àÈÎÎñµÄµ×²ãÄ£ÐÍ¸üºÃµØÑ§Ï°µ½ÁËÓÐÓÃµÄÌØÕ÷£¨Á½¸öÈÎÎñ¹²Í¬×÷ÓÃ£¬µ×²ã½á¹¹Ñ§Ï°µ½ÁË¸ü¼Ó·º»¯µÄÓÐÓÃµÄÌØÕ÷£©£¬´Ó¶øÊ¹µÃ·ÖÀà×¼È·ÂÊµÃµ½ÌáÉý¡£


±í5ª²6Ä£ÐÍÔÚÐÂÎÅÊý¾Ý¼¯ÉÏµÄ×¼È·ÂÊ




Ä£ÐÍ
Ò¥ ÑÔ ¼ì ²â
ÐÂ ÎÅ ·Ö Àà

µ¥ÈÎÎñ
19.3%
49.5%
¶àÈÎÎñÑ§Ï°
26.4%
50.6%
dropout
20.5%
49.0%


ÐÂÎÅ·ÖÀàÈÎÎñµÄ×¼È·ÂÊ´Ó49.5%ÌáÉýÖÁ50.6%¡£Ïà±ÈÒ¥ÑÔ¼ì²âÈÎÎñ£¬ÐÂÎÅ·ÖÀàÈÎÎñËäÒ²ÓÐÌáÉý£¬µ«ÌáÉý·ù¶È½ÏÐ¡¡£´ËÍâ¿ÉÒÔ¿´³ö£¬µ¥ÈÎÎñµÄÐÂÎÅ·ÖÀà·½·¨µÄ×¼È·ÂÊ±Èµ¥ÈÎÎñµÄÒ¥ÑÔ¼ì²â·½·¨µÄ×¼È·ÂÊ¸ßºÜ¶à£¬¿ÉÒÔÈÏÎªÐÂÎÅ·ÖÀàÈÎÎñ¸üÄÜÑ§Ï°µ½ºÃµÄÌØÕ÷¡£Òò´Ë£¬Ïà±ÈÓÚÒ¥ÑÔ¼ì²âÈÎÎñ¶ÔÐÂÎÅ·ÖÀàÈÎÎñµÄ×÷ÓÃ£¬ºóÕß¶ÔÇ°ÕßµÄ°ïÖúÒª¸üÏÔÖøÒ»Ð©£¬ÕâÒ²ÌåÏÖÁË¶àÈÎÎñÑ§Ï°µÄÖ÷ÒªÌØÕ÷¡£
ÊµÑéÖÐ·¢ÏÖµ¥ÈÎÎñµÄÐÂÎÅ·ÖÀàÈÎÎñÔÚÑµÁ·¼¯ÉÏµÄ×¼È·ÂÊºÜ¸ß£¬¶øÔÚ²âÊÔ¼¯ÉÏµÄ×¼È·ÂÊÒªµÍºÜ¶à£¬Òò´ËÊ¹ÓÃdropout¶Ôµ¥ÈÎÎñÄ£ÐÍ½øÐÐÕýÔò»¯£¬²¢×÷Îª¶Ô±ÈÊµÑé¡£½á¹û±íÃ÷£¬dropout²ã¶ÔÄ£ÐÍÃ»ÓÐÌáÉýÐ§¹û»òÐ§¹ûºÜ²»Ã÷ÏÔ¡£
William Yang WangÔÚ¸ÃÊý¾Ý¼¯ÉÏµÄ²âÊÔ£Û2£Ý£¬µÃµ½µÄÐÔÄÜ±¨¸æÈç±í5ª²7ËùÊ¾¡£ÆäÖÐ£¬Ê¹ÓÃCNNÎÄ±¾·ÖÀà·½·¨£¬²¢ÇÒÒªÇóÌá¹©ÐÂÎÅµÄ¶îÍâÊôÐÔ£¬ÈçÖ÷Ìâ´Ê¡¢×÷ÕßµÈ¡£¶ø±¾½ÚµÄ¶àÈÎÎñÑ§Ï°Ö»Ê¹ÓÃÎÄ±¾ÐÅÏ¢×÷ÎªÊäÈë£¬¾ÍÄÜ»ñµÃÓëÀûÓÃ¶à¸öÊôÐÔµÄÄ£ÐÍÏàËÆµÄÐ§¹û¡£


±í5ª²7Ðé¼ÙÐÂÎÅ¼ì²â




Ä£ÐÍ
²âÊÔ¼¯µÄÐÔÄÜÄ£ÐÍ
²âÊÔ¼¯µÄÐÔÄÜ

SVM25.5%»ìºÏCNN£º ÎÄ±¾+ËùÔÚÖÝ25.6%
Biª²LSTM23.3%»ìºÏCNN£º ÎÄ±¾+ÉÏÏÂÎÄ24.3%
»ìºÏCNN£º ÎÄ±¾+Ö÷Ìâ´Ê23.5%»ìºÏCNN£º ÎÄ±¾+ÀúÊ·ÐÅÓÃ24.1%
»ìºÏCNN£º ÎÄ±¾+×÷Õß24.8%»ìºÏCNN£º ÎÄ±¾+ËùÓÐ27.4%

5.3.4ÓÐ´ýÈË¹¤ÖÇÄÜ½â¾öµÄÎÊÌâ
Ðé¼ÙÐÂÎÅ¼ì²âÊÇÒ»¸öÊµ¼ÊµÄÍøÂç¿Õ¼ä°²È«ÎÊÌâ£¬¶ÔÓÚÈË¹¤ÖÇÄÜ¼¼ÊõÒ²Ìá³öÁËºÜ´óµÄÌôÕ½¡£´Óµ±Ç°ÑÐ¾¿¼°½ñºó½øÒ»²½·¢Õ¹À´¿´£¬ÆäÌôÕ½ÐÔÖ÷ÒªÌåÏÖÔÚÒÔÏÂ¼¸·½Ãæ¡£
1. ¶àÄ£Ì¬ÐÅÏ¢µÄ×ÛºÏÀûÓÃ
ÐÂÎÅÐÅÏ¢ÖÐ³ýÁËÎÄ±¾ÐÅÏ¢Íâ£¬»¹´æÔÚÍ¼Æ¬¡¢ÊÓÆµµÈÆäËûÄ£Ì¬ÐÅÏ¢£¬Í¬Ê±£¬Ðé¼ÙÐÂÎÅÔÚÉç½»ÍøÂçÖÐµÄ´«²¥·½ÃæÒ²»áÌåÏÖ³öÓëÕý³£ÐÂÎÅ²»Í¬µÄÐÐÎªÌØÕ÷£¬Òò´Ë£¬Éç½»ÍøÂçÖÐÔÌº¬µÄ¶àÖÖÌØÕ÷Ò²Îª¶àÄ£Ì¬ÐÅÏ¢Ìá¹©ÁËÓÐÒæ²¹³ä¡£
2. ÔÚ»úÆ÷Ñ§Ï°ÖÐÀí½âºÍÔËÓÃÐé¼ÙÐÂÎÅµÄ²úÉúÒâÍ¼
Ðé¼ÙÐÂÎÅµÄ²úÉúÏÔÈ»´æÔÚÓÐ±ðÓÚÕý³£ÐÂÎÅµÄÔ­Òò£¬ÕâÐ©Ô­ÒòÀ´×Ô¸öÌå²ãÃæºÍÉç»á²ãÃæ¡£¸öÌåÎÞ·¨×¼È·µØÇø·ÖÕæ¼ÙÐÂÎÅ£¬´ï¿ËÐ§Ó¦¡¢È·ÈÏÆ«²î¡¢¹æ·¶Ó°ÏìÀíÂÛµÈÉç»áÀíÂÛ¾ö¶¨¸öÌå·ÖÏíÓëËûÃÇÈÏÖªÒ»ÖÂµÄÐÅÏ¢µÄ¸öÐÔÐèÇó¡£Éç»á²ãÃæµÄ»ØÉùÊÒÐ§Ó¦¡¢Éç»áÇ÷Í¬ÐÔ£¨homophily£©¡¢Ëã·¨¸öÐÔ»¯ÍÆ¼öÈÝÒ×µ¼ÖÂ¸öÌå²»Ô¸Òâ¹ý¶à²úÉú³åÍ»¹Ûµã¡£
3. ÃæÏòÏ¸·ÖÐé¼ÙÐÂÎÅµÄ»úÆ÷Ñ§Ï°Ä£ÐÍ
Ðé¼ÙÐÅÏ¢Êµ¼ÊÉÏ¿ÉÒÔÏ¸·ÖÎªºÜ¶àÀàÐÍ£¬ÀýÈçÎ±ÔìÄÚÈÝ¡¢Îóµ¼ÐÔÄÚÈÝ¡¢Ã°Ãû¶¥ÌæÄÚÈÝ¡¢¶ñÒâÄÚÈÝ¡¢¶ñ×÷¾ç¡¢·í´ÌµÈ£¬¶øÕâÐ©ÀàÐÍÓÐÒ»Ð©ÏàÍ¬ÌØÕ÷£¬µ«Ò²ÌåÏÖ³öÒ»¶¨²îÒì¡£ÈçºÎÈÃÖÇÄÜ¼¼Êõ¶ÔÐé¼ÙÐÂÎÅÄÚÈÝ×ö¸ü½øÒ»²½µÄÅÐ¶Ï£¬¶ÔÓÚÐé¼ÙÐÂÎÅµÄÒýµ¼ºÍ½ç¶¨ÊÇÓÐÒæµÄ¡£µ«Ä¿Ç°ÏÞÖÆÓÚÊý¾ÝÑù±¾ºÍÓïÒåÀí½â¼¼Êõ£¬²¢ÎÞ·¨¹¹½¨ÕâÐ©ÀàÐÍµÄ»úÆ÷Ñ§Ï°Ä£ÐÍ¡£
²Î¿¼ÎÄÏ×

£Û1£ÝKar D£¬Panigrahi S£¬Sundararajan S.SQLiGoT: detecting SQL injection attacks using graph of token and SVM£ÛJ£Ý.Computers & Security£¬2016,60(7):206ª²225.

£Û2£ÝWang W Y.Liar£¬Liar Pants on Fire:a new benchmark dataset for fake news detection£ÛC£Ý.In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics£¬2017: 422ª²426.