µÚ5ÕÂÎÄ±¾¾ÛÀà¼¼Êõ
5£®1¸ÅÊö
Ëæ×ÅÒòÌØÍøµÄÑ¸ÃÍ·¢Õ¹ºÍ¹ã·ºÓ¦ÓÃ£¬ÈËÃÇÒÑ¾­¿ç½øÐÅÏ¢Ê±´ú£¬ÈËÃÇÉú»îºÍ¹¤×÷µÄ·½·½ÃæÃæ¶¼ÔÚÒò´Ë·¢Éú×Å¾Þ´óµÄ±ä»¯¡£µ±Ç°ÍøÂçÉÏÆÕ±é´æÔÚ×Å¡°ÐÅÏ¢±¬Õ¨¡±µÄÎÊÌâ£¬µç×ÓÉÌÎñ¡¢Î¢²©¡¢ÍøÂçÐÂÎÅ¡¢µç×ÓÎÄµµ¡¢Eª²mail¡¢µç×ÓÆÚ¿¯ÒÔ¼°ÍøÉÏÊé¿¯µÈÔÚÏßÐÅÏ¢ÈÕÒæÔö¶à£¬ÆäÖÐ°ë½á¹¹»¯ÐÅÏ¢Õ¼¾ÝÁËºÜ´óÒ»²¿·Ö£¬ÉõÖÁÓÐ²¿·ÖÐÅÏ¢ÊÇ·Ç½á¹¹»¯µÄ¡£ÈçºÎ¿ìËÙÓÐÐ§µØ´¦ÀíÒòÌØÍøÉÏÕâÐ©ÁîÈËÄÓÍ·µÄº£Á¿ÐÅÏ¢£¬´ÓÖÐ³éÈ¡³öÓÐÓÃÐÅÏ¢£¬ÊÇµ±Ç°ÑÐ¾¿ÈËÔ±ÆÈÇÐÏëÒª½â¾öµÄÎÊÌâ¡£ÈË¹¤·ÖÀàÕâÒ»´«Í³×ö·¨£¬ËäÈ»ÔÚÄ³Ð©³Ì¶ÈÉÏÓÐÐ§µØ»ñÈ¡ÁËÐÅÏ¢£¬µ«ÊÇ¸Ã×ö·¨¹ýÓÚ·ÑÊ±·ÑÁ¦¡£Ãæ¶Ôº£Á¿µÄÍøÂçÐÅÏ¢£¬ÈË¹¤·ÖÀàµÄ´¦Àí·½Ê½±»ÌÔÌ­³ö¾Ö¡£ÏÖÔÚµÄÍøÂçÐÅÏ¢ºÜ¶à¶¼Ê¹ÓÃÎÞÐ§±ê¼Ç£¬¸üÓÐÉõÕßÃ»ÓÐ±ê¼Ç£¬ÈË¹¤·ÖÀàµÄ·½·¨¸ù±¾ÎÞ·¨ÊÊÓÃ¡£ÔõÑùÔÚÃ»ÓÐÀà±ðÐÅÏ¢Ö¸µ¼µÄÇ°ÌáÏÂ¶ÔÍøÂçÎÄ±¾½øÐÐ·ÖÀà²¢±êÊ¶£¬ÎªÔ½À´Ô½¶àµÄÑÐ¾¿ÈËÔ±Ëù¹Ø×¢¡£¾ÛÀàÊÇÒ»ÖÖÎÞ¼à¶½µÄ»úÆ÷Ñ§Ï°·½·¨£¬ÓëÓÐ¼à¶½»úÆ÷Ñ§Ï°²»Í¬£¬ËüÊÇÒ»ÖÖÍêÈ«×Ô¶¯»¯µØ´¦ÀíÎÄ±¾µÄ¼¼Êõ£¬²»ÔÙÐèÒªÈË¹¤µØ²ÎÓëÀ´±æ±ðÑµÁ·ÎÄµµµÄÀà±ð£¬Òò´Ë¾ÛÀà·½·¨Ò²¾ßÓÐÒ»¶¨µÄÁé»îÐÔ£¬ÊÇ×éÖ¯ÎÄ±¾ÐÅÏ¢µÄÒ»ÖÖÖØÒªÊÖ¶Î¡£
ÎÄ±¾¾ÛÀàÊÇ½«ÎÄ±¾Êý¾Ý¼¯°´ÕÕ¶¨ÒåµÄÎÄ±¾ÏàËÆ¶ÈÁ¿º¯Êý·ÖÎªÈô¸ÉÎÄ±¾×Ó¼¯µÄ¹ý³Ì£¬²¢±ê×¢³öÃ¿¸öÎÄ±¾×Ó¼¯µÄÀà±ð±êÇ©£¬ÆäÒÀ¾ÝµÄ¼ÙÉèÊÇÍ¬ÀàÖÐµÄ¶ÔÏó»¥ÏàÖ®¼äÊÇÏàËÆµÄ£¬¶ø²»Í¬ÀàÖÐ¶ÔÏóÖ®¼ä²»¾ßÓÐÏàËÆÐÔ»ò¾ßÓÐºÜÐ¡µÄÏàËÆÐÔ¡£ÎÄ±¾µÄ¾ÛÀàºÍ·ÖÀàÊÇ²»ÏàÍ¬µÄ£¬ÓÉÓÚ·ÖÀàÓÐÑµÁ·µÄ¹ý³Ì£¬Òò´ËËü¿ÉÒÔÔÚÎÄ±¾ÄÚÈÝ·ÖÎöÖ®ºó£¬°´ÕÕÔ¤ÏÈÖÆ¶¨µÄÀà±ðÐÅÏ¢¸ø¸ÃÎÄ±¾·ÖÅäÊÊÒËµÄÀà±ð¡£¾ÛÀà¼¼ÊõÄÜ¹»·ÖÎöÎÞÀà±ð±ê¼ÇµÄÎÄ±¾¼¯£¬ÒÀ¾ÝÎÄ±¾¼¯µÄ¹¹Ôì·¢ÏÖµ±ÖÐÒþ²ØµÄÀà±ðÐÅÏ¢¡£¶ÔÎÄ±¾½øÐÐ·ÖÎö²¢±ê×¢ÆäÀà±ð£¬ÕâÑù×öÓÐÖúÓÚ¼ÆËã»úÊ¶±ðÎÄ±¾¼¯µÄÄÚ²¿ÐÅÏ¢£¬Òò´ËÄÜ¹»×÷ÎªÎÄµµ×Ô¶¯ÕªÒª¡¢ÓïÒåÏûÆçµÈ×ÔÈ»ÓïÑÔ´¦Àí¼¼ÊõµÄÔ¤´¦Àí²Ù×÷¡£³ý´ËÖ®Íâ£¬¾ÛÀà¼¼Êõ»¹¿ÉÒÔ¸ÄÉÆ·ÖÀà½á¹û£¬Ìá¸ß¼ìË÷ÏµÍ³µÄÐÔÄÜ£¬½ø¶øÓÐÖúÓÚÌá¸ßÓÃ»§²éÕÒÐÅÏ¢µÄÊ±Ð§ºÍ¹¦Ð§¡£¶ÔÓÚµ±ÏÂÊ¢ÐÐµÄÐÅÏ¢ÍÆ¼ö(»ò·þÎñÍÆ¼ö)£¬¾ÛÀà·½·¨Ò²ÄÜÖúÆäÒ»±ÛÖ®Á¦¡£¾ÛÀà·½·¨Ö÷ÒªÊÇÍ¨¹ý¾ÛÀà·ÖÎöÓÃ»§Æµ·±ä¯ÀÀµÄÎÄµµ£¬·¢ÏÖÎÄµµ¹æÂÉÖÐÒþ²ØµÄÓÃ»§ÐËÈ¤Ä£Ê½À´Íê³ÉÕâ¸ö¹¦ÄÜµÄ¡£Ëü»¹¿ÉÒÔÓÃÓÚÊý×ÖÍ¼Êé¹Ý·þÎñÓëÎÄµµ¼¯ºÏµÄ×Ô¶¯ÕûÀí£¬ÓÃÓÚÁ÷ÐÐ´®Ô¤¾¯ºÍÈÈµãÖ÷Ìâ±æ±ð£¬¼°Ê±·¢ÏÖÍøÂçÈÈµã»°Ìâ²¢¸ú½ø»°ÌâµÄÇ÷ÊÆ¶¯Ïò£¬×Ô¶¯±æÊ¶ÍøÂçÉÏ·è¿ñ´«²¥µÄÄ¾ÂíÌØÕ÷£¬Ô¤¼ûÏµÍ³Â©¶´ºÍºÚ¿Í¹¥»÷µÄÎ£ÏÕÐÔ£¬¶Ô¹ú¼Ò½¨ÉèµÄ³¤ÖÎ¾Ã°²ºÍÉç»áÉú»îµÄºÍÐ³·¢Õ¹ÒâÒå·ÇÍ¬Ò»°ã¡£




Ïà¶Ô¶øÑÔ£¬ÖÐÎÄµÄ½á¹¹ºÍÓïÒåÏàµ±¸´ÔÓ£¬¶øÓ¢ÎÄµÄ¸´ÔÓ¶ÈÔòÐ¡ºÜ¶à£¬µ«ÊÇÖÐÎÄÔÚÀíÂÛÑÐ¾¿³É¹ûÉÏ»¹Ïàµ±ØÑ·¦¡£Ëæ×ÅÒòÌØÍøÔÚÖÐ¹úµÄÊ¢ÐÐ£¬ÖÐÎÄÍøÂçÐÅÏ¢ÓÌÈçÓêºó´ºËñ²ã³ö²»Çî£¬ÖÐÎÄ·¢»ÓµÄ×÷ÓÃ²»¿ÉµÍ¹À£¬È»¶øÏÈÇ°ÓÐÐ§ÐÅÏ¢µÄ»ñÈ¡Í¾¾¶È´²»ÔÙÊÊÓÃ¡£Òò´Ë£¬¸ãºÃÖÐÎÄÎÄ±¾¾ÛÀà¼¼ÊõµÄÑÐ¾¿£¬Ìá¸ßÖÐÎÄÎÄ±¾µÄ×Ô¶¯»¯´¦ÀíÄÜÁ¦£¬¾ßÓÐÖØ´óµÄÊµ¼ÊÒâÒå¡£
ÔÚÏòÁ¿¿Õ¼äÄ£ÐÍÖÐ£¬ÓÃ´Ê¿Õ¼äÖÐµÄÒ»¸öÏòÁ¿À´±íÊ¾Ò»ÆªÎÄµµ£¬¶øÒ»ÆªÎÄµµÖÁÉÙ°üº¬¼¸Ç§¸ö´Ê£¬Òò´ËÎÄ±¾¾ÛÀà´æÔÚÏàµ±´óµÄÀ§ÄÑ¡£
(1) ¸ßÎ¬ÐÔ¡°Î¬¶ÈÔÖÄÑ¡±µÄ¸ÅÄîÊÇÓÉBellmanÌá³öµÄ£¬ËüµÄº¬ÒåÊÇ£¬¶ÔÓÚÒ»¸öÓÐºÜ¶à±äÁ¿µÄº¯Êý¶øÑÔ£¬ÒòÎªËæ×ÅÊý¾Ý¶ÔÏóÊôÐÔÎ¬ÊýµÄ²»¶ÏÔö¼Ó£¬Íø¸ñµ¥ÔªµÄÊýÁ¿Ò²»áÒÔÖ¸Êý¼¶µÄËÙ¶ÈÔö¼Ó£¬Òò´ËÒªÔÚÒ»¸ö¶àÎ¬Íø¸ñÖÐÈ¥ÓÅ»¯Õâ¸öº¯ÊýÊÇ²»¿ÉÄÜµÄÊÂÇé¡£ÏÖÔÚÍ¨³£ÓÃ¡°Î¬¶ÈÔÖÄÑ¡±À´´ú±íÔÚÊý¾Ý·ÖÎöÁìÓòÖÐÒòÎª±äÁ¿¹ý¶à¶ø²úÉúµÄ¸÷ÖÖÎÊÌâ¡£Õë¶Ô¸ßÎ¬Êý¾Ý¶øÑÔ£¬Èç¹û½«Êý¾Ý¶ÔÏóµÄÃ¿Ò»¸öÊôÐÔÎ¬¶È¶¼µ±×÷Ò»¸ö±äÁ¿£¬ÄÇÃ´¸ßÎ¬Êý¾Ý¾ÛÀàÎÊÌâ¾ÍÊÇÒ»¸öµäÐÍµÄ¶à±äÁ¿ÏÂÓÅ»¯Çó½âµÄÎÊÌâ£¬¼´¡°Î¬¶ÈÔÖÄÑ¡±ÎÊÌâ¡£¸ßÎ¬Êý¾Ý¾ÛÀàÖÐµÄ¡°Î¬¶ÈÔÖÄÑ¡±ÎÊÌâ³ýÁË»áÔì³ÉÏÖÓÐ´«Í³¾ÛÀàËã·¨Ð§ÂÊµÍÏÂÍâ£¬¶ÔË÷Òý½á¹¹Ò²»áÓÐºÜ´óµÄÓ°Ïì¡£ÁíÍâ£¬ÔÚ¸ßÎ¬¿Õ¼äÖÐ£¬²éÑ¯µãÓëËüµÄ×î½üÁÚµãºÍ×îÔ¶ÁÚµãÖ®¼äµÄ¾àÀëÔÚ¶àÊýÇé¿öÏÂÊÇ½üËÆÏàµÈµÄ£¬´ËÊ±×î½üÁÚµÄ¸ÅÄî²»ÔÙÓÐÒâÒå¡£
(2) Ï¡ÊèÐÔÑÐ¾¿±íÃ÷£¬Êý¾Ý¶ÔÏóÔÚ¸ßÎ¬¿Õ¼äÖÐµÄ·Ö²¼ÊÇ·Ç³£Ï¡ÊèµÄ¡£¼ÙÉèÊý¾Ý¼¯DµÄÎ¬ÊýÊÇk£¬Êý¾ÝkÔÚÎ¬¿Õ¼äÖÐ¾ùÔÈ·Ö²¼£¬Í¬Ê±Î¬ºÍÎ¬Ö®¼äÊÇÏà»¥¶ÀÁ¢µÄ£¬¿ÉÒÔÐÎÏóµØÈÏÎªÊý¾Ý¼¯D´æÔÚÓÚÒ»¸ö³¬Á¢·½Ìåµ¥Ôª¦¸=0£®1kÖÐ¡£¼ÙÉèÒ»¸ö³¬Á¢·½ÌåµÄ±ß³¤ÊÇdµÄÖµÐ¡ÓÚ1£¬ÔòÒ»¸öÊý¾Ý¶ÔÏóÂäÔÚÕâ¸ö³¬Á¢·½ÌåÄÚµÄ¸ÅÂÊÊÇdk¡£ÏÔ¶øÒ×¼û£¬dkµÄÖµ·Ç³£Ð¡£¬²¢ÇÒËæ×ÅÊý¾Ý¶ÔÏóÊôÐÔÎ¬ÊýµÄÔö¼Ó£¬dkµÄÖµ»á¸üÐ¡£¬ÄÇÃ´ÔÚÕâ¸öÁ¢·½ÌåÖÐ´æÔÚÊý¾ÝµãµÄ¿ÉÄÜÐÔÒ²»á¸üÐ¡¡£µ±Êý¾Ý¶ÔÏóµÄÊôÐÔÎ¬Êý·Ç³£¸ßÊ±£¬ÔÚÒ»¸ö·¶Î§×ã¹»´óµÄ¸ßÎ¬¿Õ¼äÄÚ¼«ÓÐ¿ÉÄÜ²»°üº¬ÈÎºÎÒ»¸öÊý¾Ý¶ÔÏó¡£ÀýÈç£¬ÔÚ100Î¬µÄ¸ßÎ¬¿Õ¼äÖÐ£¬ÔÚÒ»¸ö±ß³¤µÈÓÚ0£®93µÄ³¬Á¢·½ÌåÖÐ×î¶à°üº¬Ò»¸öÊý¾Ý¶ÔÏóµÄ¸ÅÂÊ½öÎª0£®0007¡£
(3) ÓïÒåÎÊÌâÔÚÖÐÎÄÎÄ±¾ÖÐ¾­³£³öÏÖÒ»´Ê¶àÒå»òÒ»Òå¶à´ÊµÄÏÖÏó£¬Õâ¾Íµ¼ÖÂ½üÒå´Ê»òÍ¬Òå´ÊÔÚÎÄ±¾ÖÐµÄ³öÏÖÊÇ²»¿É±ÜÃâµÄ¡£ÓÉÓÚ¼ÆËã»ú±¾Éí²¢²»ÄÜ¹»Ê¶±ðÎÄ±¾µÄÓïÒåÐÅÏ¢£¬Õâ¾ÍÊ¹µÃÎÄ±¾»úÆ÷¾ÛÀàµÄ½á¹ûºÍÎÄ±¾µÄÊµ¼Ê¾ÛÀà½á¹ûÖ®¼ä´æÔÚÒ»¶¨µÄ²î¾à¡£ÓÐÑÐ¾¿·¢ÏÖ£¬Ç±ÔÚÓïÒåË÷Òý·½·¨ÄÜ¹»¼ÓÇ¿ÎÄ±¾¼äµÄÓïÒå¹ØÁª£¬¼õÉÙÌØÕ÷×Ó¼¯µÄÎ¬Êý£¬ÓÐÐ§¼õÉÙÎÄ±¾¾ÛÀàµÄÊ±¼äÏûºÄ¡£
5£®2³£ÓÃµÄ¾ÛÀà·½·¨
ÖÚËùÖÜÖª£¬ÎÒÃÇËù´¦µÄÐÅÏ¢ÊÀ½çÖÐ¹ã·º·Ö²¼×Å¸÷ÖÖÀàÐÍµÄÊý¾Ý£¬ÏÔÈ»£¬ÆäÖÐÒ²²»·¦Ò»Ð©ÊýÁ¿¾Þ´ó(ÀýÈçÎÄ±¾Êý¾Ý)ÒÔ¼°Î¬¶È¸ßµÄÊý¾Ý¼¯¡£ÓÐÐ©¶ÔÏóÐèÒª³É°ÙÉÏÇ§¸öÊôÐÔÀ´ÃèÊö£¬ÀýÈçÎÄ±¾ÎÄµµ¡¢·Ö×ÓÉúÎïÊý¾Ý¡¢CADÊý¾ÝÒÔ¼°Í¼ÏñÊ¶±ð(Í¼ÏñÊý¾ÝÊÇÒ»¸ö¸ßÎ¬Êý¾Ý¶ÔÏó)¡¢Ä£Ê½·ÖÀàµÈ¡£
ºÜ¶à¾ÛÀà·½·¨ÔÚÍ³¼ÆÑ§ÁìÓòÒÔ¼°Êý¾ÝÍÚ¾òÑÐ¾¿ÁìÓòÏà¼ÌÌá³ö¡£µ«ÊÇÓ¦¶ÔÊýÁ¿¾Þ´ó¡¢Î¬¶È³¬¸ßµÄÊý¾Ý¼¯µÄÑÐ¾¿ÒÀÈ»ÊÇµ±ÏÂ¾ÛÀà·ÖÎö¹ý³ÌµÄÈÈÃÅËùÔÚ¡£Ò»°ãÇé¿öÏÂ£¬Ò»¸ö¾ÛÀàËã·¨µÄºÃ»µÒÀ¾ÝÒÑ²»½ö½öÊÇÊ±Ð§ÐÔ¸ß£¬¶øÊÇ¸÷ÀàÊý¾Ý¼¯Ëù±íÏÖµÄ×ÛºÏÐÔÄÜ£¬Èç¾ÛÀàÖÊÁ¿¡¢¾ÛÀàËÙ¶È¡¢ÒÖÖÆÔëÉùÐÔÄÜÕâÐ©ÖØÒªÖ¸±ê¡£Ò»¸ö½ÏºÃµÄ¾ÛÀàËã·¨Í¨³£ÓµÓÐÈçÏÂÌØÐÔ¡£
(1) ¾ßÓÐ²»ÒÀ¿¿ÈÎºÎÁìÓòÖªÊ¶È´ÄÜ¹»Ìá¹©³õÊ¼ÊäÈë²ÎÊýµÄÖµ¡£
(2) ¿ÉÒÔ·¢ÏÖÈÎÒâÐÎ×´µÄÊý¾Ý¾ÛÀà¡£
(3) ¶Ô¸ßÎ¬¿Õ¼äÒÔ¼°º£Á¿Êý¾Ý¼¯ÄÜ¹»ÓÐÐ§Ó¦¶Ô¡£
µ±Ç°Ö÷Á÷µÄ¾ÛÀàËã·¨¿ÉÒÔ·ÖÎªÈçÏÂ¼¸Àà£º »ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨£¬»ùÓÚ·Ö²ãµÄ¾ÛÀà·½·¨£¬»ùÓÚÃÜ¶ÈµÄ¾ÛÀà·½·¨£¬»ùÓÚÍø¸ñµÄ¾ÛÀà·½·¨£¬ÒÔ¼°»ùÓÚÄ£ÐÍµÄ¾ÛÀà·½·¨µÈ¡£±È½ÏÖøÃûµÄËã·¨ÓÐKª²means·½·¨¡¢Kª²ÖÐÖµ·½·¨¡¢Birch·½·¨¡¢DBSCAN·½·¨¡¢STING·½·¨ÒÔ¼°²¨ÐÎ¾ÛÀà·½·¨¡£ÕâÐ©·½·¨±»¹ã·ºÔËÓÃÔÚ¸÷¸ö¿ÆÑ§ÁìÓò£¬ÈçÍ¼ÏñÒ£¸Ð¡¢Êý¾ÝÔëÉù¹ýÂË¡¢ÀëÈºÊý¾Ý¼ì²âÒÔ¼°ÎÞ¼à¶½µÄ»úÆ÷Ñ§Ï°·½Ê½µÄÎÄ±¾¾ÛÀàµÈ¡£
5£®2£®1»ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨
»ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨Í¨³£ÊÇ½«Ò»¸öº¬ÓÐ´óÁ¿Êý¾Ý¶ÔÏóµÄÊý¾Ý¼¯(Êý¾Ý¶ÔÏóÊýn),Í¨¹ý»®·Ö·½·¨½«Æä»®·Ö³Ém¸ö¾ÛÀà£¬ÕâÑùÃ¿¸öÊý¾Ý¶ÔÏó·ÖÇø¶¼´ú±íÒ»¸öÀà´Ø£¬Í¬Ê±m¡Ün£» Í¨¹ý»®·Ö¾ÛÀà·½·¨¿ÉÒÔ°ÑÊý¾Ý¼¯»®·Ö³Ém¸öÊý¾Ý×é£¬Õâm¸öÊý¾Ý×éÍ¨³£¾ßÓÐÈçÏÂÌØµã¡£
(1) Ã¿¸öÀà´ØÖÁÉÙº¬ÓÐÒ»¸öÊý¾Ý¶ÔÏó¡£
(2) Ã¿Ò»¸öÊý¾Ý¶ÔÏó¶¼ÊôÓÚÈ·¶¨µÄÀà´Ø¡£
µ«ÊÇ£¬²¢²»ÊÇÃ¿Ò»ÖÖ»®·Ö¾ÛÀà·½·¨¶¼¾ßÓÐµÚ¶þÌõÌØµã£¬ÓÈÆäÊÇÒ»Ð©Ä£ºý»®·ÖÀàÐÍµÄ¾ÛÀàËã·¨£¬ËüµÄ¾ÛÀà½á¹ûÖÐ¿ÉÄÜ»¹ÓÐÒ»Ð©Êý¾Ý¶ÔÏóÎ´±»°üº¬ÔÚÀà´ØÖÐ£¬ÕâÐ©¶ÔÏó¿ÉÄÜÊÇÔëÉùÊý¾Ý£¬Ò²¿ÉÄÜ²»ÊÇ¡£Í¨³£Çé¿öÏÂ£¬¶ÔÓÚ»ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨ÐèÒª¸ø¶¨²ÎÊýmÀ´³õÊ¼»¯·ÖÇø£¬mÍ¬Ê±´ú±íµÄÊÇÊý¾Ý¼¯×îÖÕ½«±»»®·Ö³ÉÀà´ØµÄ¸öÊý¡£»ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨Ò»°ã²ÉÓÃµü´úµÄ·½·¨¶ÔÊý¾Ý¼¯ÖØ¸´¼ÆËã£¬ÒÔ´ïµ½ÔÚ¸÷·Ö²¼ÖÐ½«Âú×ãÌõ¼þµÄÊý¾Ý¶ÔÏó´ÓÔ­À´µÄÀà´ØÖÐÅ²µ½ÐÂµÄ·ÖÀàÖÐ£¬×îÖÕ¾ÛÀà½á¹ûÂú×ãÌõ¼þÊÕÁ²¡£ÆÀ¼Û»®·Ö¾ÛÀà·½·¨ÊÇ·ñ¸ßÐ§£¬Ò»¸öÖØÒªµÄÌõ¼þ¾ÍÊÇÆÀÅÐ¾ÛÀà½á¹ûÁ¿£¬Èç¹ûÂú×ãÔÚÍ¬Ò»Àà´ØÖÐµÄ¶ÔÏóÏàËÆÐÔ¸ß£¬ÇÒÃ÷ÏÔÇø±ðÓÚÒì´Ø¶ÔÏóÊ±£¬ÄÇÃ´Õâ¸ö»®·Ö·½·¨¾Í±È½ÏºÃ¡£¾ÍÄ¿Ç°À´½²£¬±È½Ï¾­µäµÄ»ùÓÚ»®·ÖµÄ¾ÛÀàËã·¨ÓÐKª²meansËã·¨ºÍKª²ÖÐÖµËã·¨¡£ÆäÖÐ£¬Kª²meansËã·¨µÄ¾ÛÀà½á¹ûÖÐ£¬Ã¿¸ö¾ÛÀà´ú±í×ÅÕâ¸öÀà´ØÖÐ°üº¬µÄÈ«²¿Êý¾Ý¶ÔÏóÔÚÌØ¶¨·½·¨(¾àÀë·½·¨)ÏÂ¼ÆËãµÃµ½½á¹û¾ùÖµ£» ¶ø¶ÔKª²ÖÐÖµËã·¨À´½²£¬Æä¾ÛÀà½á¹ûÖÐµÄÀà´ØÓÉÃ¿¸öÀà´ØÖÐ¾àÀëÀàÖÐÐÄ×î½üµÄÊý¾Ý¶ÔÏó´ú±í¡£¶ÔÓÚ¾­µäµÄ»ùÓÚ»®·ÖµÄ¾ÛÀàËã·¨À´½²£¬ÆäË¼Â·¼òµ¥£¬ÈÝÒ×·¢ÏÖ¸÷ÖÖ¹æÔòµÄ¾ÛÀà£¬È»¶øÔÚ´óÊý¾ÝÊ±´ú£¬ÕâÐ©·½·¨Ãæ¶ÔÊý¾ÝÁ¿´ó¡¢ÐÎ×´²»¹æÕûµÄ¶ÔÏó¼¯²»ÄÜÍ×ÉÆ´¦Àí¡£ÑÐ¾¿ÕßÃÇÎªÓ¦¶ÔÒÔÉÏÇé¿ö£¬Ìá³öÁËÐí¶à¸Ä½ø·½·¨ÒÔ¼°»ìºÏ¾ÛÀàËã·¨ÒÔÃÖ²¹¾­µä»®·Ö·½·¨µÄ²»×ã¡£
5£®2£®2»ùÓÚ·Ö²ãµÄ¾ÛÀà·½·¨
»ùÓÚ·Ö²ãµÄ¾ÛÀà·½·¨ÊÇ½«Ö¸¶¨µÄÊý¾Ý¼¯²ã´Î·Ö½â³É¶à¸ö¶ÔÏó¾ÛÀà¡£²ã´Î¾ÛÀàËã·¨Ö÷Òª·Ö³ÉÁ½Àà£º Äý¾Û¾ÛÀà·½·¨(×ÔÏÂ¶øÉÏµÄ·½Ê½ºÏ²¢¾àÀë×î½üµÄÏàÁÚÀà´Ø)ºÍ·ÖÁÑ¾ÛÀà·½·¨(×ÔÉÏ¶øÏÂµÄ·½Ê½½«¾ÛÀà·ÖÁÑ³É¶ÀÁ¢µÄ¼¯Èº)¡£ÆäÖÐ£¬Äý¾Û¾ÛÀà·½·¨(AHC)ÊÇ½«Êý¾Ý¼¯µÄÃ¿Ò»¸öµ¥¶ÀµÄÄ£Ê½ºÏ²¢³ÉÒ»¸ö¾ÛÀà£¬¶ÔÓÚÕâ¸ö×îÖÕµÄ¾ÛÀàÀ´½²£¬ÆäÖ»ÓÐÒ»ÖÖÄ£Ê½£¬ÔÚÕâ¸ö¹ý³ÌÖÐÁ½¸öÏàÁÚ×î½üµÄ¾ÛÀàºÏ²¢³ÉÒ»¸öÐÂµÄ·Ö×éÖ±µ½¾ÛÀà°üº¬ËùÓÐÄ£Ê½ÎªÖ¹¡£¶ø¶Ô·ÖÁÑ¾ÛÀà·½·¨À´½²£¬Ò»¸ö°üº¬ËùÓÐÄ£Ê½µÄ¾ÛÀàÔÚ³õÊ¼Ê±¿Ì±»´´½¨£¬½ÓÏÂÀ´Õâ¸ö¾ÛÀà½«±»·Ö½â³ÉÁ½¸öÀà´Ø£¬Õâ¸ö¹ý³ÌÖ±µ½¸÷Àà´Ø±»·Ö½â³ÉµÄ¾ÛÀàÖ»º¬ÓÐÒ»¸öÄ£Ê½ÎªÖ¹¡£ÆäÊµ¶Ô²ã´Î¾ÛÀà·½·¨À´½²£¬¾ÍÊÇ½«¾ÛÀà³õÊ¼½×¶ÎÓÃ»§ÊäÈëµÄ¸÷ÖÖÄ£Ê½Í¨¹ý¼ÆËãÊä³ö³É¾ÛÀàÐÎÊ½µÄ×îÖÕ½á¹û£¬Í¨³£Çé¿öÏÂ£¬¾ÛÀà½á¹û¿ÉÒÔÓÉÊ÷×´Í¼±íÊ¾¡£
»ùÓÚ·Ö²ãµÄ¾ÛÀàËã·¨Ò²´æÔÚÈçÏÂÈ±µã¡£Ê×ÏÈ£¬²»ÂÛÊÇÄý¾Û·½·¨»¹ÊÇ·ÖÁÑ·½·¨£¬Ò»¸ö²½ÖèÒ»µ©¿ªÊ¼ÁË£¬¾ÍÎÞ·¨È¡Ïû»òÊÇ¸Ä±ä£¬ÏÔÈ»ÕâÑù¶ÔËã·¨µÄÊ±¼äÏûºÄ·½Ãæ¾ßÓÐºÜ´ó¹±Ï×£¬²»ÓÃÖÐÍ¾ÔÙ×ö¾ö²ß£¬µ«ÊÇ¶Ô¾ÛÀàÖÊÁ¿À´½²£¬Ò»µ©¾ÛÀà¹ý³Ì³öÏÖÎÊÌâ£¬·½·¨ÎÞ·¨×ö³öµ÷Õû¡£»ùÓÚÒÔÉÏÈ±ÏÝ£¬ÑÐ¾¿ÕßÃÇÌá³öÁË²»ÉÙÏà¹Ø¸Ä½øËã·¨£¬ÀýÈç£¬CUREËã·¨£¬Æä³ä·Ö¿¼ÂÇÁË·Ö²ãÖÐ¸÷·ÖÇø¶ÔÏóÖ®¼äµÄÁªÏµ£» BIRCHËã·¨£¬Ê×ÏÈ¶ÔÊý¾Ý¼¯²ÉÓÃ·Ö²ãÄý¾Û¾ÛÀàÒÔ¼°µü´úÖØ¶¨Î»¡£Æä´Î£¬¶ÔµÚÒ»²½²úÉúµÄ½á¹û¼ÓÒÔºÏ²¢£¬²¢¶ÔÆä½øÐÐµü´úºÍÖØÐÂ¶¨Î»¡£
5£®2£®3»ùÓÚÃÜ¶ÈµÄ¾ÛÀà·½·¨
Í¨³£Çé¿öÏÂ£¬¾ø´ó¶àÊý»ùÓÚ·Ö²ã»ò»®·ÖµÄ¾ÛÀàËã·¨¶¼ÊÇÍ¨¹ýÒ»°ãµÄ¾àÀë·½·¨À´¼ÆËãÁ½¸ö¶ÔÏóÖ®¼äµÄ¾àÀë£¬²¢ÓÉ´ËÐÎ³ÉÀà´Ø£¬ÕâÀà·½·¨µÄÓÅµã¾ÍÊÇ·½·¨¼òµ¥¡¢Ò×ÓÚÔËÓÃ£¬µ«ÊÇËüÃÇÖ»ÄÜ·¢ÏÖÓÐ¹æÔòµÄÇòÐÎ¾ÛÀà£¬¶øÎÞ·¨·¢¾òÆäËûÐÎ×´µÄ¾ÛÀà£¬ÕâÒ²ÊÇÕâÀà·½·¨µÄÒ»¸ö¾ÖÏÞÐÔ¡£ÁíÍâ£¬»ùÓÚ»®·ÖµÄ¾ÛÀàËã·¨ÔÚÃæ¶ÔÊý¾Ý¼¯ÖÐµÄÔëÉùÊý¾ÝÊ±´¦ÀíÐ§¹û½Ï²î£¬¶ø»ùÓÚÃÜ¶ÈµÄ¾ÛÀàËã·¨¶ÔÔëÉùµãÓ¦¶ÔÐ§¹û½ÏºÃ²¢¶ÔÔëÉùÊý¾Ý²»Ãô¸Ð¡£
ºÜ¶àÐÂÌá³öµÄ¾ÛÀà·½·¨¶¼½áºÏÁËÃÜ¶È¾ÛÀà·½·¨µÄË¼ÏëÒÔÎüÄÉÆä²¿·ÖÓÅµã£¬ÃÜ¶È¾ÛÀàËã·¨Í¨³£ÊÇºâÁ¿Êý¾Ý¼¯ÖÐµÄÏàÁÚ¶ÔÏó¹¹³É´ØµÄÃÜ¶È£¬µ±Êý¾ÝÃÜ¶È³¬¹ýÁËÊÂÏÈ¸ø¶¨µÄãÐÖµ£¬Ôò¿ÉÒÔÅÐ¶¨ÕâÐ©Êý¾ÝÊÇÔÚÒ»¸öÀà´ØÖ®ÖÐ£¬µ±È»Ò»°ãÇé¿öÏÂ¶¼»á¸øÀà´ØÉè¶¨Ò»¸ö×îÉÙ°üº¬¶ÔÏóÊý¾ÝµÄãÐÖµ£¬Ö»ÓÐµ±Àà´ØÂú×ãÀà´ØÃÜ¶ÈÒÔ¼°×îÉÙ°üº¬¶ÔÏóÊýÕâÁ½¸öãÐÖµÊ±£¬Æä²ÅÄÜ±»È·¶¨ÎªÒ»¸öÀà´Ø¡£ÕýÊÇÒòÎªÈçÉÏÌØµã£¬»ùÓÚÃÜ¶ÈµÄ¾ÛÀà·½·¨½ÏÆäËûÃÜ¶È¾ÛÀàËã·¨¾ßÓÐ¶ÔÔëÉùÊý¾Ý²»Ãô¸ÐºÍ¿ÉÒÔ·¢ÏÖÈÎÒâÐÎ×´µÄÀà´ØµÄÓÅÊÆ¡£ÔÚÃÜ¶È¾ÛÀà·½·¨ÖÐ½ÏÎªÖøÃûµÄÊÇDBSCANËã·¨ÒÔ¼°OPTICSËã·¨¡£
µ«ÊÇÃÜ¶È¾ÛÀàËã·¨Ò²ÓÐ²»ÉÙÈ±µã¡£Ê×ÏÈ£¬µ±Êý¾Ý·Ö²¼±È½ÏÏ¡ÊèÀëÉ¢Ê±£¬Æä¾ÛÀàÐ§¹û»á±È½Ï²î£» Æä´Î£¬µ±Êý¾ÝÁ¿±È½Ï´óÊ±ÄÚ´æµÈÏà¹ØÓ²¼þÏûºÄ¹ý´ó£» ×îºó£¬¾ÛÀà×îÉÙ°üº¬¶ÔÏóÊý(Minpts)ÒÔ¼°É¨Ãè°ë¾¶(Eps)ÕâÁ½¸öÊäÈë²ÎÊýÑ¡ÔñÊÇ·ñÇ¡µ±¹ØÏµµ½¾ÛÀàµÄ×îÖÕÖÊÁ¿¡£
5£®2£®4»ùÓÚÍø¸ñµÄ¾ÛÀà·½·¨
»ùÓÚÍø¸ñµÄ¾ÛÀà·½·¨Ö÷ÒªË¼Ïë¾ÍÊÇ½«Êý¾Ý¶ÔÏó¼¯µÄ¿Õ¼äÁ¿»¯£¬²¢·ÖÅäµ½ÓÐÏÞµÄ¿Õ¼äÖÐ£¬ÕâÐ©¿Õ¼äÐÎ³ÉÒ»¸öÍø×´½á¹¹£¬²¢½«¾ÛÀà·½·¨ÔËÓÃµ½Íø¸ñ½á¹¹ÖÐµÄ¶ÔÏó¼¯ÉÏ¡£¸Ã·½·¨Ïà¶ÔÓÚÆäËû¾ÛÀàËã·¨µÄÓÅÊÆ¾ÍÊÇ´¦ÀíÊý¶È½Ï¿ì£¬²¢ÇÒÔÚÓ¦¶Ô½Ï´óÊý¾Ý¼¯µÄÇé¿öÏÂ£¬Í¨³£²»»áÒòÎªÊý¾ÝÁ¿µÄ´óÐ¡¶ø²úÉúÐÔÄÜÉÏµÄ´ó·ù¸Ä±ä£¬ÒÀ¾É±£³Ö½ÏºÃµÄÊý¾Ý´¦ÀíÐÔÄÜ¡£Ò»°ãÀ´½²£¬ÏÞÖÆ¸ÃÀàËã·¨µÄÖ÷ÒªÒòËØÊÇÊý¾ÝÍø¸ñµÄÊýÁ¿¡£½ÏÎªÖøÃûµÄÍø¸ñ¾ÛÀà·½·¨ÓÐSTINGÒÔ¼°CLIQUE·½·¨£¬ÑÐ¾¿ÕßÃÇÒ²Ìá³öÁË²»ÉÙ¹ØÓÚËüÃÇµÄÍØÕ¹·½·¨£¬µ«ÊÇ¶ÔÓÚ»ùÓÚÍø¸ñµÄ¾ÛÀàËã·¨À´½²£¬ÆäÓ¦¶Ô¸ßÎ¬Êý¾Ý¼¯µÄÄÜÁ¦²»×ã¡£
5£®2£®5»ùÓÚÄ£ÐÍµÄ¾ÛÀà·½·¨
Ä£ÐÍ¾ÛÀà·½·¨Ö÷ÒªÊÇ¶ÔÊý¾Ý¶ÔÏóµÄÃ¿¸ö¾ÛÀàÌá³öÒ»¸ö¼ÙÉèÄ£ÐÍ£¬²¢·¢¾ò³ö×îÆ¥Åä¡¢×îÓÐÐ§µÄÄ£ÐÍÀ´ÊÊÅäÃ¿¸ö¾ÛÀà¡£Ä£ÐÍ¾ÛÀà·½·¨Í¨³£²ÉÓÃÒ»Ð©ÊýÑ§º¯Êý(ÀýÈçÃÜ¶Èº¯Êý)À´·´Ó³Êý¾Ý¼¯µÄ¿Õ¼ä·Ö²¼×´Ì¬£¬²¢ÒÔ´ËÀ´Éè¶¨Êý¾Ý¾ÛÀà¡£ÕâÀà¾ÛÀà·½·¨Í¨³£¿ÉÒÔ×ÔÑ§Ï°µØ²úÉúÌØ¶¨ÊýÁ¿µÄ¾ÛÀà£¬ÒÔ¼°ºÏÀíÓ¦¶ÔÔëÉùÊý¾ÝºÍÀûÈºµã£¬Ö¼ÔÚ¹¹½¨Ò»¸ö½¡×³µÄ¾ÛÀà·½·¨¡£
´ËÍâ£¬»¹ÓÐÒ»Ð©¾ÛÀàËã·¨½«ÒÔÉÏËùÉæ¼°µÄ¼¸ÖÖ¾ÛÀàËã·¨ºÏÀíÕûºÏÆðÀ´£¬ÈçÎÄÏ×£¬Ê¹ÓÃÁ½ÖÖ»òÁ½ÖÖÒÔÉÏµÄ¾ÛÀà·½·¨¶ÔÊý¾Ý¼¯½øÐÐ¾ÛÀà¡£
¾ßÌåµÄ¾ÛÀà·½·¨ÓÅÈ±µãÈç±í5ª²1ËùÊ¾¡£


±í5ª²1¾ÛÀà·½·¨ÌØµã±È½Ï


¾ÛÀà·½·¨Ãû³ÆÌØµã´ØÌØÕ÷ÓÅµãÈ±µã

»ùÓÚ»®·ÖµÄ¾ÛÀà·½·¨¶ÔÊäÈëÊý¾ÝµÄË³ÐòÎÞÌØ¶¨ÒªÇó£¬Ö÷ÒªÓ¦¶ÔÊýÖµÐÍÊý¾Ý¹æÕûµÄÇòÐÍ£¬¸÷¾ÛÀà´óÐ¡Ïà½ü·½·¨½Ï¸ßÐ§£¬¼òµ¥Ò×ÓÃÐè¶ÔÊý¾Ý¼¯¶à´ÎÉ¨Ãè£¬¶Ô¾ÛÀà³õÊ¼Ìõ¼þÃô¸Ð
»ùÓÚ²ã´ÎµÄ¾ÛÀà·½·¨¶ÔÊý¾ÛÀàÐÍÒÔ¼°ÊäÈëË³ÐòÎÞÌØÊâÒªÇó¾ÛÀàÐÎ×´²»¹Ì¶¨Ó¦¶Ô´ó¹æÄ£Êý¾ÝÄÜÁ¦Ç¿£¬¾ß±¸½ÏÇ¿¿¹¸ÉÈÅÄÜÁ¦ÐèÒª¶à´ÎÉ¨ÃèÊý¾Ý¼¯
»ùÓÚÃÜ¶ÈµÄ¾ÛÀà·½·¨¶ÔÊý¾ÝÀàÐÍÒÔ¼°ÊäÈëË³ÐòÎÞÌØ¶¨ÒªÇó·¢ÏÖ¾ÛÀàÐÎ×´µÄ¾ÛÀàÖ»ÐèÒªÉ¨ÃèÒ»´ÎÊý¾Ý¼¯£¬²¢ÄÜ½ÏÇ¿µÄÓ¦¶ÔÔëÉùÊý¾ÝÓ¦¶Ô¸ßÎ¬Êý¾ÝÄÜÁ¦½ÏÈõ£¬ÒÀÀµ¾ÛÀà²ÎÊý
»ùÓÚÍø¸ñµÄ¾ÛÀà·½·¨¶ÔÊý¾ÝÀàÐÍÒÔ¼°ÊäÈëË³ÐòÎÞÌØ¶¨ÒªÇó·¢ÏÖ¾ÛÀàÐÎ×´µÄ¾ÛÀàËÙ¶È½Ï¿ì.½öÐèÒªÒ»´ÎÉ¨ÃèÊý¾Ý¼¯Ó¦¶Ô¸ßÎ¬Êý¾ÝÄÜÁ¦½ÏÈõ
»ùÓÚÄ£ÐÍµÄ¾ÛÀà·½·¨¶ÔÊý¾ÝÀàÐÍÒÔ¼°ÊäÈëË³ÐòÎÞÌØ¶¨ÒªÇó·¢ÏÖ¾ÛÀàÐÎ×´µÄ¾ÛÀàÓ¦¶ÔÔëÉùÊý¾ÝÐÔÄÜ½ÏÇ¿£¬¾ÛÀàÖÊÁ¿½Ï¸ß¶Ô³õÊ¼²ÎÊýÃô¸Ð£¬ÐèÒª¶à´Îµü´ú

5£®3¾ÛÀàËã·¨µÄÆÀ¼Û±ê×¼
¾ÛÀà·ÖÎöÊÇÒ»¸ö¸»ÓÐÌôÕ½µÄÑÐ¾¿ÁìÓò£¬ÓÐ¹ØÃ¿Ò»¸öÓ¦ÓÃ¶¼Ìá³öÁËÒ»¸ö×Ô¼º¶ÀÌØµÄÒªÇó¡£ÒÔÏÂ¾ÍÊÇ¶ÔÊý¾ÝÍÚ¾òÖÐµÄ¾ÛÀà·ÖÎöµÄÒ»Ð©µäÐÍÒªÇó¡£
(1) ¿ÉÀ©Õ¹ÐÔ¡£Ðí¶à¾ÛÀàËã·¨ÔÚÐ¡Êý¾Ý¼¯(ÉÙÓÚ200¸öÊý¾Ý¶ÔÏó)Ê±¿ÉÒÔ¹¤×÷ºÜºÃ£¬µ«Ò»¸ö´óÊý¾Ý¿â¿ÉÄÜ»á°üº¬ÊýÒÔ°ÙÍòµÄ¶ÔÏó£¬ÀûÓÃáŠÑù·½·¨½øÐÐ¾ÛÀà·ÖÎö¿ÉÄÜµÃµ½Ò»¸öÓÐÆ«²îµÄ½á¹û£¬ÕâÊ±¾ÍÐèÒª¿ÉÀ©Õ¹µÄ¾ÛÀà·ÖÎöËã·¨¡£
(2) ´¦Àí²»Í¬ÀàÐÍÊôÐÔµÄÄÜÁ¦¡£Ðí¶àËã·¨ÊÇÕë¶Ô»ùÓÚÇø¼äµÄÊýÖµÊôÐÔ¶øÉè¼ÆµÄ¡£µ«ÊÇÓÐÐ©Ó¦ÓÃÐèÒªÕë¶ÔÆäËûÀàÐÍÊý¾Ý£¬Èç¶þÖµÀàÐÍ¡¢·ûºÅÀàÐÍ¡¢Ë³ÐòÀàÐÍ£¬»òÕâÐ©Êý¾ÝÀàÐÍµÄ×éºÏ¡£
(3) ·¢ÏÖÈÎÒâÐÎ×´µÄ¾ÛÀà¡£Ðí¶à¾ÛÀàËã·¨ÊÇ¸ù¾ÝÅ·ÊÏ¾àÀëºÍManhattan¾àÀëÀ´½øÐÐ¾ÛÀàµÄ¡£»ùÓÚÕâÀà¾àÀëµÄ¾ÛÀà·½·¨Ò»°ãÖ»ÄÜ·¢ÏÖ¾ßÓÐÀàËÆ´óÐ¡ºÍÃÜ¶ÈµÄÔ²ÐÎ»òÇò×´¾ÛÀà¡£¶øÊµ¼ÊÉÏÒ»¸ö¾ÛÀàÊÇ¿ÉÒÔ¾ßÓÐÈÎÒâÐÎ×´µÄ£¬Òò´ËÉè¼Æ³öÄÜ¹»·¢ÏÖÈÎÒâÐÎ×´Àà¼¯µÄ¾ÛÀàËã·¨ÊÇ·Ç³£ÖØÒªµÄ¡£
(4) ÐèÒª(ÓÉÓÃ»§)¾ö¶¨µÄÊäÈë²ÎÊý×îÉÙ¡£Ðí¶à¾ÛÀàËã·¨ÐèÒªÓÃ»§ÊäÈë¾ÛÀà·ÖÎöÖÐËùÐèÒªµÄÒ»Ð©²ÎÊý(ÈçÆÚÍûËù»ñ¾ÛÀàµÄ¸öÊý)¡£¾ÛÀà½á¹ûÍ¨³£¶¼ÓëÊäÈë²ÎÊýÃÜÇÐÏà¹Ø£¬¶øÕâÐ©²ÎÊý³£³£Ò²ºÜÄÑ¾ö¶¨£¬ÌØ±ðÊÇ°üº¬¸ßÎ¬¶ÔÏóµÄÊý¾Ý¼¯¡£Õâ²»½öÔì³ÉÁËÓÃ»§µÄ¸ºµ££¬¶øÇÒÒ²Ê¹µÃ¾ÛÀàÖÊÁ¿ÄÑÒÔ¿ØÖÆ¡£
(5) ´¦ÀíÔëÉùÊý¾ÝµÄÄÜÁ¦¡£´ó¶àÊýÏÖÊµÊÀ½çµÄÊý¾Ý¿â¾ù°üº¬Òì³£Êý¾Ý¡¢²»Ã÷È·Êý¾Ý¡¢Êý¾Ý¶ªÊ§ºÍÔëÉùÊý¾Ý£¬ÓÐÐ©¾ÛÀàËã·¨¶ÔÕâÑùµÄÊý¾Ý·Ç³£Ãô¸Ð²¢»áµ¼ÖÂ»ñµÃÖÊÁ¿½Ï²îµÄ¾ÛÀà½á¹û¡£
(6) ¶ÔÊäÈë¼ÇÂ¼Ë³Ðò²»Ãô¸Ð¡£Ò»Ð©¾ÛÀàËã·¨¶ÔÊäÈëÊý¾ÝµÄË³ÐòÃô¸ÐÒ²¾ÍÊÇ²»Í¬µÄÊý¾ÝÊäÈë»áµ¼ÖÂ»ñµÃ·Ç³£²»Í¬µÄ½á¹û¡£Òò´ËÉè¼Æ¶ÔÊäÈëÊý¾ÝË³Ðò²»Ãô¸ÐµÄ¾ÛÀàËã·¨Ò²ÊÇ·Ç³£ÖØÒªµÄ¡£
(7) ¸ßÎ¬ÎÊÌâ¡£Ò»¸öÊý¾Ý¿â»òÒ»¸öÊý¾Ý²Ö¿â»òÐí°üº¬Èô¸ÉÎ¬»òÊôÐÔ¡£Ðí¶à¾ÛÀàËã·¨ÔÚ´¦ÀíµÍÎ¬Êý¾ÝÊ±(½ö°üº¬Á½Èý¸öÎ¬)Ê±±íÏÖºÜºÃ¡£ÈËµÄÊÓ¾õÒ²¿ÉÒÔ°ïÖúÅÐ¶Ï¶àÖÁÈýÎ¬µÄÊý¾Ý¾ÛÀà·ÖÎöÖÊÁ¿¡£È»¶øÉè¼Æ¶Ô¸ßÎ¬¿Õ¼äÖÐµÄÊý¾Ý¶ÔÏó£¬ÌØ±ðÊÇ¶Ô¸ßÎ¬¿Õ¼äÏ¡ÊèºÍ¹ÖÒì·Ö²¼µÄÊý¾Ý¶ÔÏó£¬ÄÜ½øÐÐ½ÏºÃ¾ÛÀà·ÖÎöµÄ¾ÛÀàËã·¨ÒÑ³ÉÎª¾ÛÀàÑÐ¾¿ÖÐµÄÒ»ÏîÌôÕ½¡£
(8) »ùÓÚÔ¼ÊøµÄ¾ÛÀà¡£ÏÖÊµÊÀ½çÖÐµÄÓ¦ÓÃ¿ÉÄÜÐèÒªÔÚ¸÷ÖÖÔ¼ÊøÖ®ÏÂ½øÐÐ¾ÛÀà·ÖÎö¡£¼ÙÉèÐèÒªÔÚÒ»¸ö³ÇÊÐÖÐÈ·¶¨Ò»Ð©ÐÂ¼ÓÓÍÕ¾µÄÎ»ÖÃ£¬¾ÍÐèÒª¿¼ÂÇÖîÈç³ÇÊÐÖÐµÄºÓÁ÷¡¢¸ßËÙÂ·£¬ÒÔ¼°Ã¿¸öÇøÓòµÄ¿Í»§ÐèÇóµÈÔ¼ÊøÇé¿öÏÂ¾ÓÃñ×¡µØµÄ¾ÛÀà·ÖÎö¡£Éè¼ÆÄÜ¹»·¢ÏÖÂú×ãÌØ¶¨Ô¼ÊøÌõ¼þÇÒ¾ßÓÐ½ÏºÃ¾ÛÀàÖÊÁ¿µÄ¾ÛÀàËã·¨Ò²ÊÇÒ»¸öÖØÒªµÄ¾ÛÀàÑÐ¾¿ÈÎÎñ¡£
(9) ¿É½âÊÍÐÔºÍ¿ÉÓÃÐÔ¡£ÓÃ»§ÍùÍùÏ£Íû¾ÛÀà½á¹ûÊÇ¿ÉÀí½âµÄ¡¢¿É½âÊÍµÄ£¬ÒÔ¼°¿ÉÓÃµÄ¡£Õâ¾ÍÐèÒª¾ÛÀà·ÖÎöÓëÌØ¶¨µÄ½âÊÍºÍÓ¦ÓÃÁªÏµÔÚÒ»Æð¡£Òò´ËÑÐ¾¿Ò»¸öÓ¦ÓÃµÄÄ¿±êÊÇÈçºÎÓ°Ïì¾ÛÀà·½·¨µÄÑ¡ÔñÒ²ÊÇ·Ç³£ÖØÒªµÄ¡£
5£®4»ùÓÚKª²meansµÄÎÄ±¾¾ÛÀàËã·¨
5£®4£®1¸ÅÊö

Ä¿Ç°µÄÎÄ±¾¾ÛÀà·½·¨´óÖÂ¿ÉÒÔ·ÖÎª²ã´ÎÄý¾Û·¨ºÍÆ½Ãæ»®·Ö·¨Á½ÖÖÀàÐÍ¡£²ã´Î¾ÛÀàÓÖ±»³Æ×÷ÏµÍ³¾ÛÀà£¬Í¨¹ý½«ÒÑÓÐµÄÀà±ðÁ½Á½±È½Ï£¬ÕÒ³ö×îÏà½üµÄÀà±ðºÏ²¢£¬×îÖÕËùÓÐµÄÊý¾Ý¶¼±»¾Ûµ½µ¥Ò»µÄÀà±ðÖÐ¡£ÓÉÓÚÓÐ½Ï´óµÄËÑË÷¿Õ¼ä£¬ÄÜ¹»Éú³É²ã´Î»¯µÄÇ¶Ì×´Ø£¬²ã´Î¾ÛÀà±ÈÆ½Ãæ»®·Ö·¨ÈÝÒ×»ñµÃ½Ï¸ßµÄ¾«¶È£» µ«ÊÇ£¬ÔÚÃ¿´ÎºÏ²¢Ê±£¬ÐèÒªÈ«¾ÖµØ±È½ÏËùÓÐ´ØÖ®¼äµÄÏàËÆ¶È£¬²¢Ñ¡Ôñ³ö×î¼ÑµÄÁ½¸ö´Ø£¬Òò´ËÔËÐÐËÙ¶È½ÏÂý£¬²»ÊÊºÏÓÚ´óÁ¿ÎÄµµµÄ¼¯ºÏ¡£Æ½Ãæ»®·Ö·¨Óë²ã´ÎÄý¾Û·¨µÄÇø±ðÔÚÓÚ£¬Ëü½«ÎÄµµ¼¯ºÏË®Æ½µØ·Ö¸îÎªÈô¸É´Ø£¬¶ø²»ÊÇÉú³É²ã´Î»¯µÄÇ¶Ì×´Ø¡£Æ½Ãæ»®·Ö·½·¨¿ÉÒÔÈ¡µÃ½ÏºÃµÄÔËËãËÙ¶È¡£µ«ÓÉÓÚÎÄ±¾¾ÛÀà±¾ÉíÃ»ÓÐ»úÆ÷Ñ§Ï°¹ý³Ì£¬ÔÚÊÂÏÈ²»ÖªµÀÀà±ðµÄÇé¿öÏÂ¶ÔÎÄ±¾½øÐÐ×Ô¶¯Æ¥ÅäºÍ¹éÀà£¬Òò¶ø¾ßÓÐÃ¤Ä¿ÐÔ¡£¶ÔÓÚÆ½Ãæ»®·Ö·½·¨¶øÑÔ£¬Ò»°ãÐèÒªÔÚ³õÊ¼Ê±¶ÔÒ»Ð©¶Ô¾ÛÀàÐ§¹ûÓÐ¾ö¶¨ÐÔ×÷ÓÃµÄ²ÎÊý½øÐÐÉèÖÃ£¬Òò¶øÕâÐ©²ÎÊýµÄºÏÀíÑ¡Ôñ¾ÍÏÔµÃÖÁ¹ØÖØÒª¡£¾ÛÀàËã·¨ÖÐ³õÊ¼»¯Ê±³£Éæ¼°µÄ²ÎÊýÓÐ¾ÛÀà¸öÊý¡¢ÏàËÆ¶ÈãÐÖµ¡¢ÔÊÐíµÄµü´ú×î´ó´ÎÊý¡¢ÀàÄÚ·ÖÉ¢³Ì¶ÈµÄ²ÎÊýµÈ¡£
²ã´ÎÄý¾Û·¨µÄ´ú±íÈçHACËã·¨£¬Æ½Ãæ»®·Ö·¨µÄ´ú±íÈçKª²meansËã·¨¡£ÆäÖÐ£¬Kª²meansÎÄ±¾¾ÛÀàËã·¨ÀíÂÛÉÏ¿É¿¿¡¢Ëã·¨¼òµ¥¡¢ËÙ¶È¿ìÇÒÒ×ÊµÏÖ¡£Ò»°ãµØ£¬Kª²meansÎÄ±¾¾ÛÀàËã·¨ÒÔkÎª²ÎÊý£¬°Ñn¸öÎÄµµ¶ÔÏó·ÖÎªk¸ö´Ø¡£Kª²meansËã·¨¾ÛÀàÊÇÒ»ÖÖÎÞ¼à¶½µÄÑ§Ï°¡£ÎÞ¼à¶½Ñ§Ï°µÄÄ¿±êÊÇÔÚ·Ç±ê¼ÇÑµÁ·Êý¾ÝÖÐ·¢ÏÖÒþ²ØµÄ½á¹¹ºÍÄ£Ê½£¬ÊÇ¿ÉÒÔ½«ÏàÍ¬Èº×é»òÕß¾ÛÀàµÄ³ÉÔ±£¬ÔÚÄ³ÖÖºâÁ¿±ê×¼ÏÂÏà»¥Ö®¼ä±ÈºÍÆäËû¾ÛÀàµÄ³ÉÔ±¸üÏàËÆ¡£ÔÚÀûÓÃ¸ÃËã·¨½øÐÐ¾ÛÀà²Ù×÷Ê±£¬kµÄÑ¡È¡¶Ô½á¹ûºÍ¹ý³Ì¾ùÓÐ×Å²»Í¬³Ì¶ÈµÄÓ°Ïì£¬ÆäÖÐ£¬nÊÇÎÄµµ¼¯ºÏÖÐËùÓÐÎÄµµµÄÊýÄ¿£¬kÊÇ´ØµÄÊýÄ¿¡£
5£®4£®2Kª²meansËã·¨ÀíÂÛ»ù´¡
Kª²meansËã·¨ÖÐ£¬ÐèÒª²»¶Ï¼ÆËãÏòÁ¿¾àÀë²¢½øÐÐµü´ú²Ù×÷¡£ÔÚÊýÑ§·½·¨ÖÐÓÐÈýÖÖ½ÏÎª³£¼ûµÄ·½·¨£º Å·ÊÏ¾àÀë(Euclidean Distance)¡¢Âü¹þ¶Ù¾àÀë(Manhattan Distance)ºÍÓàÏÒ¼Ð½Ç(Cosine)¡£
Å·ÊÏ¾àÀëÊÇÊýÑ§ÖÐ±íÊ¾ÏòÁ¿¾àÀëµÄ×î³£ÓÃµÄ¼ÆËã·½·¨£¬ÔÚ¶þÎ¬¿Õ¼ä±íÊ¾µÄÊÇÁ½¸öÏòÁ¿Á¬ÏßµÄÖ±Ïß³¤¶È¡£¶þÎ¬¿Õ¼äÅ·ÊÏ¾àÀëµÄÊýÑ§¹«Ê½Îª£º 

d=(x1£­x2)2£­(y1£­y2)2

ÆäÖÐ£¬(x1,y1)ºÍ(x2,y2)ÊÇ¿Õ¼äÖÐµÄÁ½¸öµã¡£
ÈôÊÇ¶àÎ¬¿Õ¼ä¸÷¸öµãÖ®¼äµÄ¾ø¶Ô¾àÀë£¬¹«Ê½ÈçÏÂ£º 

dX£¬Y=¡Æni=1xi£­yi2


ÔÚ½øÐÐÎÄ±¾¾ÛÀà·ÖÎöÊ±£¬¶à²ÉÓÃ¶àÎ¬¿Õ¼äÅ·ÊÏ¾àÀë¹«Ê½¡£Å·ÊÏ¾àÀëÊÇÓÃKª²meansËã·¨Çó¾àÀë×î³£ÓÃµÄËã·¨¡£ÔÚÏÂÎÄÖÐËùÊ¹ÓÃµÄKª²meansËã·¨¾ù²ÉÓÃÅ·Ê½¾àÀë½øÐÐ¼ÆËã¡£
µ±¶ÔÒ»×éÊý¾Ý¿ªÊ¼½øÐÐ¾ÛÀà²¢Ñ¡È¡ÁË¾ÛÀàÖÐÐÄºó£¬¿ªÊ¼µü´ú¹ý³Ì¡£Kª²meansËã·¨½«´ý·ÖÅäÊµÀý·ÖÅäµ½¾àÀë×î½üµÄ¾ÛÀàÖÐ£¬È»ºó½«Í¼ÐÄÒÆ¶¯µ½¹Û²âÖµµÄ¾ùÖµÎ»ÖÃ¡£Kª²meansËã·¨²ÎÊýµÄ×îÓÅÖµÊÇÍ¨¹ý×îÐ¡»¯Ò»¸ö´ú¼Ûº¯ÊýÀ´¾ö¶¨µÄ¡£´ú¼Ûº¯ÊýµÄ¹«Ê½ÈçÏÂ£º 

J=¡ÆKk=1¡Æi¡ÊCk¡¬xi£­¦Ìk¡¬2


ÔÚ´Ë´¦¦Ìk±íÊ¾¾ÛÀàkµÄÖÐÐÄ£¬Õâ¸ö´ú¼Ûº¯ÊýÊÇ¶ÔËùÓÐ¾ÛÀàµÄÆ«²îÇóºÍ¡£Ã¿¸ö¾ÛÀàµÄÆ«²îµÈÓÚÆä°üº¬µÄËùÓÐÊµÀýºÍÆäÍ¼ÐÄÖ®¼ä¾àÀëµÄÆ½·½ºÍ£¬´Ë´¦ÐèÒª²ÉÓÃÉÏÎÄµÄÅ·ÊÏ¾àÀë½øÐÐ´úÈë¼ÆËã¡£
Ã¿´Îµü´úºó£¬¾ÛÀàÖÐÐÄ¾ù¿ÉÄÜ»áÓÐËù±ä»¯£¬ÔòÐèÒªÔÙ´Î½øÐÐ¼ÆËãºÍÖØÐÂ·ÖÅä´ý¾ÛÀàÊµÀýµ½ºÏÊÊÎ»ÖÃ¡£Kª²meansËã·¨»áÒ»Ö±½øÐÐµü´úÖ±µ½Âú×ãÄ³ÖÖ±ê×¼¡£Í¨³£Çé¿öÏÂ£¬Õâ¸ö±ê×¼ÊÇµ±Ç°´ú¼Ûº¯ÊýÖµºÍºóÐøµü´ú´ú¼Ûº¯ÊýÖµÖ®¼äµÄ²îÖµµÄãÐÖµ£¬»òÕßÊÇµ±Ç°Í¼ÐÄÎ»ÖÃºÍºóÐøµü´úÍ¼ÐÄÎ»ÖÃ±ä»¯µÄãÐÖµ¡£Èç¹ûÕâÐ©Í£Ö¹±ê×¼×ã¹»Ð¡£¬Kª²means½«»áÊÕÁ²µ½Ò»¸ö×îÓÅÖµ¡£È»¶ø£¬Ëæ×ÅÍ£Ö¹±ê×¼ÖµµÄ¼õÐ¡£¬ÊÕÁ²ËùÐèµÄÊ±¼ä»áÔö´ó¡£
5£®4£®3Kª²meansËã·¨½á¹ûÓ°ÏìÒòËØ
ÒªÉú³ÉµÄ´ØÊýÄ¿kµÄÑ¡Ôñ£¬ÊÇÓ°Ïì¾ÛÀà½á¹ûµÄÒ»¸öÖØÒªÒòËØ¡£Èç¹ûkÖµÌ«´ó£¬¾ÛÀàÔò»á¹ýÏ¸£» Èç¹ûkÖµ¹ýÐ¡£¬²âÊÔÑù±¾Ì«¶à£¬ÀàµÄÖÐÐÄÖ÷Ìâ´Ê²»ÄÜÈ«Ãæ¸²¸Ç¸ÃÀàµÄÄÚÈÝ¡£kÖµÑ¡È¡µÄÒÀ¾Ý¿ÉÒÔÊÇÖ÷¹ÛÅÐ¶Ï£¬ÓÃ»§»òÓÐ¾­ÑéµÄ×¨¼ÒÒÔ¸÷×ÔÁìÓòÖªÊ¶ÅÐ¶Ï£¬ÒÔ¾­ÑéºÍ·´¸´ÑéÖ¤Îª»ù´¡¡£ÁíÍâ£¬kÖµµÄÑ¡È¡Ò²¿ÉÒÔÒÀ¾ÝÊýÑ§ÂÛÐÎÊ½½øÐÐ¿Í¹ÛÅÐ¶Ï£¬ÈçºâÁ¿kÈ¡²»Í¬ÖµÊ±Ëù¶ÔÓ¦µÄ¾ÛÀàÐ§¹ûÓÅÁÓµÄ½ôÖÂÓë·ÖÀëÐÔÐ§¹ûº¯ÊýÒÔ¼°ÓëÎó²îÆ½·½ºÍº¯ÊýÏà½áºÏµÄ±ê×¼JW×¼Ôò¡£
ÁíÍâ£¬³õÊ¼¾ÛÀàÖÐÐÄµã²»Í¬£¬¾ÛÀà½á¹ûÒ²»á²»Í¬¡£Ò»°ã³£ÓÃµÄ³õÊ¼¾ÛÀàÖÐÐÄµãÑ¡È¡µÄ·½·¨ÓÐ£º ÈÎÒâËæ»úµØÑ¡È¡k¸öÑù±¾×÷Îª³õÊ¼¾ÛÀàÖÐÐÄ£» Æ¾¾­ÑéÑ¡È¡ÓÐ´ú±íÐÔµÄµã×÷Îª³õÊ¼¾ÛÀàÖÐÐÄ£¬¸ù¾Ý¸öÌåÐÔÖÊ£¬¹Û²ìÊý¾Ý½á¹¹£¬Ñ¡³ö±È½ÏºÏÊÊµÄ´ú±íµã£» °ÑÈ«²¿»ìºÏÑù±¾Ö±¹ÛµØ·Ö³ÉkÀà£¬¼ÆËã¸÷Àà¾ùÖµ×÷Îª³õÊ¼¾ÛÀàÖÐÐÄ£» ½øÐÐ¶à´Î³õÖµÑ¡Ôñ¡¢¾ÛÀà£¬ÕÒ³öÒ»×é×îÓÅµÄ¾ÛÀà½á¹û£» µÈµÈ¡£
5£®4£®4TFª²IDFÀíÂÛ»ù´¡
TFª²IDF(Term Frequencyª²Inverse Document Frequency£¬´ÊÆµª²ÄæÏòÎÄ¼þÆµÂÊ)ÊÇÒ»ÖÖÓÃÓÚÐÅÏ¢¼ìË÷ÓëÎÄ±¾ÍÚ¾òµÄ³£ÓÃ¼ÓÈ¨¼¼Êõ¡£
TFª²IDFÊÇÒ»ÖÖÍ³¼Æ·½·¨£¬ÓÃÒÔÆÀ¹ÀÒ»×Ö´Ê¶ÔÓÚÒ»¸öÎÄ¼þ¼¯»òÒ»¸öÓïÁÏ¿âÖÐµÄÆäÖÐÒ»·ÝÎÄ¼þµÄÖØÒª³Ì¶È¡£×Ö´ÊµÄÖØÒªÐÔËæ×ÅËüÔÚÎÄ¼þÖÐ³öÏÖµÄ´ÎÊý³ÉÕý±ÈÔö¼Ó£¬µ«Í¬Ê±»áËæ×ÅËüÔÚÓïÁÏ¿âÖÐ³öÏÖµÄÆµÂÊ³É·´±ÈÏÂ½µ¡£ÆäÖ÷ÒªË¼ÏëÊÇ£º Èç¹ûÄ³¸öµ¥´ÊÔÚÒ»ÆªÎÄÕÂÖÐ³öÏÖµÄÆµÂÊTF¸ß£¬²¢ÇÒÔÚÆäËûÎÄÕÂÖÐºÜÉÙ³öÏÖ£¬ÔòÈÏÎª´Ë´Ê»òÕß¶ÌÓï¾ßÓÐºÜºÃµÄÀà±ðÇø·ÖÄÜÁ¦£¬ÊÊºÏÓÃÀ´·ÖÀà¡£
´ÊÆµ(TF)±íÊ¾´ÊÌõ(¹Ø¼ü×Ö)ÔÚÎÄ±¾ÖÐ³öÏÖµÄÆµÂÊ¡£Õâ¸öÊý×ÖÍ¨³£»á±»¹éÒ»»¯£¬ÒÔ·ÀÖ¹ËüÆ«Ïò³¤µÄÎÄ¼þ¡£

tfij=ni,j¡Æknk,j¼´TFw=ÔÚÄ³Ò»ÀàÖÐ´ÊÌõw³öÏÖµÄ´ÎÊý¸ÃÀàÖÐËùÓÐµÄ´ÊÌõÊýÄ¿

ÆäÖÐ£¬ni,jÊÇ¸Ã´ÊÔÚÎÄ¼þdjÖÐ³öÏÖµÄ´ÎÊý£¬·ÖÄ¸ÊÇÎÄ¼þdjÖÐËùÓÐ´Ê»ã³öÏÖµÄ´ÎÊý×ÜºÍ¡£
ÄæÏòÎÄ¼þÆµÂÊ (IDF)£º Ä³Ò»ÌØ¶¨´ÊÓïµÄIDF£¬¿ÉÒÔÓÉ×ÜÎÄ¼þÊýÄ¿³ýÒÔ°üº¬¸Ã´ÊÓïµÄÎÄ¼þµÄÊýÄ¿£¬ÔÙ½«µÃµ½µÄÉÌÈ¡¶ÔÊýµÃµ½¡£Èç¹û°üº¬´ÊÌõtµÄÎÄµµÔ½ÉÙ£¬IDFÔ½´ó£¬ÔòËµÃ÷´ÊÌõ¾ßÓÐºÜºÃµÄÀà±ðÇø·ÖÄÜÁ¦¡£

idfi=lgDj£º ti¡Êdj¼´IDF=lgÓïÁÏ¿âµÄÎÄµµ×ÜÊý°üº¬´ÊÌõwµÄÎÄµµÊý+1

ÆäÖÐ£¬DÊÇÓïÁÏ¿âÖÐµÄÎÄ¼þ×ÜÊý£» j£º ti¡Êdj±íÊ¾°üº¬´ÊÓïtiµÄÎÄ¼þÊýÄ¿(¼´ni,j¡Ù0 µÄÎÄ¼þÊýÄ¿)¡£Èç¹û¸Ã´ÊÓï²»ÔÚÓïÁÏ¿âÖÐ£¬¾Í»áµ¼ÖÂ·ÖÄ¸ÎªÁã£¬Òò´ËÒ»°ãÇé¿öÏÂÊ¹ÓÃ1+j£º ti¡Êdj¡£
½áºÏTFºÍIDFµÄ¶¨ÒåÒÔ¼°¹«Ê½£¬Ä³Ò»ÌØ¶¨ÎÄ¼þÄÚµÄ¸ß´ÊÓïÆµÂÊ£¬ÒÔ¼°¸Ã´ÊÓïÔÚÕû¸öÎÄ¼þ¼¯ºÏÖÐµÄµÍÎÄ¼þÆµÂÊ£¬¿ÉÒÔ²úÉú³ö¸ßÈ¨ÖØµÄTFª²IDF¡£Òò´Ë£¬TFª²IDFÇãÏòÓÚ¹ýÂËµô³£¼ûµÄ´ÊÓï£¬±£ÁôÖØÒªµÄ´ÊÓï¡£TFª²IDFÊµ¼ÊÉÏÊÇ£º TF£­IDF=TF¡ÁIDF¡£
ÀýÈç£¬×ÜÊý¾Ý¼¯ÓÐ10000ÆªÎÄÕÂ£¬ÆäÖÐÒ»ÆªÎÄµµ×Ü¹²ÓÐ1000¸ö´Ê£¬ÆäÖÐ£¬¡°ÎÄ±¾¾ÛÀà¡±³öÏÖÁË5´Î£¬¡°µÄ¡±³öÏÖÁË25´Î£¬¡°Ó¦ÓÃ¡±³öÏÖÁË12´Î£¬ÄÇÃ´ËüÃÇµÄ´ÊÆµ(TF)·Ö±ðÊÇ0£®005¡¢0£®025ºÍ0£®012¡£ÇÒ¡°ÎÄ±¾¾ÛÀà¡±Ö»ÔÚÆäÖÐ10ÆªÎÄÕÂÖÐ³öÏÖ£¬ÔòÆäÈ¨ÖØÖ¸ÊýÎªIDF=lg1000010+1=3¡£¡°µÄ¡±ÔÚËùÓÐÎÄÕÂÖÐ¾ù³öÏÖ¹ý£¬ÔòÆäÈ¨ÖØÖ¸ÊýÎªIDF=lg1000010000+1=0¡£¡°Ó¦ÓÃ¡±ÔÚÆäÖÐ1000ÆªÎÄÕÂÖÐ³öÏÖ¹ý£¬ÔòÆäÈ¨ÖØÖ¸ÊýÎªIDF=lg100001000+1=1¡£ËùÒÔ¿ÉÒÔµÃµ½ÕâÈý¸ö´ÊÓïµÄTFª²IDF·Ö±ðÎª0£®015£¬0ºÍ0£®012¡£Ò²¾ÍÊÇËµ£¬¡°ÎÄ±¾¾ÛÀà¡±µÄÖØÒªÐÔÔÚÕâÈý¸ö´ÊÖÐÊÇ×î¸ßµÄ¡£
5£®4£®5»ùÓÚKª²meansÎÄ±¾¾ÛÀàµÄÖ÷Òª²½Öè
Ê×ÏÈËæ»úµØÑ¡Ôñk¸ö³õÊ¼ÎÄ±¾¶ÔÏó£¬Ã¿¸ö¶ÔÏó´ú±íÁËÒ»¸ö´ØµÄÆ½¾ùÖµ»òÖÐÐÄ¡£¶ÔÊ£ÓàµÄÃ¿¸ö¶ÔÏó£¬¸ù¾ÝÆäÓë¸÷¸ö´ØÖÐÐÄµÄ¾àÀë£¬½«Ëü¸³¸ø×î½üµÄ´Ø¡£È»ºóÖØÐÂ¼ÆËãÃ¿¸ö´ØµÄÆ½¾ùÖµ¡£Õâ¸ö¹ý³Ì²»¶ÏÖØ¸´£¬Ö±µ½×¼Ôòº¯ÊýÊÕÁ²£¬»òÖÐÐÄÇ÷ÓÚÎÈ¶¨ÎªÖ¹¡£ÏÂÃæ¸ø³öÁË»ùÓÚKª²meansµÄÎÄ±¾¾ÛÀàËã·¨µÄÐÎÊ½»¯ÃèÊö¡£Ëã·¨µÄ¸´ÔÓ¶ÈÊÇO(nkt)£¬ÆäÖÐ£¬nÊÇÎÄµµ¼¯ºÏÖÐËùÓÐÎÄµµµÄÊýÄ¿£¬kÊÇ´ØµÄÊýÄ¿£¬tÊÇµü´úµÄ´ÎÊý¡£
¸ø¶¨ÎÄµµ¼¯ºÏD={d1,¡­,di,¡­,dn}£¬Kª²meansÎÄ±¾»ýÀÛËã·¨¾ßÌå¹ý³ÌÈçÏÂ¡£
£¨1£© È·¶¨ÒªÉú³É´ØµÄÊýÄ¿k¡£
£¨2£© °´Ä³ÖÖÔ­ÔòÑ¡È¡k¸ö³õÊ¼¾ÛÀàÖÐÐÄC=(c1,c2,¡­,ck)£¬²¢ÉèÖÃ³õÊ¼µü´ú´ÎÊýr=1¡£
£¨3£© ¶ÔÎÄµµ¼¯ÖÐµÄÃ¿Ò»¸öÎÄµµdi£¬ÒÀ´Î¼ÆËãËüÓë¸÷¸ö¾ÛÀàÖÐÐÄcjµÄÏàËÆ¶Èsim(di,cj)¡£
£¨4£© Ñ¡Ôñ¾ßÓÐ×î´óÏàËÆ¶ÈµÄ¾ÛÀàÖÐÐÄargmaxsim(di,cj)£¬½«di¹éÈëÒÔcjÎªÖÐÐÄµÄ´ØÖÐ¡£
£¨5£© ¼ÆËãÐÂµÄ¾ÛÀàÖÐÐÄ¡£ÐÂµÄ¾ÛÀàÖÐÐÄÎªÕâÒ»ÂÖµü´úÖÐ·Öµ½¸Ã´ØÖÐµÄËùÓÐÎÄµµÊ¸Á¿µÄ¾ùÖµ£¬¼´cj=1nj¡Æd¡ÊFjd£¬ÆäÖÐ£¬FjÎª¾Û´ØcjµÄÎÄµµ¼¯ºÏ£¬njÎªFjÖÐµÄÎÄµµÊý¡£
£¨6£© Èç¹ûËùÓÐ¾ÛÀàÖÐÐÄ¾ù´ïµ½ÎÄµµ£¬Ôò½áÊø£» ·ñÔò£¬r=r+1£¬×ªµ½(3)¡£
5£®4£®6»ùÓÚKª²meansËã·¨µÄ¾ÛÀàÊµÀý
Kª²meansËã·¨¿ÉÒÔÓÃÓÚÊý¾Ý¼¯µÄ¾ÛÀà£¬²ÉÓÃÒ»¸ö³£ÓÃµÄ¶þÎ¬Êý¾Ý¼¯¡ª¡ª4k2_far×÷Îª²âÊÔÑù±¾£¬Èç±í5ª²2ËùÊ¾¡£


±í5ª²2²âÊÔÑù±¾¼¯µÄ²¿·ÖÑùÀý


x1
x2
7£®1741
5£®2429
6£®914
5£®0772
7£®5856
5£®3146
6£®7756
5£®1347
¡­
¡­

ÆäÖÐ£¬x1£¬x2±íÊ¾Êý¾Ý¼¯ÖÐÑù±¾µÄÊôÐÔ¡£Ëæ×Å²»¶Ïµü´ú£¬ÖÊÐÄÒ²²»¶ÏµØ½Ó½üÃ¿¸ö´ØµÄÖÐÐÄÎ»ÖÃ¡£²¢ÇÒ¸ù¾Ý²»Í¬µÄkµÄÈ¡Öµ£¬×îÖÕµÄ¾ÛÀà½á¹ûÒ²»áÓÐËù²»Í¬¡£
´ÓÍ¼5ª²1¿ÉÒÔ¿´³ö£¬µ±Ñ¡È¡ÁË²»Í¬µÄkÖµÊ±£¬Ò»¸öÊý¾Ý¼¯¾ÛÀàµÄ½á¹û»áÓÐËù²»Í¬¡£µ«Ò²²¢·ÇÊÇkÔ½´óÔ½ºÃ£¬¿ÉÒÔ¶Ô±È¿´³öÔÚkÈ¡4Ê±¶ÔÓÚÕûÌåµÄ»®·ÖÊÇ½ÏÎªºÏÊÊµÄ£¬¹ýÉÙ»áµ¼ÖÂÀà±ð»®·Ö²»¹»Ã÷ÏÔ£¬¹ý¶à»áµ¼ÖÂÔÚ¼ÆËã¹ý³ÌÖÐÀË·ÑÊ±¼ä£¬ÓÐÐ©Àà±ð»®·ÖÒ²¹ýÓÚ¿ÌÒâ¡£


Í¼5ª²1µ±kÈ¡2¡¢3¡¢4¡¢5Ê±µÄ²»Í¬¾ÛÀà½á¹û


µ±Ê¹ÓÃKª²meansËã·¨½øÐÐÎÄ±¾¾ÛÀàÊ±£¬Ò»°ã»á¶ÔÎÄ±¾Êý¾Ý¼¯½øÐÐÔ¤´¦Àí£¬ÀýÈç£¬ÀûÓÃjieba·Ö´Ê½øÐÐÎÄ±¾·Ö´Ê¡¢Í£ÓÃ´Ê¹ýÂË¡¢ÓïÁÏ¿âµÄ½¨Á¢µÈ£¬ÀûÓÃscikitª²learn¼ÆËã´ÊÓïµÄTFª²IDF¡£ÔÚ¶ÔÎÄ±¾½øÐÐÁËÉÏÊöÔ¤´¦Àíºó£¬·½¿ÉÊ¹ÓÃKª²meansËã·¨½øÐÐÎÄ±¾¾ÛÀà¡£
¿ÉÒÔ²ÉÓÃÀ´×Ômlcomp£®orgÉÏµÄ20newsª²18828Êý¾Ý¼¯½øÐÐKª²meansËã·¨µÄÎÄ±¾¾ÛÀà¡£ÔÚ¸ÃÊý¾Ý¼¯ÖÐ£¬train×ÓÄ¿Â¼ÏÂÓÐ20¸ö×ÓÄ¿Â¼£¬Ã¿¸ö×ÓÄ¿Â¼´ú±íÒ»ÖÖÎÄµµµÄÀàÐÍ£¬ÎªÁË½øÒ»²½¼ò»¯ÎÊÌâ£¬Ö»Ñ¡ÔñÓïÁÏ¿âÀïµÄ²¿·ÖÄÚÈÝÀ´½øÐÐ¾ÛÀà·ÖÎö¡£¼ÙÉèÑ¡Ôñsci£®crypt¡¢sci£®electronics¡¢sci£®medºÍsci£®space¹²4¸öÀà±ðµÄÎÄµµ½øÐÐ¾ÛÀà·ÖÎö¡£Ê×ÏÈ½«´ý¾ÛÀàµÄÎÄ±¾ÏÈ½øÐÐÎÄ±¾Ô¤´¦Àí£¬½øÐÐ·Ö´Ê²¢¼ÆËã¸÷¸ö´ÊµÄTFª²IDFÖµ£¬ÉèÖÃmax_dfºÍmin_dfÒÔÈ·±£´ÊÆµ¹ý¸ßºÍ¹ýµÍµÄ´ÊÓïÓ°Ïì·ÖÀà½á¹û¡£Í¨¹ýÒÔÉÏ¶ÔÎÄ±¾µÄÔ¤´¦Àíºó£¬¿ÉÒÔÊ¹ÓÃKª²meansËã·¨½øÐÐÎÄ±¾¾ÛÀà¡£
ÉèÖÃ¾ÛÀà¸öÊýÎª4¸ö£¬Kª²meansµü´ú×î¶à½øÐÐ100´Î£¬µ±ÖÐÐÄµãÒÆ¶¯¾àÀëÐ¡ÓÚ0£®1Ê±Ä¬ÈÏÎªËã·¨ÒÑ¾­´ïµ½ÊÕÁ²¡£ÔÚÃ¿´Î½øÐÐµü´úºÍ¾ÛÀàµÄ¹ý³ÌÖÐ£¬¾ùÊÇÊ¹ÓÃ¸÷¸ö¹Ø¼ü´ÊµÄÖØÒªÈ¨ÖØ(TDª²IDF)½øÐÐÅ·ÊÏ¾àÀë¼ÆËã²¢±È½Ï¡£Í¨¹ý3´ÎKª²means¾ÛÀà·ÖÎö£¬·Ö±ð×öÁË195424´Îµü´úºó¿ÉÒÔÊµÏÖÊÕÁ²¡£Óë´ËÍ¬Ê±½«3949¸öÎÄµµ½øÐÐ×Ô¶¯·ÖÀà¡£¿ÉÒÔÍ¨¹ý²éÑ¯£¬²éÑ¯µ½¶ÔÓ¦µÄÎÄµµ±»·Öµ½ÁËÄÄÒ»ÀàÖÐ£¬Ò²¿ÉÒÔ²éÑ¯µ½¶ÔÓ¦µÄÎÄ¼þÃû¡£Ñ¡È¡²¿·ÖKª²meansËã·¨¾ÛÀàºóµÄ½á¹ûÓëÊµ¼ÊÇé¿ö½øÐÐ¶Ô±È£¬Èç±í5ª²3ËùÊ¾¡£


±í5ª²3²¿·ÖKª²meansËã·¨ÎÄ±¾¾ÛÀà½á¹ûÓëÊµ¼ÊÇé¿ö¶Ô±È


ÎÄ±¾ºÅ
Kª²meansËã·¨¾ÛÀà½á¹û
ÎÄ±¾Êµ¼ÊËùÔÚÀà±ð
¾ÛÀàÊÇ·ñÕýÈ·
1000
1
sci£®crypt
ÕýÈ·
1001
1
sci£®crypt
ÕýÈ·
1002
1
sci£®crypt
ÕýÈ·
1003
0
sci£®electronics
ÕýÈ·
1004
3
sci£®space
ÕýÈ·
1005
1
sci£®crypt
ÕýÈ·
1006
2
sci£®electronics
´íÎó

Í¨¹ý½á¹û¿ÉÒÔ¿´³öÎÄ±¾Ïà¶ÔÓ¦µÄ·ÖÀà»ù±¾ÉÏ±»ÕýÈ·¾ÛÀà¡£µ«ÊÇÔÚ¸ÃÊý¾Ý¼¯ÖÐ£¬µÚÒ»¸ö·ÖÀàsci£®electronicsµÄÌØÕ÷´Ê±È½ÏÆÕ±é£¬Ã»ÓÐ¹ýÓÚÓÐÌØÕ÷µÄÌØµã£¬»áµ¼ÖÂÆä¾ÛÀà½á¹û²»ÊÇºÜºÃ¡£µ«ÆäÓà¼¸×éÒòÎª½Ï¸ßÈ¨ÖØ´ÊÓïµÄÖ¸ÏòÐÔ½ÏÇ¿£¬¾ÛÀà½á¹ûÒ²Ïà¶Ô½ÏºÃ¡£
5£®5»ùÓÚÇ±ÔÚÓïÒåË÷ÒýµÄÎÄ±¾¾ÛÀà·½·¨
5£®5£®1¸ÅÊö

ÎªÁË¿Ë·þ´«Í³VSMÄ£ÐÍµÄ¾ÖÏÞÐÔ£¬S.T.DumainsµÈÈËÌá³öÁËÒ»ÖÖÐÂµÄÄ£ÐÍ£º Ç±ÔÚÓïÒåË÷Òý£¬»òÕßÇ±ÔÚÓïÒå·ÖÎö£¬±¾ÊéÈ¡ÆäÓ¢ÎÄ¼òÐ´LSI¡£LSI¿ÉÒÔ¿´×÷Ò»ÖÖÀ©Õ¹µÄÏòÁ¿¿Õ¼äÄ£ÐÍ£¬ËüÀûÓÃÍ³¼Æ¼ÆËãµ¼³öÎÄ±¾ÖÐÒþº¬µÄÓïÒå£¬¶ø²»ÊÇ±íÃæÉÏµÄ´ÊµÄÆ¥Åä¡£LSI»ùÓÚÕâÑùµÄÒ»ÖÖ¶ÏÑÔ£¬¼´ÎÄ±¾¿âÖÐ´æÔÚÒþº¬µÄ¹ØÓÚ´ÊÊ¹ÓÃµÄÓïÒå½á¹¹£¬ÕâÖÖ½á¹¹ÓÉÓÚ²¿·ÖµØ±»ÎÄ±¾ÖÐ´ÊµÄÓïÒåºÍÐÎÊ½ÉÏµÄ¶àÑùÐÔËùÑÚ¸Ç¶ø²»Ã÷ÏÔ¡£LSIÍ¨¹ý¶ÔÔ­ÎÄµµÖÐ´Êª²ÎÄµµ¾ØÕóµÄÆæÒìÖµ·Ö½â¼ÆËã£¬²¢È¡Ç°k¸ö×î´óµÄÆæÒìÖµ¶ÔÓ¦µÄÆæÒìÏòÁ¿¹¹³ÉÒ»¸öÐÂµÄ¾ØÕóÀ´½üËÆµØ±íÊ¾Ô­ÎÄ±¾¿âµÄ´Êª²ÎÄ±¾¾ØÕó£¬ÔÙ¶Ô´Ë¾ØÕó½øÐÐÏà¹ØµÄÎÄ±¾´¦Àí²Ù×÷£¬Õâ¾ÍÊÇLSI¼¼Êõ¡£ÏÂÃæ½«·Ö±ðÌÖÂÛLSIµÄÏà¹ØÀíÂÛ¡£
5£®5£®2¾ØÕóµÄÆæÒìÖµ·Ö½â
ÔÚÂÛÊö¾ØÕóµÄÆæÒìÖµÓëÆæÒìÖµ·Ö½âÖ®Ç°£¬ÏÈ¿´ÏÂÃæµÄ½áÂÛºÍ¶¨Àí¡£
£¨1£© ÉèA¡ÊCm¡Ánr(r>0),ÔòAHAÊÇHermite¾ØÕó£¬ÇÒÆäÌØÕ÷Öµ¾ùÊÇ·Ç¸ºÊý¡£
£¨2£© rank(AHA)=rank(A)¡£
£¨3£© ÉèA¡ÊCm¡Ánr(r>0)£¬ÔòA=0µÄ³äÒªÌõ¼þÊÇAHA=0¡£
¶¨Òå5£®2£®1ÉèA¡ÊCm¡Ánr(r>0)£¬ÔòAHAµÄÌØÕ÷ÖµÎª£º

¦Ë1¡Ý¦Ë2¡Ý¡­¡Ý¦Ër¡Ý¦Ër+1=¡­=¦Ën=0

Ôò³Æ¦Òi=¦Ëi(i=1£¬2£¬¡­£¬n)ÎªAµÄÆæÒìÖµ¡£
¶¨Àí5£®1ÉèA¡ÊCm¡Ánr(r>0)£¬Ôò´æÔÚm½×¾ØÕóUºÍn½×¾ØÕóV£¬Ê¹µÃ

UHAV=¡Æ0
00(5ª²1)

ÆäÖÐ£¬¡Æ=diag(¦Ò1,¦Ò2,¡­,¦Òr),¶ø¦Òi(i=1,2,¡­,r)Îª¾ØÕóAµÄÈ«²¿·ÇÁãÆæÒìÖµ¡£
Ê½(5ª²1)¿É±ä»»Îª£º 

A=U¡Æ0
00VH(5ª²2)


³ÆÊ½(5ª²2)Îª¾ØÕóµÄÆæÒìÖµ·Ö½â¡£
Èç¾ØÕóA=101
011
000£¬ÔòAµÄÆæÒìÖµ·Ö½âÎª£º 

A=U¡Æ0
00VH(5ª²3)

ÆäÖÐ£¬

¡Æ=30
00U=12120
12£­120
001V=161213
16£­1213
260£­13

5£®5£®3LSI¼¼ÊõµÄÀíÂÛ»ù´¡
1. ´Êª²ÎÄµµ¾ØÕó

LSI¾ØÕóÄ£ÐÍÖÐ£¬Ò»¸öÎÄµµ¿â¿ÉÒÔ±íÊ¾ÎªÒ»¸öm¡ÁnµÄ´Êª²ÎÄµµ¾ØÕó(Termª²Document)A¡£ÕâÀïn±íÊ¾ÎÄ±¾¿âÖÐµÄÎÄ±¾Êý£» m±íÊ¾±¾¿âÖÐ°üº¬µÄËùÓÐ²»Í¬µÄ´ÊµÄ¸öÊý¡£ÕâÑù£¬Ã¿¸ö²»Í¬µÄ´Ê¶ÔÓ¦ÓÚ¾ØÕóAµÄÒ»ÐÐ£¬¶øÃ¿¸öÎÄ±¾Ôò¶ÔÓ¦ÓÚ¾ØÕóµÄÒ»ÁÐ¡£A¿É±íÊ¾Îª£º 

A=£Ûaij£Ý(5ª²4)

ÆäÖÐ£¬aijÎª·Ç¸ºÖµ£¬±íÊ¾µÚi¸ö´ÊÔÚµÚj¸öÎÄ±¾ÖÐ³öÏÖµÄÆµ¶È¡£ÓÉÓÚ´ÊºÍÎÄµµµÄÊýÁ¿ºÜ´ó£¬¶øµ¥¸öÎÄ±¾µÄ´ÊµÄÊýÁ¿ÓÖ·Ç³£ÓÐÏÞ£¬ËùÒÔAÒ»°ãÎªÏ¡Êè¾ØÕó¡£
2. È¨ÖØµÄÑ¡È¡
Í¨³£aijÒª¿¼ÂÇÀ´×ÔÁ½¸ö·½ÃæµÄ¹±Ï×£¬¼´¾Ö²¿È¨ÖµL(i,j)ºÍÈ«¾ÖÈ¨ÖµC(i)£¬ËüÃÇ·Ö±ð±íÊ¾µÚi¸ö´ÊÔÚµÚj¸öÎÄ±¾ºÍÔÚÕû¸öÎÄ±¾¿âÖÐµÄÖØÒª³Ì¶È£¬ÓÐ£º 

aij=L(i£¬j)¡ÁC(i)(5ª²5)

¾Ö²¿È¨ÖµL(i£¬j)ºÍÈ«¾ÖÈ¨ÖµC(i)ÓÐ²»Í¬µÄÈ¡Öµ·½·¨¡£
±í5ª²4ºÍ±í5ª²5ÁÐ³öÁË¾Ö²¿È¨Öµ¼ÆËã·½·¨ºÍÈ«¾ÖÈ¨Öµ¼ÆËã·½·¨¡£ÆäÖÐ£¬tfijºÍGfi·Ö±ð±íÊ¾´ÊiÔÚÎÄ±¾jºÍÕû¸öÎÄ±¾¿âÖÐ³öÏÖµÄÆµ¶È£º dfiÎªÎÄ±¾¿âÖÐ°üº¬´ÊiµÄÎÄ±¾ÊýÄ¿£» ndocsÎªÎÄ±¾¿âÖÐÎÄ±¾µÄ×ÜÊý£¬¼´pij=tfij/Gfi¡£


±í5ª²4¾Ö²¿È¨Öµ¼ÆËã·½·¨


·½·¨Ãû¹«Ê½±¸×¢
´ÊÆµ·¨tfij
0/1¶þÖµ·¨0/1´ÊÔÚÎÄµµÖÐ´æÔÚÊ±Îª1£¬·ñÔòÎª0
¶ÔÊý´ÊÆµ·¨lg(tfij+1)


±í5ª²5È«¾ÖÈ¨ÖµµÄ¼ÆËã·½·¨


·½·¨Ãû¹«Ê½
Normal1/¡Æjtf2ij
GfidfGfidfi
Idflgndocsdfi+1
Entropy1-¡Æjpijlg(pij)lg(ndocs)

5£®5£®4»ùÓÚLSIÎÄ±¾¾ÛÀàµÄÖ÷Òª²½Öè
»ùÓÚLSIÎÄ±¾¾ÛÀàµÄÖ÷Òª²½ÖèÈçÏÂ¡£
(1) ¶ÔÎÄ±¾¿âÖÐµÄÎÄ±¾½øÐÐÇÐ´Ê´¦Àí£¬¹¹½¨´Êª²ÎÄµµ¾ØÕóA£¬²¢¼ÆËãAÖÐ¸÷¸öÔªËØµÄÈ¨Öµ¡£
(2) ¶ÔA½øÐÐÆæÒìÖµ·Ö½â£¬µÃµ½Vk£¬ÎÄ±¾¿âÖÐµÄËùÓÐÎÄ±¾¶ÔÓ¦VkÖÐµÄÒ»ÐÐ¡£
(3) ÀûÓÃÄ³ÖÖÏòÁ¿¼äµÄÏàËÆÐÔ¶ÈÁ¿£¬ÒÀ¾ÝÄ³ÖÖ¾ÛÀàËã·¨¼ÆËãVkµÄÐÐÏòÁ¿(Ã¿¸öÎÄ±¾¶ÔÓ¦Ò»ÌõÐÐÏòÁ¿)Ö®¼äµÄÏàËÆ¶È½øÐÐ¾ÛÀà¡£
ÎÄµµi£¬jÖ®¼äµÄÏàËÆ¶È¿ÉÀûÓÃVkµÄ¶ÔÓ¦ÐÐÏòÁ¿Ö®¼äµÄÏàËÆ¶ÈÀ´ÇóµÃ£¬¼ÆËã¹«Ê½Îª£º 

cos(¦Èij)=(elVk)(ejVk)T¡¬ejVk¡¬2¡¬(ejVk)T¡¬2(5ª²6)

ÆäÖÐ£¬ei±íÊ¾k½×6µ¥Î»¾ØÕóµÄµÚiÁÐ¡£
5£®5£®5»ùÓÚLSIÎÄ±¾¾ÛÀàµÄÊµÀý
ÏÂÃæ½«Õ¹Ê¾Ò»¸ö½ÏÎª¼òµ¥µÄÀûÓÃLSIËã·¨½øÐÐÎÄ±¾¾ÛÀàµÄÀý×Ó¡£µ±ÔÚAmazon£®comÉÏËÑË÷¡°investing¡±Ê±½«·µ»Ø10¸öÊéÃû£¬ÕâÐ©ÊéÃû¶¼ÓÐ¹²Í¬µÄÒ»¸öË÷Òý´Ê¡£Ò»¸öË÷Òý´Ê¿ÉÒÔÊÇ·ûºÏÒÔÏÂÌõ¼þµÄÈÎºÎµ¥´Ê¡£
£¨1£© ³öÏÖÔÚÁ½¸ö»òÒÔÉÏµÄÎÄÕÂÌâÄ¿ÖÐ¡£
£¨2£© Í£Ö¹´Ê£º ´ÊÒå¹ýÓÚÒ»°ã£¬Èç¡°and¡±¡°the¡±µÈ¡£ÕâÐ©´Ê¶ÔÎÄÕÂµÄÓïÒå²¢Ã»Æðµ½Í»³öµÄ×÷ÓÃ£¬Òò´ËÓ¦¸Ã±»¹ýÂËµô£¬Ò²¾ÍÊÇµ±×÷¡°Í£ÓÃ´Ê¡±¡£
ÒÔÏÂÕ¹Ê¾µÄÊÇË÷Òý³öÀ´µÄ9¸ö±êÌâ£¬´ÖÌå×ÖÎªË÷Òý´Ê¡£


£¨1£© The Neatest Little Guide to Stock Market Investing

£¨2£© Investing**For **Dummies£¬4th Edition

£¨3£© The Little Book**of Common Sense **nvesting£º  The Only Way to Guarantee Your Fair Share of Stock Market Returns

£¨4£© The Little Book of Value Investing

£¨5£© Value Investing£º  From Graham to Buffett and Beyond

£¨6£© Rich Dad¡¯s Guide to Investing£º  What the Rich Invest in£¬That the Poor and the Middle Class Do Not!

£¨7£© Investing in Real Estate£¬5th Edition

£¨8£© Stock Investing For Dummies

£¨9£© Rich Dad¡¯s Advisors£º  The ABC¡¯s of Real Estate Investing£º  The Secrets of Finding Hidden Profits Most Investors Miss


Ê×ÏÈ£¬LSIÐèÒª´´½¨µ¥´Êª²±êÌâ¾ØÕó¡£ÔÚ¸Ã¾ØÕóÖÐ£¬ÐÐ±íÊ¾Ë÷Òý´Ê£¬¶øÁÐ±íÊ¾ÌâÄ¿¡£Ã¿¸öÔªËØ±íÊ¾¶ÔÓ¦µÄ±êÌâ°üº¬¶àÉÙ¸öÏàÓ¦µÄË÷Òý´Ê¡£ÀýÈç£¬¡°book¡± ÔÚT3ºÍT4ÖÐ³öÏÖÁË1´Î,¶ø¡°investing¡± ³öÏÖÔÚËùÓÐµÄ±íÖÐ¡£Ò»°ãÇé¿öÏÂ£¬LSI´´½¨µÄµ¥´Êª²±êÌâ¾ØÕó»áÏà¶Ô¾Þ´ó£¬¶øÇÒÊ®·ÖÏ¡Êè(´ó²¿·ÖÔªËØÎª0)£¬ÕâÊÇÒòÎªÃ¿¸ö±êÌâ»òÎÄÕÂÒ»°ãÖ»°üº¬Ê®·ÖÉÙµÄÆµ·±µ¥´Ê¡£¸Ä½øµÄLSIÍ¨¹ýÕâÖÖÏ¡ÊèÐÔÄÜÓÐÐ§½µµÍÄÚ´æµÄËðºÄºÍËã·¨¸´ÔÓ¶È¡£¹¹½¨µÄµ¥´Êª²±êÌâ¾ØÕóÈç±í5ª²6ËùÊ¾¡£


±í5ª²6LSI¹¹½¨µÄµ¥´Êª²±êÌâ¾ØÕó


Ë÷Òý´Ê
±êÌâ

T1
T2
T3
T4
T5
T6
T7
T8
T9
book


1
1





dads





1


1
dummies

1





1

estate






1

1
guide
1




1



investing
1
1
1
1
1
1
1
1
1
market
1

1






real






1

1
rich





2


1
stock
1

1




1

value



1
1




ÔÚLSIËã·¨ÖÐ£¬Ô´µ¥´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕóÒ»°ã»á½øÐÐ¼ÓÈ¨µ÷Õû£¬ÆäÖÐÏ¡ÉÙµÄ´ÊµÄÈ¨ÖØ»á´óÓÚÒ»°ãÐÔµÄµ¥´Ê¡£ÒòÎªÕâ¸öÀý×Ó¹æÄ£²»´ó£¬Òò´Ë²»¶Ô¾ØÕó½øÐÐÈ¨ÖØµ÷Õû¡£
µ±µ¥´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕó´´½¨Íê³É£¬½«Ê¹ÓÃÇ¿´óµÄSVDËã·¨½øÐÐ¾ØÕó·ÖÎö¡£ÎªÁËÈ·¶¨ºÏÊÊµÄÓÐÐ§Î¬¶È£¬Í¨¹ýÆæÒìÖµµÄÆ½·½µÄÖ±·½Í¼À´½øÐÐ¹Û²ì¡£Í¼5ª²2ÖÐÑÝÊ¾³ö¸÷ÆæÒìÖµµÄÖØÒªÐÔ¡£


Í¼5ª²2ÆæÒìÖµ½á¹ûÕ¹Ê¾


ÎªÁËÊµÏÖ¿ÉÊÓ»¯£¬Ñ¡ÔñÓÐÐ§Î¬¶ÈÊýÎª3¡£×îºó£¬½«Ñ¡ÔñµÚ2Î¬ºÍµÚ3Î¬½øÐÐ¿ÉÊÓ»¯¡£ÎÒÃÇ²»¶Ôµ¥´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕó½øÐÐÖÐÐÄ»¯£¬ÊÇÎªÁË±ÜÃâ½«µ¥´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕóÓÉÏ¡Êè¾ØÕó±äÎª³íÃÜ¾ØÕó¡£³íÃÜ¾ØÕó»áÔö¼ÓÄÚ´æµÄ¸ººÉºÍ¼ÆËãÁ¿¡£Òò´Ë²»¶Ôµ¥´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕó½øÐÐÖÐÐÄ»¯ºÍ·ÅÆúµÚ1Î¬µÄ×ö·¨¸ü¼Ó¸ßÐ§¡£
ÕâÀï¼ÆËã³öÁË3¸öÆæÒìÖµ£¬·Ö±ð¶ÔÓ¦×Å3¸öÎ¬¶È¡£Ã¿¸öµ¥´ÊµÄÕâ3¸öÎ¬¶ÈÓëÕâÐ©ÆæÒìÖµÏà¹Ø£¬µÚ1Î¬±íÊ¾¸Ãµ¥´ÊÔÚÓïÁÏ¿âÖÐµÄÆµ·±³Ì¶È£¬Òò´ËÃ»ÓÐÌ«´óÐÅÏ¢Á¿¡£ÀàËÆµØ£¬Ã¿ÆªÎÄÕÂÒ²ÓÐ3¸öÎ¬¶È·Ö±ð¶Ô×Å3¸öÆæÒìÖµ¡£ÈçÖ®Ç°ËùÊö£¬µÚ1Î¬·´Ó³ÁËÎÄÕÂËù°üº¬Ë÷Òý´ÊµÄÊýÁ¿£¬Òò´ËÐÅÏ¢²»´ó¡£½«¾ØÕó·Ö½â³É3¸ö¾ØÕó¡£¾ØÕóUÌá¹©ÁËÃ¿¸öµ¥´ÊÔÚÓïÒå¿Õ¼äµÄ×ø±ê£» ¾ØÕóVTÌá¹©ÁËÃ¿ÆªÎÄÕÂÔÚÓïÒå¿Õ¼äµÄ×ø±ê£» ÆæÒìÖµ¾ØÕóS¸æËßÎÒÃÇÓÐ´Êª²±êÌâ(»òÎÄÕÂ)¾ØÕó°üº¬¶àÉÙÓïÒå»òÓïÒå¿Õ¼äµÄÓÐÐ§Î¬¶ÈÊÇ¶àÉÙ¡£
ÔÚÈçÍ¼5ª²3ËùÊ¾µÄÈý¸ö¾ØÕóÖÐ£¬×óÆæÒìÏòÁ¿±íÊ¾´ÊµÄÒ»Ð©ÌØÐÔ£¬ÓÒÆæÒìÏòÁ¿±íÊ¾ÎÄµµµÄÒ»Ð©ÌØÐÔ£¬ÖÐ¼äµÄÆæÒìÖµ¾ØÕó±íÊ¾×óÆæÒìÏòÁ¿µÄÒ»ÐÐÓëÓÒÆæÒìÏòÁ¿µÄÒ»ÁÐµÄÖØÒª³ÌÐò£¬Êý×ÖÔ½´óÔ½ÖØÒª¡£³ý´ËÖ®Íâ£¬×óÆæÒìÏòÁ¿µÄµÚÒ»ÁÐ±íÊ¾Ã¿Ò»¸ö´ÊµÄ³öÏÖÆµ·±³Ì¶È£¬ËäÈ»²»ÊÇÏßÐÔµÄ£¬µ«ÊÇ¿ÉÒÔÈÏÎªÊÇÒ»¸ö´ó¸ÅµÄÃèÊö£¬ÀýÈç£¬bookÊÇ0£®15¶ÔÓ¦ÎÄµµÖÐ³öÏÖµÄ2´Î£¬investingÊÇ0£®74¶ÔÓ¦ÎÄµµÖÐ³öÏÖÁË9´Î£¬richÊÇ0£®36¶ÔÓ¦ÎÄµµÖÐ³öÏÖÁË3´Î¡£ÁíÍâ£¬ÓÒÆæÒìÏòÁ¿ÖÐµÄµÚÒ»ÐÐ±íÊ¾Ã¿Ò»ÆªÎÄµµÖÐ³öÏÖ´ÊË÷ÒýµÄ¸öÊýµÄÁ¿»¯£¬ÀýÈç£¬T6ÊÇ0£®49£¬³öÏÖÁË5¸öË÷Òý´Ê£¬T2ÊÇ0£®22£¬³öÏÖÁË2¸öË÷Òý´Ê¡£


Í¼5ª²3Èý¸ö¾ØÕó


ÎÒÃÇÓÃ²»Í¬µÄÑÕÉ«±íÊ¾Êý×Ö¡£ÈçÍ¼5ª²4ËùÊ¾£¬ÓÃÑÕÉ«À´±íÊ¾VT¾ØÕóµÄÖµ£¬Õâ¸öÑÕÉ«±íÊ¾µÄ¾ØÕóºÍÔ­VT¾ØÕó·´Ó³µÄÐÅÏ¢ÍêÈ«Ò»ÖÂ¡£Éî»ÒÉ«±íÊ¾¸ºÊý£¬Ç³»ÒÉ«±íÊ¾ÕýÊý£¬°×É«±íÊ¾0¡£Èç±êÌâ9£¬Æä3¸öÎ¬¶ÈÉÏµÄÖµ¶¼ÊÇÕýÊý£¬Òò´ËÏàÓ¦µÄÑÕÉ«¶¼ÊÇÇ³»ÒÉ«¡£


Í¼5ª²4ÑÕÉ«Ö±¹Û±íÊ¾¸÷±êÌâ¾ÛÀàÇé¿ö


ÓÃÕâÐ©ÑÕÉ«¶Ô¾ÛÀà½á¹û½øÐÐÑÕÉ«±ê×¢¡£ºöÂÔµÚ1Î¬±íÊ¾µÄÑÕÉ«£¬ÒòÎªËùÓÐÎÄÕÂÔÚ¸ÃÎ¬¶ÈÉÏ¶¼ÊÇ³ÈÉ«¡£Èç¹ûÖ»¿¼ÂÇÁ½¸öÎ¬¶È£¬Ôò¾ÛÀàµÄ½á¹ûÈÔÈ»²»ÊÇºÜÀíÏë£¬Ö÷ÒªÒ²Ö»·ÖÎªÁ½Àà£¬ËùÒÔÐèÒª½áºÏÈý¸öÎ¬¶È½øÐÐ¾ÛÀà¡£¼ÓÉÏµÚ3Î¬£¬ÎÒÃÇÄÜÓÃÏàÍ¬µÄ·½·¨Çø·Ö³ö²»Í¬µÄÓïÒåÈº¡£ÔÚµÚ3Î¬ÉÏ£¬±êÌâ6ÊÇÀ¶É«£¬¶ø±êÌâ7ºÍ±êÌâ9ÒÀÈ»ÊÇ³ÈÉ«µÄ¡£Í¨¹ýÕâÖÖ·½·¨½«±êÌâ¼¯·Ö³É4¸öÈº£¬Èç±í5ª²7ËùÊ¾¡£


±í5ª²7±êÌâ¼¯Èº


Î¬¶È2
Î¬¶È3
±êÌâÐòºÅ
³ÈÉ«
³ÈÉ«
7,9
³ÈÉ«
À¶É«
6
À¶É«
³ÈÉ«
2,4,5,8
À¶É«
À¶É«
1,3

×îºó£¬½«¾ØÕóUºÍVµÄµÚ2,3Î¬»­ÔÚÒ»¸ö¶þÎ¬XYÆ½ÃæÖÐ£¬ÆäÖÐ£¬X±íÊ¾µÚ2Î¬£¬Y±íÊ¾µÚ3Î¬£¬²¢½«ËùÓÐË÷Òý´ÊºÍ±êÌâ»­ÔÚ¸ÃÆ½ÃæÖÐ¡£ÈçÍ¼5ª²5ËùÊ¾£¬µ¥´Ê¡°book¡±µÄ×ø±êÖµÎª (0£®15£¬-0£®27£¬0£®04)£¬ºöÂÔµÚ1Î¬µÄÖµ 0£®15 ºó£¬¡°book¡± µÄ×ø±êµãÎª (X=-0£®27£¬Y=0£®04)¡£±êÌâµÄ»­·¨Ò²ÊÇÀàËÆµÄ£¬ÈçÍ¼5ª²5ËùÊ¾¡£


Í¼5ª²5¾ÛÀà½á¹ûÕ¹Ê¾


Í¨¹ý¿ÉÊÓ»¯·½·¨¿ÉÒÔ½«µ¥´ÊºÍ±êÌâ¶¼»­ÔÚÍ¬Ò»¸ö¿Õ¼ä¡£ÕâÖÖ×ö·¨²»½öÄÜÊµÏÖ±êÌâµÄ¾ÛÀà£¬»¹ÄÜÍ¨¹ýË÷Òý´Ê±ê×¢³ö²»Í¬Àà´ØµÄÒâÒå¡£ÀýÈç£¬×óÏÂµÄ´Ø°üº¬±êÌâ1ºÍ±êÌâ2£¬ÕâÁ½¸ö±êÌâ¾ù¹ØÓÚstock market investing¡£µ¥´Ê¡°stock¡±ºÍ¡°market¡±Ã÷ÏÔ°üº¬ÔÚ±êÌâ1ºÍ±êÌâ2µÄ´ØÖÐ£¬ÕâÒ²ºÜÈÝÒ×Àí½âÕâ¸öÓïÒå´ØËùÖ¸´úµÄÒâÒå¡£ÖÐ¼äµÄ´Ø°üº¬±êÌâ2,4,5,8¡£ÆäÖÐ£¬±êÌâ2,4,5Óëµ¥´Ê¡°value¡± ºÍ¡°investing¡±´ú±íµÄÒâË¼×îÎª½Ó½ü£¬Òò´Ë£¬±êÌâ2,4,5µÄÓïÒå¿É±íÊ¾Îª¡°value¡± ºÍ¡°investing¡±¡£
°´ÕâÑù¾ÛÀà³öÏÖµÄÐ§¹û£¬¿ÉÒÔÌáÈ¡ÎÄµµ¼¯ºÏÖÐµÄ½üÒå´Ê£¬ÕâÑùµ±ÓÃ»§¼ìË÷ÎÄµµµÄÊ±ºò£¬ÊÇÓÃÓïÒå¼¶±ð(½üÒå´Ê¼¯ºÏ)È¥¼ìË÷ÁË£¬¶ø²»ÊÇÖ®Ç°µÄ´ÊµÄ¼¶±ð¡£ÕâÑù×öÒ»ÊÇ¼õÉÙÁË¼ìË÷¡¢´æ´¢Á¿£¬ÒòÎªÕâÑùÑ¹ËõµÄÎÄµµ¼¯ºÏºÍPCAÊÇÒìÇúÍ¬¹¤µÄ£» ¶þÊÇ¿ÉÒÔÌá¸ßÓÃ»§ÌåÑé£¬ÓÃ»§ÊäÈëÒ»¸ö´Ê£¬ÎÒÃÇ¿ÉÒÔÔÚÕâ¸ö´ÊµÄ½üÒå´ÊµÄ¼¯ºÏÖÐÈ¥ÕÒ£¬ÕâÊÇ´«Í³µÄË÷ÒýÎÞ·¨×öµ½µÄ¡£
5£®6»ùÓÚWord2VecµÄÎÄ±¾¾ÛÀà·½·¨
5£®6£®1´ÊÏòÁ¿¸ÅÊö

¼ÆËã»úÏëÒªÍ¨¹ý»úÆ÷Ñ§Ï°Ëã·¨´¦Àí×ÔÈ»ÓïÑÔ£¬¾ÍÐèÒª½«×ÔÈ»ÓïÑÔ·ûºÅ»¯¡¢ÊýÑ§»¯¡¢×ª»»³É»úÆ÷ÄÜÊ¶±ðµÄ¸ñÊ½£¬ÆäÖÐ£¬´ÊÏòÁ¿¾ÍÊÇÄ¿Ç°±»¹ã·ºÊ¹ÓÃµÄ·½Ê½¡£´ÊÏòÁ¿ÊÇÓÉHintonºÍWilliamsµÈÌá³ö²¢ÍÆ¹ãµÄ£¬ÏÖÔÚ´ÊÏòÁ¿ÒÑ¾­±»¹ã·ºÊ¹ÓÃÔÚ¸÷ÖÖÎÄ±¾ÍÚ¾òÈÎÎñÖÐ£¬¼«´óµØ´Ù½øÁËNLPÁìÓòµÄ·¢Õ¹¡£´ÊÏòÁ¿ÓÐÁ½ÖÖ±íÊ¾ÐÎÊ½£¬Ò»¸öÊÇ³¤ÏòÁ¿£¨ÓÖ³ÆÎªÏ¡ÊèÏòÁ¿£©£¬Ò»¸öÊÇ¶ÌÏòÁ¿£¨ÓÖ³ÆÎªÃÜ¼¯ÏòÁ¿£©¡£
Ï¡ÊèÏòÁ¿£¬ÓÖ³ÆÎª¶ÀÈÈ±àÂëÏòÁ¿¡£¶ÀÈÈ±àÂë£¬¹ËÃûË¼Òå¾ÍÊÇÖ¸ÏòÁ¿ÖÐÖ»ÓÐÒ»¸öÈÈµã£¬ÈÈµãµÄÎ»ÖÃ¾ÍÊÇ´ËÏòÁ¿±í´ïµÄº¬Òå£¬²¢ÇÒÏòÁ¿Ö®¼äÊÇÏà»¥¶ÀÁ¢µÄ¡£¶ÀÈÈ±àÂëÏòÁ¿ÖÐÖ»ÓÐ0ºÍ1£¬1¶ÔÓ¦µÄÎ»ÖÃ¾ÍÊÇÌØÕ÷´ÊÔÚÓïÁÏ´ÊµäÖÐµÄÎ»ÖÃ¡£¶ÔÓÚ£Û¡°Ë®¹û¡±£¬¡°Ïã½¶¡±£¬¡°ÊÖ»ú¡±£ÝÕâ¸ö´ÊµäÀ´Ëµ£¬Èô¡°Ë®¹û¡±µÄ´ÊÏòÁ¿ÊÇ£Û1,0,0£Ý,ÄÇÃ´¡°Ïã½¶¡±¶ÔÓ¦µÄ´ÊÏòÁ¿¾ÍÊÇ£Û0,1£¬0£Ý¡£ÕâÖÖÏòÁ¿±íÊ¾·½·¨ºÜÈÝÒ×ÊµÏÖ£¬¶ÔÓÚÓïÁÏ¿â±È½ÏÐ¡µÄÊý¾Ý¼¯À´Ëµ£¬ºÜÓÐÑ§Ï°ÒâÒå£¬µ«ÊÇ¶ÔÓÚ´óÊý¾Ý¼¯£¬ÕâÖÖ·½·¨»áÔì³ÉÏòÁ¿µÄÎ¬ÊýÔÖÄÑ£¬²¢ÇÒ¼ÆËã¸´ÔÓ£¬ÐÔÄÜµÍÏÂ£» Æä´Î£¬¶ÔÓÚ½üÒå´ÊËüÎÞ·¨Çø±ð³öÀ´¡£ÈçË®¹ûºÍÏã½¶ÏÔÈ»ÓÐ·Ç³£½ôÃÜµÄ¹ØÏµ£¬µ«×ª»»ÎªÏòÁ¿Ö®ºó£¬¾Í¿´²»³öÁ½ÕßÖ®¼äµÄ¹ØÏµÁË£¬ÒòÎªÕâÁ½¸öÏòÁ¿Ïà»¥Õý½»¡£
ÃÜ¼¯ÏòÁ¿Ò²¾ÍÊÇ·Ö²¼Ê½ÏòÁ¿ (Distributed Representation)£¬Ïàµ±ÓÚ°ÑÔ­À´µÄ¶ÀÈÈ±àÂëÏòÁ¿Ñ¹Ëõ³ÉÒ»¸ö³¤¶È¸ü¶ÌµÄÏòÁ¿£¬ÏòÁ¿ÖÐµÄÊýÖµ²»ÔÙÖ»ÓÐ0ºÍ1£¬¶øÊÇÈÎÒâÊý×Ö¡£·Ö²¼Ê½ÏòÁ¿Í¨¹ýÊäÈëÓïÁÏÖÐÃ¿¸ö´ÊµÄ¶ÀÈÈ±àÂë£¬¸ù¾ÝÌØÕ÷´ÊµÄÉÏÏÂÎÄ»·¾³£¬½«Ã¿¸ö´ÊµÄ±àÂëÏòÁ¿ÑµÁ·³É¾ßÓÐÏàÍ¬³¤¶ÈµÄµÍÎ¬ÊµÊýÏòÁ¿£¬ÕâÖÖ·½·¨ºÜºÃµØ±í´ïÁË½üÒå´ÊÖ®¼äµÄ¹ØÏµ¡£»¹ÊÇÖ®Ç°µÄÀý×Ó£Û¡°Ë®¹û¡±£¬¡°Ïã½¶¡±£¬¡°ÊÖ»ú¡¯¡¯£Ý£¬¼ÙÉè¾­¹ýÑµÁ·ºó£¬¡°Ë®¹û¡±¶ÔÓ¦µÄÏòÁ¿¿ÉÄÜÊÇ£Û1,0,1,1,0£Ý,¶ø¡°Ïã½¶¡±¶ÔÓ¦µÄÏòÁ¿¿ÉÄÜÊÇ£Û1,0£¬1,0,0£Ý£¬¡°ÊÖ»ú¡±¶ÔÓ¦µÄÏòÁ¿¿ÉÄÜÊÇ£Û0,1,0,0,1£Ý¡£ÕâÑù¡°Ë®¹û¡±ÏòÁ¿³ËÒÔ¡°Ïã½¶¡±ÏòÁ¿=2£¬¶ø¡°Ë®¹û¡±ÏòÁ¿³ËÒÔ¡°ÊÖ»ú¡±ÏòÁ¿=0¡£ÕâÑù¾ÍºÜÃ÷ÏÔ¿´µ½Ë®¹ûºÍÏã½¶ÓÐºÜ½ôÃÜµÄÁªÏµ£¬¶øË®¹ûºÍÊÖ»ú¾ÍÃ»ÓÐÊ²Ã´¹ØÏµÁË¡£
5£®6£®2Word2VecÓïÑÔÄ£ÐÍ
Word2VecÊÇMikolovÔÚ2013ÄêÌá³öµÄ½«ÌØÕ÷´Ê×ª»»Îª´ÊÏòÁ¿µÄÄ£ÐÍ¡£Ä£ÐÍ¸ù¾ÝÌØÕ÷´ÊµÄÉÏÏÂÎÄÔ¤²âÌØÕ÷µÄ´ÊÏòÁ¿£¬ÓÉÓÚ´ÊÏòÁ¿ÓÃµÍÎ¬ÊµÊý±íÊ¾£¬¿´ÆðÀ´ÎÞÒâÒåµÄÏòÁ¿È´ÔÌº¬·á¸»µÄÐÅÏ¢£¬Ëü±£³ÖÁËÍ¬Òå´ÊÖ®¼äÇ¿µÄÏà¹ØÐÔ£¬²¢ÇÒºÜºÃµØ¸ù¾ÝÌØÕ÷´ÊÍÆ²âÆäËùÔÚµÄÉÏÏÂÎÄ»·¾³¡£Í¼5ª²6Õ¹ÏÖÁËWord2VecµÄËã·¨Ä£ÐÍ¡£


Í¼5ª²6Word2VecÄ£ÐÍ


CBOWÄ£ÐÍºÍSkipª²gramÄ£ÐÍ¾ù°üº¬ÊäÈë²ã¡¢Í¶Ó°²ãºÍÊä³ö²ã¡£CBOWÄ£ÐÍµÄÊäÈëÊÇÌØÕ÷´ÊµÄÉÏÏÂÎÄ»·¾³£¬ÆäÖÐÃ¿¸ö´ÊµÄÊäÈëÊÇ´Ê¶ÔÓ¦µÄ¶ÀÈÈ±àÂë£¬¾­¹ýÄ£ÐÍ¼ÆËãÓ³Éä³ÉµÍÎ¬µÄÊµÊýÏòÁ¿£¬Ö®ºóÍ¨¹ý±ä»»¾ØÕó£¬Êä³öÔ¤²â´ÊµÄ¶ÀÈÈ±àÂëÏòÁ¿¡£¶øSkipª²gramÄ£ÐÍÊäÈëµÄÊÇÌØÕ÷´ÊµÄ¶ÀÈÈ±àÂë£¬¾­¹ý¾ØÕó±ä»»Ö®ºó£¬Êä³öµÄÊÇÌØÕ÷´ÊÖÜÎ§¿ÉÄÜ³öÏÖ´ÊµÄ¶ÀÈÈ±àÂë£¬¶ÀÈÈ±àÂëÖÐ1µÄÎ»ÖÃÖ¸Ê¾ÁË´ÊµäÖÐ¶ÔÓ¦µÄ´Ê¡£ÆäÖÐ£¬Context(w)±íÊ¾ÌØÕ÷´ÊµÄÉÏÏÂÎÄ£¬ÓÉÇ°ºóc¸ö´Ê¹¹³É£» Í¶Ó°²ãÊÇ¶ÔÊäÈë²ãµÄÃ¿¸ö´Ê¶ÔÓ¦µÄ¶ÀÈÈ±àÂëÏòÁ¿½øÐÐ¼òµ¥ÇóºÍ£¬ÆäÖÐÓÐ±ä»»¾ØÕó£» Êä³ö²ã¶ÔÓ¦Ò»¿ÃHuffmanÊ÷£¬¸ÃÊ÷ÒÔÃ¿¸ö´ÊÔÚÓïÁÏÖÐ³öÏÖµÄÈ¨Öµ¹¹Ôì³öÀ´¡£
5£®6£®3Á¬Ðø´Ê´üÄ£ÐÍ
Á¬Ðø´Ê´üÄ£ÐÍ(Continuous Bagª²Ofª²Wordmodel£¬CBOW)ÊÇÍ¨¹ýÄ³¸öÌØÕ÷´ÊµÄÉÏÏÂÎÄ»·¾³À´Ô¤²âÕâ¸öÌØÕ÷´Ê¡£¼ÙÉèÓÐÒ»¸ö¾ä×Ó½á¹¹Îªwi-2wi-1wiwi+1wi+2£¬
CBOW¾ÍÊÇÍ¨¹ýÊäÈëwi-2wi-1wi+1wi+2µÄ´ÊÏòÁ¿£¬À´Ô¤²âwµÄ´ÊÏòÁ¿¡£Æä½á¹¹ÈçÍ¼5ª²7ËùÊ¾¡£


Í¼5ª²7CBOW½á¹¹

ÆäÖÐ£¬V±íÊ¾ÌØÕ÷´Ê´ÊµäµÄ´óÐ¡£¬C±íÊ¾´°¿ÚµÄ´óÐ¡¡£x1k,x2k,¡­,xck±íÊ¾´ýÔ¤²âµÄÌØÕ÷´ÊÉÏÏÂÎÄ»·¾³´ÊÓïµÄ¶ÀÈÈ±àÂëÏòÁ¿¡£¶ÔÓÚÃ¿Ò»¸öÊäÈëµÄÏòÁ¿£¬¾­¹ý¾ØÕóWV¡ÁNµÄ±ä»»ºó¶ÔÓ¦µ½Òþº¬²ãµÄÒ»¸ö·ÖÁ¿ÉÏ¡£Òþº¬²ãÊÇÒ»¸öNÎ¬µÄÏòÁ¿h£¬Êä³ö²ãÊÇÔ¤²âÌØÕ÷´ÊyµÄ¶ÀÈÈ±àÂëµÄÏòÁ¿¡£CBOWµÄ¹«Ê½ÈçÏÂ¡£

P(Wi¦òWi-k,¡­,Wi-1,Wi+1,¡­,Wi+k)(5ª²7)

Wi±íÊ¾Ò»¸öµ¥´Ê£¬Wi-k,¡­,Wi-1,Wi+1,¡­,Wi+kÊÇÆäÁÚ¾Ó£¬¸ù¾ÝÆäÁÚ¾ÓµÄ¶ÀÈÈ±àÂëÏòÁ¿À´Ô¤²âËü×Ô¼º³öÏÖµÄ¸ÅÂÊ¡£ÔÚÔ¤²âµÄ¹ý³ÌÖÐ£¬´ÓHuffmanÊ÷µÄ¸ù½áµã³ö·¢µ½Ä³¸öÒ¶×Ó½áµãµÄÂ·¾¶ÉÏ£¬Í¨¹ý¶þ·ÖÀà·½·¨À´¾ö¶¨Â·¾¶ÊÇÍù×ó·ÖÖ§×ß»¹ÊÇÍùÓÒ·ÖÖ§×ß¡£
ÓÒ·ÖÖ§£º 

¦Ò(XT¢`¦È)=11+e£­XT¢`¦È(5ª²8)


×ó·ÖÖ§£º 

1£­¦Ò(XT¦Ø¦È)(5ª²9)


¹«Ê½ÖÐ£¬¦È´ú±íµ±Ç°·ÇÒ¶½áµãµÄ´ÊÏòÁ¿¡£
¶ÔÓÚHuffmanÊ÷ÖÐµÄÈÎÒâÒ»ÌõÂ·¾¶Pw£¬´æÔÚlw-1´Î·ÖÖ§£¬½«Ã¿´Î·ÖÖ§¿´³ÉÒ»¸ö¶þ·ÖÀà£¬Ã¿´Î·ÖÀà¶ÔÓ¦Ò»¸ö¸ÅÂÊ£¬ÄÇ×îºóÔ¤²âÌØÕ÷´ÊµÄ¸ÅÂÊ½«ÊÇÕâÐ©¸ÅÂÊÁ¬³Ë£¬¼´


Í¼5ª²8Skipª²gramÄ£ÐÍ


p(w|Context(w))=¡Çlwj=1p(dwj|Xw,¦Èwj£­1)(5ª²10)

ÆäÖÐ£º 

p(dwj|Xw,¦Èwj£­1)=¦Ò(XT¢`¦Èj£­1)dwj=0

1£­¦Ò(XT¢`¦Èj£­1)dwj=0(5ª²11)

5£®6£®4Skipª²gramÄ£ÐÍ
Skipª²gramÄ£ÐÍÊÇÍ¨¹ýÒ»¸öÌØ¶¨µÄÌØÕ÷´ÊÀ´Ô¤²âÕâ¸ö´ÊµÄÖÜÎ§ÁÚ¾Ó¿ÉÄÜ³öÏÖµÄ´Ê£¬Èç¹û½«Ô¤²â´°¿Ú¶¨Îªk£¬ÔòËüµÄÔ¤²â´óÐ¡Îª2k-l¡£¼ÙÉèÕâ¸öÌØ¶¨´Ê´°¿ÚµÄ´óÐ¡ÎªC£¬ÔòÊä³ö²ãÎªwiµÄÉÏÏÂÎÄ{w0,w1,¡­,w2k}¡£ÀýÈç£¬¿¼ÂÇÕâ¸ö¾ä×Ó¡°I drove my car to the store¡±£¬Ò»¸öÇ±ÔÚµÄÑµÁ·Ä£ÐÍ¾ÍÊÇ½«¡°car¡±×÷ÎªÊäÈë£¬ÆäËû´Ê×÷ÎªÊä³ö£¬ÕâÐ©´Ê¶¼ÊÇÒÔoneª²hotÏòÁ¿±àÂë¸ñÊ½£¬ÎÞÂÛÊÇÊäÈë»¹ÊÇÊä³ö£¬ÏòÁ¿µÄ³¤¶ÈÊÇ×ÖµäµÄ´óÐ¡V¡£Skipª²gramÄ£ÐÍµÄÉñ¾­ÍøÂçÈçÍ¼5ª²8ËùÊ¾¡£
Í¼5ª²8ÖÐ£¬x´ú±íÊäÈë£¬Ö¸µÄÊÇÌØÕ÷´ÊµÄ¶ÀÈÈ±àÂëÏòÁ¿¡£{y1,y2,¡­,yc }Ò²ÊÇ¶ÀÈÈ±àÂë¸ñÊ½µÄÏòÁ¿£¬×÷ÎªÄ£ÐÍµÄÊä³ö¡£yiÖÐÔªËØÎª1µÄÎ»ÖÃ±íÊ¾¸ÃÎ»ÖÃÓÐ´ÊÓï£¬ÔªËØÎª0±íÊ¾¸ÃÎ»ÖÃÃ»ÓÐ´ÊÓï¡£¾ØÕóWÊÇÒ»¸öV¡ÁNµÄÈ¨ÖØ¾ØÕó£¬Á¬½Ó×ÅÊäÈë²ãºÍÒþº¬²ã£¬Ëü°üº¬´ÊµäÖÐÈ«²¿´ÊÓïµÄÏòÁ¿±àÂëÐÅÏ¢¡£Ã¿¸öÊä³öµÄ´ÊÏòÁ¿¶¼¹ØÁª×ÅW¡ÁVµÄÈ¨ÖØ¾ØÕóW¡ä¡£Skipª²gramµÄ¹«Ê½ÈçÏÂ£º 

p(wi|wt),t-k¡Üi¡Üt+k(5ª²12)

¶ÔÓÚSkipª²gramÄ£ÐÍÀ´Ëµ£¬Êä³ö²ãÒ²ÊÇÒ»¿ÃHuffmanÊ÷£¬Ò²ÊÇÍ¨¹ý¶þ·ÖÀà·½·¨Ô¤²âÆäÌØÕ÷´ÊµÄÉÏÏÂÎÄ¡£¹«Ê½ÈçÏÂ£º 

p(Context(w)£Üw)=¡Çu¡ÊContext(w)p(u|w)(5ª²13)

ÆäÖÐ,p(u|w)=¡Ælwj=2p(duj|v(w),¦Èuj-1)¡£
5£®6£®5»ùÓÚWord2VecµÄÎÄ±¾¾ÛÀà¾ÙÀý
Word2Vec¹¤¾ßµÄÌá³öºÜºÃµØ½â¾öÁË¶ÀÈÈ´ÊÏòÁ¿Á½Á½Õý½»¶øÎÞ·¨×¼È·±í´ï²»Í¬´ÊÖ®¼äµÄÏàËÆ¶ÈÇÒ»á²úÉúÒ»¸öÎ¬¶ÈºÜ¸ßÓÖÊ®·ÖÏ¡ÊèµÄÌØÕ÷¾ØÕó¶øÄÑÒÔÓ¦ÓÃÊµ¼ÊµÄÎÊÌâ£¬¹Ê¶ø¿ÉÒÔÀûÓÃWord2Vec½øÐÐÎÄ±¾±íÊ¾£¬½ø¶ø½áºÏTFª²IDFÓÃÓÚ½øÐÐÎÞ¼à¶½µÄ¶ÌÎÄ±¾µÄÎÄ±¾¾ÛÀà¡£
¼ò¶øÑÔÖ®£¬¿ÉÒÔÀûÓÃ TFª²IDF ·½·¨ÌáÈ¡¶ÌÎÄ±¾ÖÐµÄ TOP N¹Ø¼ü´Ê£¬×÷Îª¶ÌÎÄ±¾µÄÌØÕ÷´Ê¼¯ºÏ£¬ÓÐÐ§±ÜÃâÌØÕ÷´ÊÏòÁ¿Î¬¶È¹ý¸ß¡¢Êý¾ÝÏ¡Êè¼°¼ÆËãÐ§ÂÊµÍÐ§µÈÎÊÌâ¡£ÁíÒ»·½Ãæ£¬¿ÉÒÔÊ¹ÓÃWord2Vec½«ÌØÕ÷´Ê±íÊ¾ÎªÒ»ÖÖ·Ö²¼Ê½µÄµÍÎ¬ÊµÊýÏòÁ¿£¬Ê¹µÃÓïÒåÏà½üµÄ´ÊÓïÔÚ¾àÀëÉÏ¸ü¼Ó½Ó½ü£¬ÓÐÐ§½â¾öÁËµ¥¶ÀÊ¹ÓÃ TFª²IDF ·½·¨´æÔÚµÄÓïÒå¶ªÊ§ÎÊÌâ¡£
»ùÓÚWord2Vec¶ÌÎÄ±¾µÄÎÄ±¾¾ÛÀàÁ÷³ÌÈçÍ¼5ª²9ËùÊ¾¡£


Í¼5ª²9»ùÓÚWord2Vec¶ÌÎÄ±¾µÄÎÄ±¾¾ÛÀàÁ÷³ÌÍ¼


¸ù¾ÝÈçÉÏ·ÖÎö£¬¿ÉÒÔ×Ü½á»ùÓÚWord2VecÎÄ±¾¾ÛÀàµÄÖ÷Òª²½ÖèÈçÏÂ¡£
1. ÎÄ±¾Ô¤´¦Àí
ÔÚ¶ÔÎÄ±¾·Ö´Êºó¡¢¹Ø¼ü´ÊÌáÈ¡Ö®Ç°£¬ÐèÒª¶ÔÎÄ±¾½øÐÐÔ¤´¦Àí¡£¾ßÌå´¦Àí²½ÖèÈçÏÂ£º ²ÉÓÃÍ£ÓÃ´ÊÁÐ±í£¬¹ýÂËµôÎÄ±¾ÖÐ¶ÔÓ¦ÓÚÍ£ÓÃ´ÊÁÐ±íÖÐµÄ´ÊÏî¡£
2. ÀûÓÃTFª²IDF½øÐÐÌØÕ÷´ÊÌáÈ¡
ÌØÕ÷´ÊÊÇÖ¸ÌáÈ¡ÄÜ¹»´úÌæ¶ÌÎÄ±¾ÌØÕ÷µÄ´ÊÓï¡£¾ßÌå¶øÑÔ£¬Õë¶ÔÃ¿¸ö¶ÌÎÄ±¾£¬Ê×ÏÈ¼ÆËã¸ÃÎÄ±¾ÖÐ¸÷·Ö´ÊµÄ TFª²IDF Öµ£» Æä´Î£¬Îª¾¡¿ÉÄÜ¼õÉÙÎÄ±¾ÌØÕ÷ÏòÁ¿µÄÎ¬¶È£¬°ÑÃ¿Ò»¸öÎÄ±¾ÖÐ¼ÆËãµÃµ½µÄ¸÷·Ö´ÊµÄTFª²IDFÖµ½øÐÐÅÅÐò£¬´ÓÖÐÑ¡È¡TFª²IDFÖµTOP N¿¿Ç°µÄ´ÊÏî×÷ÎªÎÄ±¾µÄÌØÕ÷´Ê¼¯ºÏ£¬ÓÃÓÚ±íÊ¾¸ÃÎÄ±¾£¬ÆäÖÐ£¬N Îª°Ù·Ö±È¡£
3. ÀûÓÃWord2VecµÃµ½ÎÄ±¾¿âÖÐÃ¿¸ö´ÊÓïµÄ´ÊÏòÁ¿±íÊ¾
ÓÉÓÚSkipª²gramÄ£ÐÍÔÚÓïÒåºÍÓï·¨Ô¤²âµÄ×¼È·ÂÊ·½Ãæ±È½Ï¾ùºâÇÒÐÔÄÜÒªºÃ£¬Òò´ËÊ¹ÓÃWord2VecµÄSkipª²gramÄ£ÐÍ£¬Í¨¹ýHSª²Huffman¶ÔÅÀÈ¡µÄÍøÂç¶ÌÎÄ±¾ÓïÁÏ½øÐÐ´ÊÏòÁ¿Ä£ÐÍÑµÁ·£¬¸ù¾Ýµ±Ç°ÊäÈë²ãµÄ´ÊÏî£¬Ô¤²âÉÏÏÂÎÄ´ÊÏî³öÏÖµÄ¸ÅÂÊ£¬²¢ÇÒÑ¡ÔñÊ±¼ä´°¿ÚÎª2¡£
Í¨¹ýÑµÁ·µÃµ½´ÊÏòÁ¿Ä£ÐÍ¿ÉÒÔµÃµ½ÌØÕ÷´ÊµÄÏòÁ¿£¬×é³ÉÌØÕ÷´ÊÏòÁ¿¾ØÕóX¡ÊRmT£¬ÆäÖÐ£¬mÎªÌØÕ÷´ÊiÔÚmÎ¬ÏòÁ¿¿Õ¼äµÄÏòÁ¿£¬T±íÊ¾ÌØÕ÷´ÊµÄÊýÄ¿¡£ÓÉ´Ë£¬ÉèÁ½¸öÌØÕ÷´ÊµÄÌØÕ÷ÏòÁ¿·Ö±ðÎª xi£¬xj¡ÊX£¬ÔòÁ½¸öÌØÕ÷´ÊÖ®¼äµÄÏàËÆ¶È¿ÉÒÔÓÃÅ·ÊÏ¾àÀëÀ´¼ÆËã£¬ÖµÔ½Ð¡£¬ËµÃ÷ÕâÁ½¸öÌØÕ÷´Ê¼äµÄÓïÒå¾àÀëÔ½Ð¡£¬Á½¸öÌØÕ÷´ÊÓïÒåÔ½ÏàËÆ¡£
4. ÎÄ±¾ÏàËÆ¶È¼ÆËã
ÀûÓÃWord2VecµÃµ½¶ÌÎÄ±¾µÄÌØÕ÷ÏòÁ¿ÒÔºó£¬½ÓÏÂÀ´¾Í¿ÉÒÔ½øÐÐÎÄ±¾ÏàËÆ¶È¼ÆËã£¬ÎªÎÄ±¾¾ÛÀà×ö×¼±¸¡£Êµ¼ÊÉÏ£¬¼ÆËãÎÄ±¾µÄÏàËÆ¶È£¬ÒÑ¾­±»×ª»»Îª¼ÆËãÌØÕ÷´ÊÏòÁ¿¼äµÄÏàËÆ¶È¡£ÏÂÃæ²ÉÈ¡µÄ¾àÀëº¯ÊýÊÇKusnerµÈÌá³öµÄWMD(Word Mover¡¯s Distance)¡£WMD¾ßÓÐÐ§¹û³öÉ«¡¢ÎÞ¼à¶½¡¢Ä£ÐÍ¼òµ¥¡¢¿É½âÊÍÐÔ¡¢Áé»îÐÔµÈÓÅµã£¬²¢ÇÒ³ä·ÖÀûÓÃÁËWord2VecµÄÁìÓòÇ¨ÒÆÄÜÁ¦¡£
WMDµÄºËÐÄË¼Ïë·Ç³£¼òµ¥£¬¿ÉÒÔ°ÑÌØÕ÷ÎÄ±¾µÄÏàËÆ¶È¼ÆËã¿´³ÉÒ»¸öÔËÊäÎÊÌâ£º ¼ÆËã½«²Ö¿â1µÄ»õÎïÒÆ¶¯µ½²Ö¿â2µÄ×îÐ¡¾àÀë£¬×÷ÎªÁ½¸öÎÄ±¾µÄÏàËÆ¶È£¬¶øËùÎ½¡°²Ö¿â¡±ÖÐµÄ¡°»õÎï¡±Ö¸µÄÊÇÎÄ±¾ÖÐµÄÌØÕ÷´Ê¡£
Í¼5ª²10ÊÇWMDµÄÒ»¸öÓ¦ÓÃ¾ÙÀýÍ¼£¬Í¨¹ýWMDËã·¨¿ÉÒÔµÃ³ö£¬ÎÄµµ1ÖÐµÄObama¡¢speaks¡¢IllinoisºÍmedia·Ö±ðÓëÎÄµµ2ÖÐµÄPresident¡¢greets¡¢ChicagoºÍpressÓïÒåÏà½ü¡£


Í¼5ª²10WMDµÄÓ¦ÓÃ¾ÙÀýÍ¼


WMDËã·¨ÓÃÒÔÉÏºËÐÄË¼Ïë½«ÎÄ±¾ÓïÒåÏàËÆ¶ÈµÄÎÊÌâ×ª»»³ÉÁËÒ»¸öÏßÐÔ¹æ»®ÎÊÌâ£¬Îª×îÓÅ»¯ÎÊÌâ¡£
ÓÉWord2VecÑµÁ·ºóµÃµ½µÄÌØÕ÷´ÊÏòÁ¿¾ØÕóX¡ÊRmT£¬ÆäÖÐË÷ÒýÖµÎªiµÄ´ÊxiºÍÏàÓ¦µÄË÷ÒýÖµÎªjµÄ´ÊxjµÄ¾àÀëÎªÅ·ÊÏ¾àÀë¡£

ci,j=¡¬xi-xj¡¬2(5ª²14)


¶ø´ý·ÖÀàµÄÄ³ÌõÎÄ±¾¿ÉÒÔÓÃÒ»¸öÏ¡ÊèÏòÁ¿d¡ÊRn×÷Îª´Ê´ü±íÊ¾£¬Èô¸ÃÎÄ±¾ÖÐ´ÊiµÄ³öÏÖÆµÂÊÎªci£¬ÔòdµÄµÚiÎ»ÊÇµÚi¸ö´ÊµÄ´ÊÆµdi£¬¼´ 

di=ci¡Ænj=1cj(5ª²15)

¹ÊÒýÈë´ÊÒÆ¾àÀë(WMD)¼´

¡Æni,j=1Tijci,j(5ª²16)

ÆäÖÐ£¬Tij±íÊ¾Ä³Á½¸öÎÄ±¾ÖÐÌØÕ÷´ÊxiÒÆ¶¯µ½xjµÄÊýÖµ£¬ÐèÒªÂú×ãÒÔÏÂÔ¼ÊøÌõ¼þ£º   

¡Æni,j=1Tij=diªÐi¡Ê1,2,¡­£¬n(5ª²17)
¡Æni,j=1Tij=djªÐj¡Ê1,2,¡­£¬n(5ª²18)

×îºóÇó½âÆä×îÐ¡Öµ¼´¿É¡£

minT¡Ý0¡Æni,j=1Tijci,j(5ª²19)

5. Kª²means¾ÛÀà
Ê¹ÓÃKª²meansËã·¨¶ÔÎÄ±¾¼¯½øÐÐ¾ÛÀà·ÖÎö£¬ÊäÈëÓû·ÖÀàµÄ¶ÌÎÄ±¾¼¯£¬ÒÔÆÚµÃµ½k¸öÀà´Ø¼¯ºÏ¡£
¾­¹ýÇ°Êö²½ÖèµÃµ½»ùÓÚÌØÕ÷´ÊÏòÁ¿µÄ¶ÌÎÄ±¾¼¯ºÏD={d¡ä1,d¡ä2,¡­,d¡än}£¬Éè¶¨ kµÄ¾ßÌåÖµ£¬´ÓDÖÐËæ»úÑ¡Ôñk¸ö¶ÌÎÄ±¾×÷Îª¾ÛÀàËã·¨µÄ³õÊ¼ÖÊÐÄ£» ¼ÆËãÃ¿¸ö¶ÌÎÄ±¾ d¡äjµ½k¸öÖÊÐÄµÄÎÄ±¾ÏàËÆ¶È£¬Ñ¡Ôñ×î¶Ì¾ÛÀàµÄÖÊÐÄ×÷Îª¸ÃÎÄ±¾µÄ´Ø¼¯ºÏ¡£ÖØÐÂ¼ÆËãÀà´ØÖÐËùÓÐ¶ÌÎÄ±¾µÄ¾àÀëÆ½¾ùÖµµÃµ½ÐÂµÄÖÊÐÄ£¬È¡µ½ÖÊÐÄ×î½üµÄÎÄ±¾×÷ÎªÐÂµÄÖÊÐÄ£» Ñ­»·ÒÔÉÏ¼¸²½Ö±µ½ÖÊÐÄ²»ÔÙ·¢ÉúÈÎºÎ±ä»¯£¬Êä³ök¸öÀà´Ø¼¯ºÏ¡£
±¾´ÎÊµÑéÑ¡È¡µÄÊý¾Ý¼¯ÊÇ20ª²newsgroup¡¢3CphysÁ½ÖÖÓ¢ÎÄÊý¾Ý¼¯ºÍÍ¨¹ýÍøÂçÅÀÈ¡µÄÖÐÎÄÊý¾Ý¼¯¼´Î¢²©Êý¾Ý¼¯ºÍÎ¢ÐÅÁÄÌìÊý¾Ý¼¯£¬Èç±í5ª²8ËùÊ¾¡£


±í5ª²8Êý¾Ý¼¯ÃèÊö


Êý¾Ý¼¯
Àà±ðÊý
ÊýÁ¿
³¤¶È
20ª²newsgroup
5
349
6£®71
3Cphys
3
1066
9£®39
Î¢²©Êý¾Ý¼¯
5
18771
8£®25
Î¢ÐÅÁÄÌìÊý¾Ý¼¯
7
21356
8£®51

ÔÚÊµÑéÖÐ£¬¸ù¾ÝTDª²IDF±¾ÎÄÑ¡Ôñ TOP NµÄÖµÎª 35%¡£¶ÔÓÚÁ½ÖÖÓ¢ÎÄÊý¾Ý¼¯£¬ÌØÕ÷ÏòÁ¿Î¬¶ÈÉèÖÃÎª100£¬×îµÍ´Ê¸öÊýÉèÖÃÎª3£¬´°¿Ú´óÐ¡ÉèÖÃÎª3£» ¶ÔÓÚÁ½ÖÖÖÐÎÄÊý¾Ý¼¯£¬ÌØÕ÷ÏòÁ¿Î¬¶ÈÉèÖÃÎª270£¬×îµÍ´Ê¸öÊýÉèÖÃÎª4£¬´°¿Ú´óÐ¡ÉèÖÃÎª4¡£
ÎªÆÀ¼Û¶ÌÎÄ±¾µÄ¾ÛÀàÐ§¹û£¬ÒýÈëF¶ÈÁ¿×÷ÎªÆÀ¼ÛÖ¸±ê¡£¶ÌÎÄ±¾µÄ¾ÛÀàÐ§¹ûÊÇ·ñÁ¼ºÃ£¬È¡¾öÓÚÃ¿¸öÎÄ±¾¾ÛÀàºóÄÜ·ñÕýÈ··ÖÀàÒÔ¼°·ÖÀàºóµÄÃ¿¸öÀà±ðÏÂÊÇ·ñ¶¼°üº¬ËùÓÐÕýÈ··ÖÀàµÄ¶ÌÎÄ±¾¡£Òò´Ë¶¨Òå²é×¼ÂÊP(i,j)ºÍ²éÈ«ÂÊR(i,j)£º 

Pi,j=mijmj(5ª²20)
Ri,j=mijmi(5ª²21)

ÆäÖÐ£¬miÊÇÀà±ðiµÄÎÄ±¾ÊýÁ¿£¬mjÊÇ¾ÛÀàjµÄÎÄ±¾ÊýÁ¿£¬mijÊÇ¾ÛÀàjÖÐÊôÓÚÀà±ðiµÄÎÄ±¾ÊýÄ¿¡£
¶ÔÓ¦µÄF¶ÈÁ¿ÖµF(i,j)¶¨ÒåÎª£º 

Fi,j=2¡ÁPi,j¡ÁRi,jPi,j+Ri,j(5ª²22)


È«¾Ö¾ÛÀàµÄF¶ÈÁ¿ÖµÎª: 

F=¡Æimimmaxj(F(i,j))(5ª²23)

ÆäÖÐ£¬mÊÇÊý¾Ý¼¯ÖÐÎÄ±¾µÄ×ÜÊýÁ¿¡£¹ÊF¶ÈÁ¿ÖµÔ½´ó£¬¾ÛÀàÐ§¹ûÔ½ºÃ£¬ÎÄ±¾ÏàËÆ¶È¶ÈÁ¿Ò²Ô½ºÃ¡£
ÊµÑé½á¹ûÈç±í5ª²9ËùÊ¾£¬FÖµÔ½´óËµÃ÷·½·¨µÄ¾ÛÀàÐ§¹ûÔ½ºÃ¡£


±í5ª²9²»Í¬Êý¾Ý¼¯¾ÛÀàºóµÄFÖµ


Êý¾Ý¼¯FÖµ
20ª²newsgroup0£®456
3Cphys0£®493
Î¢²©Êý¾Ý¼¯0£®376
Î¢ÐÅÁÄÌìÊý¾Ý¼¯0£®412

Ï°Ìâ
1£® ³£ÓÃ¾ÛÀà·½·¨ÓÐÄÄÐ©£¿ËüÃÇ¸÷×ÔµÄÌØµãÊÇÊ²Ã´£¿
2£® ¾ÛÀà¼¼ÊõºÍ·ÖÀà¼¼ÊõµÄÇø±ðÊÇÊ²Ã´£¿
3£® ¾ÛÀàËã·¨µÄÆÀ¼ÛÖ¸±êÊÇÊ²Ã´£¿
4£® »ùÓÚKª²meansµÄÎÄ±¾¾ÛÀàËã·¨ÊôÓÚ³£ÓÃ¾ÛÀà·½·¨ÖÐµÄÄÄÒ»Àà£¿¼òÊö¸ÃËã·¨²½Öè¡£
5£® ¼òÊö»ùÓÚWord2VecµÄÎÄ±¾¾ÛÀàËã·¨¡£
6£® ÏÖÓÐ5¸ö¶þÎ¬Êý¾ÝÑù±¾×é³ÉµÄÊý¾Ý¶ÔÏó¼¯S£¬Èç±í5ª²10ËùÊ¾¡£


±í5ª²10Êý¾Ý¶ÔÏó¼¯S


ID
X
Y
1
0
2
2
0
0
3
1£®5
0
4
5
0
5
5
2

ÒªÇó´ØµÄÊýÄ¿ÎªK=2£¬ÊÔÓÃKª²meansËã·¨¶Ô¼¯ºÏS½øÐÐ¾ÛÀà¡£
7£® ±í5ª²11ÎªÑÇÖÞ15Ö§Çò¶ÓÔÚ2005¡ª2010Äê¼ä´óÐÍ±­ÈüÕ½¼¨(ÓÉÓÚ°Ä´óÀûÑÇÊÇºóÀ´¼ÓÈëÑÇ×ãÁªµÄ£¬ËùÒÔÕâÀïÃ»ÓÐÊÕÂ¼)£¬ÊÔÑ¡ÓÃÈÎÒâÒ»ÖÖ·ÖÀàËã·¨·ÖÎöÖÐ¹úÄÐ×ãÔÚ2005¡ª2010Äê´¦ÓÚÑÇÖÞ×ãÇòµÄÊ²Ã´Ë®Æ½£¿


±í5ª²11ÑÇÖÞÇò¶Ó±­ÈüÕ½¼¨



2006ÄêÊÀ½ç±­
2010ÄêÊÀ½ç±­
2007ÄêÑÇÖÞ±­
ÖÐ¹ú
50
50
9
ÈÕ±¾
28
9
4
º«¹ú
17
15
3
ÒÁÀÊ
25
40
5
É³ÌØ
28
40
2
ÒÁÀ­¿Ë
50
50
1
¿¨Ëþ¶û
50
40
9
°¢ÁªÇõ
50
40
9
ÎÚ×È±ð¿ËË¹Ì¹
40
40
5
Ì©¹ú
50
50
9
Ô½ÄÏ
50
50
5
°¢Âü
50
50
9
°ÍÁÖ
40
40
9
³¯ÏÊ
40
32
17
Ó¡Äá
50
50
9