µÚ3ÕÂÄ¿±ê¼ì²â




Ò»Ö±ÒÔÀ´£¬Ä¿±ê¼ì²â¶¼ÊÇ¼ÆËã»úÊÓ¾õÁìÓò»ù±¾µÄÇÒ¾ßÓÐÌôÕ½ÐÔµÄÎÊÌâ£¬ÊÜµ½ÁËÑÐ¾¿Ñ§ÕßµÄ¹ã·º¹Ø×¢£¬ËüÓëÍ¼Ïñ·ÖÀàÒÔ¼°Í¼Ïñ·Ö¸îÈÎÎñÒ»Æð¹¹³ÉÁË¼ÆËã»úÊÓ¾õÁìÓòµÄÈÈµãÐÔÑÐ¾¿ÎÊÌâ¡£Í¼Ïñ·ÖÀàÊÇÕë¶ÔÕû¸öÍ¼Ïñ½øÐÐÀà±ðµÄÅÐ¶Ï£¬¸ü¹Ø×¢Í¼ÏñÕûÌå±í´ïµÄº¬Òå¡£¶øÄ¿±ê¼ì²âÔòÊÇÊ¶±ðÍ¼ÏñÖÐ¿ÉÄÜ´æÔÚµÄÔ¤¶¨ÒåÄ¿±êÊµÀý¡£ÈçÍ¼3ª²0ª²1ËùÊ¾£¬ÔÚÍ¼Ïñ·ÖÀàÖÐ£¬Ö»ÐèÒª¶ÔÕû¸öÍ¼Ïñ¸ø³öÔ¤²â½á¹û£¬¼´Ê¶±ð³ö¡°Ã¨¡±¡£¶ø¶ÔÓÚÄ¿±ê¼ì²â£¬ÔòÐèÒªÊ¶±ð³öÍ¼ÏñÖÐ´æÔÚµÄÔ¤¶¨ÒåµÄÄ¿±êÊµÀý(Ã¨¡¢¹·¡¢Ñ¼×ÓµÈ)£¬²¢¸ø³öÃ¿¸öÊµÀýµÄÎ»ÖÃ¡¢´óÐ¡ºÍÀà±ð£¬¼´Í¨¹ý±í´ï²»Í¬Àà±ðº¬ÒåµÄ¾ØÐÎ¿ò°ü¹üÍ¼ÏñÖÐµÄ²»Í¬ÊµÀý£¬Í¨³£Çé¿öÏÂ¶ÔÓÚÃ¿¸öÄ¿±êÊµÀýµÄ¾ØÐÎ¿òÊ¹ÓÃÖÐÐÄµã×ø±êºÍ³¤¿í(x,y,w,h)»ò×óÉÏ½Ç¡¢ÓÒÏÂ½ÇµÄ×ø±ê(x1,y1,x2,y2)±íÊ¾¡£





Í¼3ª²0ª²1Í¼Ïñ·ÖÀàºÍÄ¿±ê¼ì²â


½ü¼¸Äê£¬»ùÓÚÉî¶ÈÑ§Ï°µÄÄ¿±ê¼ì²âÈ¡µÃÁËÍ»·ÉÃÍ½øµÄ·¢Õ¹£¬ÈçÍ¼3ª²0ª²2ËùÊ¾£¬¿ÉÒÔÔÚ¶àÖÖ²»Í¬µÄ³¡¾°¼ì²â¶à¸öÄ¿±êÊµÀý£¬Í¬Ê±ÕâÐ©Ä¿±êµÄÀà±ðÒ²±äµÃ¸ü¼Ó·á¸»£¬´Ó×î¿ªÊ¼µÄÈËÁ³¡¢ÐÐÈË£¬·¢Õ¹µ½ÁË¿ÉÒÔÊ¶±ðÏÖÈç½ñÉú»îÖÐ³£¼ûµÄ¸÷ÀàÎïÆ·¡£°éËæ×ÅÄ¿±ê¼ì²âµÄ·¢Õ¹£¬ÆäÔÚÈËÁ³¼ì²â¡¢ÖÇÄÜ¼ÆÊý¡¢ÊÓ¾õËÑË÷ÒýÇæÒÔ¼°º½ÅÄÍ¼Ïñ·ÖÎöµÈÓ¦ÓÃÁìÓòÖÐ·¢»Ó×Å²»¿ÉÌæ´úµÄ×÷ÓÃ¡£





Í¼3ª²0ª²2¶àÖÖ³¡¾°ÏÂµÄÄ¿±ê¼ì²â


ÎÒÃÇ°ÑÉî¶ÈÑ§Ï°¹ã·ºµØÓ¦ÓÃÓÚÄ¿±ê¼ì²âÖ®Ç°µÄ·½·¨³ÆÎª´«Í³µÄÄ¿±ê¼ì²â·½·¨¡£´«Í³µÄÄ¿±ê¼ì²â·½·¨(Ä¿±êÌáÈ¡·½·¨)Ò»°ãÇé¿öÏÂ·ÖÎªÈý¸ö½×¶Î£º  µÚÒ»½×¶Î£¬ÔÚ¸ø¶¨µÄÍ¼ÏñÉÏÑ¡ÔñÈô¸ÉºòÑ¡ÇøÓò£»  µÚ¶þ½×¶Î£¬Í¨¹ý¸÷ÖÖ·½·¨¶ÔºòÑ¡ÇøÓò½øÐÐËùÐèÌØÕ÷µÄÌáÈ¡£»  µÚÈý½×¶Î£¬Ê¹ÓÃ¾­¹ýÔ¤´¦ÀíµÄ·ÖÀàÆ÷»òÕß»Ø¹éÆ÷¶ÔÌØÕ÷½øÐÐ·ÖÀà¡£ÆäÖÐ£¬ÇøÓòÑ¡ÔñÊÇÍ¨¹ýÊ¹ÓÃ²»Í¬³ß´çµÄ´°¿ÚÔÚÍ¼ÏñÖÐ½øÐÐ»¬¶¯²Ù×÷Ñ¡È¡Í¼ÏñµÄÄ³Ò»²¿·Ö×÷ÎªºòÑ¡ÇøÓò£»  ÌØÕ÷ÌáÈ¡ÊÇÌáÈ¡Ã¿¸öºòÑ¡ÇøÓòµÄÈË¹¤Éè¼ÆµÄÊÓ¾õÌØÕ÷£¬µ«ÊÇÓÉÓÚÈË¹¤ÌØÕ÷ÊÇ¸ù¾ÝÄ¿±êµÄÐÎ×´¡¢ÑÕÉ«¡¢ÎÆÀí¡¢±ßÔµµÈÒòËØÉè¼ÆµÄ£¬¾ßÓÐºÜÇ¿µÄÕë¶ÔÐÔ¡£Òò´Ë£¬ÎªÁË¼ì²â²»Í¬µÄÄ¿±ê»áÉè¼ÆºÍÊ¹ÓÃ²»Í¬µÄÌØÕ÷£¬±ÈÈçÈËÁ³¼ì²âÈÎÎñÖÐÊ¹ÓÃµÄHaarÌØÕ÷£¬ÐÐÈË¼ì²âÈÎÎñÖÐ³£ÓÃHOGÌØÕ÷¡£ÌØÕ÷ÌáÈ¡Æ÷ËùÌáÈ¡ÌØÕ÷µÄÖÊÁ¿½«Ö±½ÓÓ°Ïì·ÖÀàÆ÷»òÕß»Ø¹éÆ÷µÄ×¼È·ÐÔ£¬µ«ÊÇÉè¼ÆÒ»¸öÊÊÓÃÓÚ¶àÀàÄ¿±êÇÒÂ³°ôÐÔ½ÏºÃµÄÌØÕ÷ÊÇ±È½ÏÄÑµÄ¡£×ÛÉÏ£¬¿ÉÒÔ¿´³ö£¬´«Í³Ä¿±êÌáÈ¡·½·¨¾ßÓÐÁ½¸öÈ±µã£º  Ò»ÊÇÇøÓòÑ¡Ôñ²ßÂÔ£»  ¶þÊÇÈË¹¤Éè¼ÆÌØÕ÷µÄ¾ÖÏÞÐÔ¡£

´«Í³µÄÒÀ¿¿ÊÖ¹¤ÌáÈ¡ÌØÕ÷Íê³É¸÷ÀàÈÎÎñµÄ·½Ê½Ò»¶ÈÊ¢ÐÐ£¬Ò»Ö±µ½2012Äê£¬KrizhevskyµÈÈËÌá³öÁËÒ»ÖÖÃûÎªAlexNetµÄÉî¶È¾í»ýÉñ¾­ÍøÂç(DCNN)£¬ËüÔÚ´ó¹æÄ£ÊÓ¾õÊ¶±ðÌôÕ½Èü(ILSRVC)ÖÐÍ»ÆÆÁËÍ¼Ïñ·ÖÀà×¼È·ÐÔµÄ¼ÍÂ¼¡£´ÓÄÇÊ±Æð£¬¼ÆËã»úÊÓ¾õÁìÓòµÄÑÐ¾¿ÖØµã¿ªÊ¼×ªÒÆµ½Éî¶ÈÑ§Ï°µÄ·½·¨¡£Rª²CNN·½·¨¿ÉÒÔËµÊÇ¾í»ýÉñ¾­ÍøÂçÔÚÄ¿±ê¼ì²âÁìÓòµÄÀï³Ì±®Ê½µÄ·½·¨£¬Ëü¿ªÆôÁËÄ¿±ê¼ì²âÁìÓòµÄÐÂÆªÕÂ£¬ÓÉ´ËÄ¿±ê¼ì²âÁìÓòÒ²È¡µÃÁËÏÔÖøÐÔµÄÍ»ÆÆ¡£»ùÓÚÉî¶ÈÑ§Ï°µÄÄ¿±ê¼ì²â·½·¨¸ù¾ÝÆäÔ­ÀíÓÐ¼¸ÖÖ²»Í¬µÄ»®·Ö·½Ê½¡£ÆäÖÐ±È½Ï¾­µäµÄ»®·Ö·½Ê½ÊÇ¸ù¾ÝÆä¼ì²âµÄÁ÷³Ì·ÖÎªÒ»½×¶ÎÄ¿±ê¼ì²âËã·¨ºÍÁ½½×¶ÎÄ¿±ê¼ì²âËã·¨¡£

(1) Á½½×¶ÎÄ¿±ê¼ì²âËã·¨£¬Æä½«Ä¿±êÌáÈ¡¹ý³ÌÖ÷Òª·ÖÎªÁ½¸ö½×¶Î£º  µÚÒ»¸ö½×¶ÎÊÇ²úÉúºòÑ¡ÇøÓò(region proposals)£¬µÃµ½¿ÉÄÜ´æÔÚÄ¿±êµÄÇøÓò£»  µÚ¶þ¸ö½×¶ÎÊÇÐÞÕýºòÑ¡ÇøÓòÖÐµÄÄ¿±êÎ»ÖÃ²¢ÅÐ¶ÏÄ¿±êÀà±ð¡£ÕâÀàËã·¨µÄµäÐÍ´ú±íÊÇ»ùÓÚÇøÓò(regionª²based)µÄRª²CNNÏµÁÐËã·¨£¬°üº¬Rª²CNN¡¢Fast Rª²CNNºÍFaster Rª²CNNµÈ¡£

(2) Ò»½×¶ÎÄ¿±ê¼ì²âËã·¨£¬ÆäÒÆ³ýÁË²úÉúºòÑ¡ÇøÓòµÄ½×¶Î£¬Ö±½ÓÍ¨¹ýÍ¼ÏñÔ¤²âÄ¿±êµÄÎ»ÖÃºÍÀà±ð£¬ÕâÀàËã·¨µÄµäÐÍ´ú±íÓÐ£º  SSD¡¢YOLOµÈ¡£


Ä¿Ç°Ö÷Á÷µÄÄ¿±ê¼ì²âËã·¨»¹¿ÉÒÔÒÀ¾ÝÆäÊÇ·ñÐèÒªÏÈÑéºòÑ¡¿ò£¬»®·ÖÎª»ùÓÚAnchorºÍ²»»ùÓÚAnchorµÄÄ¿±ê¼ì²â·½·¨¡£AnchorµÄ±¾ÖÊÊÇÏÈÑé¿ò£¬ÔÚÉè¼ÆÁË²»Í¬³ß¶ÈºÍ±ÈÀýµÄÏÈÑé¿òºó£¬ÍøÂç»áÑ§Ï°ÈçºÎÇø·ÖºÍÐÞÕýÕâÐ©ÏÈÑé¿ò£º  ÊÇ·ñ°üº¬object¡¢°üº¬Ê²Ã´Àà±ðµÄobject£¬ÒÔ¼°ÐÞÕýÏÈÑé¿òµÄÎ»ÖÃ¡£µ«ÊÇ£¬ÓÉÓÚAnchorÒªÏÈÑéµØÈËÎªÉè¶¨£¬Éè¶¨µÄÊýÄ¿ºÍ³ß´ç¶¼½«»áÖ±½ÓÓ°Ïì¼ì²âËã·¨µÄÐ§¹û¡£»ùÓÚÕâÖÖÔ­Òò£¬ºÜ¶àÈË×öÁË¸Ä½ø£¬Ìá³öÁËAnchor FreeµÄ·½·¨£¬ÀýÈç£¬CornerNet¡¢ CenterNet¡¢ExtremeNetµÈ²»ÒÀÀµAnchorÀ´ÊµÏÖÄ¿±ê¼ì²âµÄ·½·¨¡£³ý´ËÖ®Íâ£¬½ü¼¸Äê»ùÓÚTransformerµÄÄ¿±ê¼ì²â·½·¨´ó·ÅÒì²Ê£¬È¡µÃÁË²»·²µÄ³É¼¨¡£

3.1Êµ¼ùÒ»£º  »ùÓÚFaster RCNNÄ£ÐÍµÄ´É×©è¦´Ã¼ì²â(Á½½×¶ÎÄ¿±ê¼ì²â)

ÔÚ±¾½Ú£¬ÎÒÃÇ½«Ê¹ÓÃPaddleDetectionÀ´ÊµÏÖFaster RCNNÍøÂç½øÐÐ´É×©±íÃæè¦´Ã¼ì²â¡£



»ùÓÚFaster RCNNÄ£ÐÍµÄ´É×©è¦´Ã¼ì²â


Faster RCNNÊÇÁ½½×¶ÎÄ¿±ê¼ì²â·½·¨µÄ´ú±íÖ®×÷¡£Faster RCNN¶ªÆúÁËÀëÏßµÄºòÑ¡¿òµÄÌáÈ¡¹ý³Ì£¬½«Ä¿±ê¼ì²â±ä³ÉÒ»¸ö¶Ëµ½¶ËµÄ¹ý³Ì£¬´Ó¶ø´ó´ó½ÚÊ¡ÁËÍÆÀíÊ±¼ä£¬²¢ÇÒÊ¹µÃ¼ì²âÈÎÎñ±äµÃ¸ü¼ÓÈÝÒ×¡£ÈçÍ¼3ª²1ª²1ËùÊ¾£¬Faster RCNNµÄ·½·¨¿É·ÖÎª4¸ö²½Öè¡£



Í¼3ª²1ª²1Faster RCNNÍøÂç½á¹¹


Ê×ÏÈ£¬½«ÕûÕÅÍ¼Æ¬×÷ÎªÊäÈëËÍµ½¾í»ýÉñ¾­ÍøÂçÖÐ½øÐÐÌØÕ÷ÌáÈ¡£¬µÃµ½ÌØÕ÷Í¼£»  Æä´Î£¬½«¾í»ýÌØÕ÷Í¼ÊäÈëµ½ºòÑ¡¿òÉú³ÉÍøÂç(Region Proposal Network£¬RPN)ÖÐ½øÐÐºòÑ¡¿òµÄÔ¤²â(¿ÉÄÜ´æÔÚÄ¿±êµÄÇøÓò)£¬Õâ¸öÔ¤²â°üº¬Á½²¿·Ö£¬Ò»²¿·ÖÊÇ¶ÔÔ¤ÉèµÄÄ¬ÈÏ¿ò½øÐÐÒ»¸ö±³¾°ºÍÇ°¾°µÄ¶þ·ÖÀàÅÐ±ð£¬ÁíÒ»²¿·ÖÊÇ¶ÔÔ¤ÉèµÄÄ¬ÈÏ¿ò½øÐÐÒ»´ÎÖÐÐÄÎ»ÖÃÆ«ÒÆÁ¿ºÍ¿í¸ßµÄ»Ø¹é£¬´Ó¶øµÃµ½Ò»×éÏ¡ÊèµÄºòÑ¡¿ò£»  ÔÙ´Î£¬½«µÃµ½µÄºòÑ¡¿òËù¶ÔÓ¦ÔÚÌØÕ÷Í¼ÉÏµÄÌØÕ÷ÇøÓòÍ¨¹ýÒ»¸öROI³Ø»¯µ÷Õûµ½¹Ì¶¨³ß´ç£»  ×îºó£¬Í¨¹ýÁ½¸öÈ«Á¬½Ó²ã¶ÔÆä½øÐÐn+1Àà(n¸öÄ¿±êÀà+±³¾°Àà)µÄ·ÖÀàºÍÖÐÐÄÎ»ÖÃÆ«ÒÆÁ¿ÒÔ¼°³¤¿íµÄ¶þ´Î»Ø¹é¡£


²½Öè1£º  Êý¾Ý¼¯½éÉÜ¼°Ô¤´¦Àí

´É×©¾­¹ý¸´ÔÓµÄ¹¤ÒÕÉú²ú³öÀ´ºó£¬ÐèÒª¾­¹ýÖÊÁ¿¼ì²âºÍ°ü×°µÈ²½Öè²ÅÄÜÍ¶·ÅÊÐ³¡¡£ÈË¹¤ÖÇÄÜ¼¼ÊõµÄ·¢Õ¹£¬¸³ÄÜÁËÔ½À´Ô½¶àµÄ´«Í³ÖÆÔìÒµ¡£ÔÚÖÊ¼ìÁìÓò£¬Í¨¹ýÖÇÄÜ»¯ÊÖ¶Î´úÌæÈË¹¤¼ì²â£¬¿ÉÒÔ´ó´ó½ÚÔ¼Ê±¼äºÍÈËÁ¦³É±¾£¬²¢ÇÒ¼ì²âÖÊÁ¿Ò²ÄÜµÃµ½ÌáÉý¡£

±¾´Î´É×©è¦´Ã¼ì²âµÄÊý¾Ý¼¯¹²°üº¬5388ÕÅÍ¼Ïñ¡£ÈçÍ¼3ª²1ª²2ËùËùÊ¾£¬Êý¾Ý¼¯°üÀ¨×©Ôü¡¢ÂäÔà¡¢µÎÄ«µÈ6¸öÀà±ð£¬±¾´ÎÊµ¼ùµÄÈÎÎñÒ²¾ÍÊÇ¼ì²â³öÍ¼ÏñÖÐ´æÔÚµÄè¦´ÃÎ»ÖÃ²¢Çø·Öè¦´ÃµÄÖÖÀà¡£





Í¼3ª²1ª²2´É×©è¦´ÃÊ¾Àý


Êý¾Ý¼¯·ÖÎªÍ¼ÏñºÍ±ê×¢Á½¸ö²¿·Ö¡£ÈçÍ¼3ª²1ª²3ËùÊ¾£¬ train_imgsÄ¿Â¼ÏÂ´æ´¢×ÅÓÃÓÚÑµÁ·ºÍÑéÖ¤µÄÍ¼Ïñ£¬train_annos.jsonÏÂÔò´æ´¢×ÅËùÓÐÍ¼Ïñ¶ÔÓ¦µÄ±ê×¢¡£



Í¼3ª²1ª²3Êý¾Ý¼¯¸ñÊ½ÁÐ±í


Ä¿±ê¼ì²âÓÐÁ½Àà¾­µäµÄ±ê×¢¸ñÊ½£¬·Ö±ðÊÇÒÔPASCAL VOCÊý¾Ý¼¯Îª´ú±íµÄXML¸ñÊ½Êý¾Ý¼¯ºÍÒÔCOCOÊý¾Ý¼¯Îª´ú±íµÄJSON¸ñÊ½µÄÊý¾Ý¼¯¡£±¾´ÎÊµ¼ùÖÐÊý¾Ý¼¯µÄ¸ñÊ½²»Í¬ÓÚÉÏÊöÁ½ÖÖÊý¾Ý¸ñÊ½£¬ÈçÍ¼3ª²1ª²4ËùÊ¾£¬Ã¿¸ö¿òÄÚ±íÊ¾Ò»¸öÄ¿±êÊµÀý£¬ÆäÖÐname¡¢image_heightºÍimage_widthÔò·Ö±ð±íÊ¾Ä¿±êÊµÀýËùÔÚµÄÍ¼ÏñÎÄ¼þÃûÒÔ¼°Í¼ÏñµÄ³¤ºÍ¿í£»  category±íÊ¾µÄÊÇÄ¿±êÊµÀýËùÓÐ¶ÔÓ¦µÄÀà±ð(1~6·Ö±ð±íÊ¾²»Í¬µÄ´É×©è¦´ÃÀà±ð)£»  bbox±íÊ¾µÄÊÇ°ü¹üÄ¿±êÊµÀýµÄ¾ØÐÎ¿ò£¬ÆäÖÐ0¡¢1±íÊ¾¾ØÐÎ¿òµÄ×óÉÏ½ÇµãµÄ×ø±ê£¬2¡¢3±íÊ¾¾ØÐÎ¿òµÄÓÒÏÂ½ÇµãµÄ×ø±ê¡£



Í¼3ª²1ª²4±ê×¢ÎÄ¼þÊ¾Àý


ÎÒÃÇÔÚÊ¹ÓÃPaddleDetection½øÐÐÄ¿±ê¼ì²âÖ®Ç°£¬ÐèÒª½«±ê×¢ÎÄ¼þ×ª»»ÎªC0C0µÄ±ê×¢¸ñ£¬²¢°´ÕÕ9¡Ã1µÄ±ÈÀý»®·ÖÑµÁ·¼¯ºÍ²âÊÔ¼¯¡£ÔÚÕâÀïÎÒÃÇÍ¨¹ýFabric2COCOÀàÀ´ÊµÏÖÊý¾Ý±ê×¢¸ñÊ½µÄ×ª»¯ºÍÊý¾Ý¼¯µÄ»®·Ö¡£

#ÑµÁ·¼¯£¬»®·Ö90%×÷ÎªÑéÖ¤¼¯

fabric2coco = Fabric2COCO()

train_instance = fabric2coco.to_coco(anno_dir,img_dir)

fabric2coco.save_coco_json(train_instance, "/home/aistudio/work/PaddleDetection-release-2.2/dataset/coco/annotations/"+'instances_{}.json'.

format("train"))

#ÑéÖ¤¼¯£¬»®·Ö10%×÷ÎªÑéÖ¤¼¯

fabric2coco_val = Fabric2COCO(is_mode = "val")

val_instance = fabric2coco_val.to_coco(anno_dir,img_dir)

fabric2coco_val.save_coco_json(train_instance, "/home/aistudio/work/PaddleDetection-release-2.2/dataset/coco/annotations/"+'instances_{}.json'

.format("val"))



Í¼3ª²1ª²5Éú³ÉÄ¿Â¼


½øÐÐ×ª»»ºó£¬»áµÃµ½ÈçÍ¼3ª²1ª²5ËùÊ¾µÄÄ¿Â¼¡£ÆäÖÐtrainºÍvalÄ¿Â¼ÏÂ´æ´¢µÄÊÇ·Ö±ðÓÃÓÚÑµÁ·ºÍÑéÖ¤µÄÍ¼Ïñ£¬annotationsÄ¿Â¼ÏÂ´æ´¢µÄÔòÊÇinstances_train.jsonºÍinstances_val.jsonÁ½¸öÎÄ¼þ·Ö±ð¶ÔÓ¦×ª»»ºóµÄÑµÁ·¼¯ºÍÑéÖ¤¼¯ºÏµÄ±ê×¢ÎÄ¼þ¡£


ÒÔinstances_train.jsonÎªÀý£¬×ª»»ºóµÃµ½µÄÊý¾Ý±ê×¢ÈçÍ¼3ª²1ª²6ËùÊ¾£¬×ó²à¿òÄÚ±íÊ¾ÑµÁ·¼¯ÖÐÓÃÓÚÑµÁ·µÄÍ¼ÏñÃû³Æ¡¢IDºÍÍ¼Ïñ¶ÔÓ¦µÄ³¤ºÍ¿í¡£ÓÒ²à¿òÄÚ±íÊ¾µÄÔòÊÇµ¥¸öÄ¿±êÊµÀý£¬ÆäÖÐimage_id±íÊ¾µÄÊÇÄ¿±êÊµÀýËù´æÔÚ


Í¼3ª²1ª²6Éú³É±ê×¢Ê¾Àý


µÄÍ¼Ïñ(ÓëÓÒ²àÍ¼ÏñIDÏà¶ÔÓ¦)£¬categoory_id±íÊ¾µÄÔòÊÇÄ¿±êÊµÀýËù¶ÔÓ¦µÄÀà±ð(1~6·Ö±ð
±íÊ¾²»Í¬µÄ´É×©è¦´ÃÀà±ð)£¬bboxÖÐ´æ´¢µÄÓÉÔ­À´µÄ¾ØÐÎ¿ò½Çµã×ø±ê×ª»»³ÉÖÐÐÄµã×ø±êºÍ¾ØÐÎ¿òµÄ³¤¿í£¬area±íÊ¾µÄÊÇ¾ØÐÎ¿òµÄÃæ»ý¡£


²½Öè2£º  PaddleDection¼°»·¾³°²×°

PaddleDetectionÎª»ùÓÚ·É½°PaddlePaddleµÄ¶Ëµ½¶ËÄ¿±ê¼ì²âÌ×¼þ£¬ÄÚÖÃ30¶à¸öÄ£ÐÍËã·¨¼°250¶à¸öÔ¤ÑµÁ·Ä£ÐÍ£¬¸²¸ÇÄ¿±ê¼ì²â¡¢ÊµÀý·Ö¸î¡¢¸ú×Ù¡¢¹Ø¼üµã¼ì²âµÈ·½Ïò£¬ÆäÖÐ°üÀ¨·þÎñÆ÷¶ËºÍÒÆ¶¯¶Ë¸ß¾«¶È¡¢ÇáÁ¿¼¶²úÒµ¼¶SOTAÄ£ÐÍ¡¢¹Ú¾ü·½°¸ºÍÑ§ÊõÇ°ÑØËã·¨£¬²¢Ìá¹©ÅäÖÃ»¯µÄÍøÂçÄ£¿é×é¼þ¡¢Ê®ÓàÖÖÊý¾ÝÔöÇ¿²ßÂÔºÍËðÊ§º¯ÊýµÈ¸ß½×ÓÅ»¯Ö§³ÖºÍ¶àÖÖ²¿Êð·½°¸£¬ÔÚ´òÍ¨Êý¾Ý´¦Àí¡¢Ä£ÐÍ¿ª·¢¡¢ÑµÁ·¡¢Ñ¹Ëõ¡¢²¿ÊðÈ«Á÷³ÌµÄ»ù´¡ÉÏ£¬Ìá¹©·á¸»µÄ°¸Àý¼°½Ì³Ì£¬¼ÓËÙËã·¨²úÒµÂäµØÓ¦ÓÃ¡£

¾­¹ý³¤Ê±¼äµÄ²úÒµÊµ¼ù´òÄ¥£¬PaddleDetectionÒÑÓµÓÐË³³©¡¢×¿Ô½µÄÊ¹ÓÃÌåÑé£¬±»¹¤ÒµÖÊ¼ì¡¢Ò£¸ÐÍ¼Ïñ¼ì²â¡¢ÎÞÈËÑ²¼ì¡¢ÐÂÁãÊÛ¡¢»¥ÁªÍø¡¢¿ÆÑÐµÈÊ®¶à¸öÐÐÒµ¹ã·ºÊ¹ÓÃ£¬ÈçÍ¼3ª²1ª²7ËùÊ¾¡£





Í¼3ª²1ª²7PaddleDetectionÓ¦ÓÃÊ¾Àý


PaddleDetection¾ßÓÐÒÔÏÂÌØµã¡£

Ä£ÐÍ·á¸»£º   °üº¬Ä¿±ê¼ì²â¡¢ÊµÀý·Ö¸î¡¢ÈËÁ³¼ì²â¡¢¹Ø¼üµã¼ì²â¡¢¶àÄ¿±ê¸ú×ÙµÈ250¶à¸öÔ¤ÑµÁ·Ä£ÐÍ£¬º­¸Ç¶àÖÖÈ«Çò¾ºÈü¹Ú¾ü·½°¸¡£

Ê¹ÓÃ¼ò½à£º  Ä£¿é»¯Éè¼Æ£¬½âñî¸÷¸öÍøÂç×é¼þ£¬¿ª·¢ÕßÇáËÉ´î½¨¡¢ÊÔÓÃ¸÷ÖÖ¼ì²âÄ£ÐÍ¼°ÓÅ»¯²ßÂÔ£¬¿ìËÙµÃµ½¸ßÐÔÄÜ¡¢¶¨ÖÆ»¯µÄËã·¨¡£

¶Ëµ½¶Ë´òÍ¨£º   ´ÓÊý¾ÝÔöÇ¿¡¢×éÍø¡¢ÑµÁ·¡¢Ñ¹Ëõ¡¢²¿Êð¶Ëµ½¶Ë´òÍ¨£¬²¢Íê±¸Ö§³ÖÔÆ¶Ë/±ßÔµ¶Ë¶à¼Ü¹¹¡¢¶àÉè±¸²¿Êð¡£

¸ßÐÔÄÜ£º  »ùÓÚ·É½°µÄ¸ßÐÔÄÜÄÚºË£¬Ä£ÐÍÑµÁ·ËÙ¶È¼°ÏÔ´æÕ¼ÓÃÓÅÊÆÃ÷ÏÔ¡£Ö§³ÖFP16ÑµÁ·£¬Ö§³Ö¶à»úÑµÁ·¡£

ÔÚÊ¹ÓÃPaddleDetectionÊ±ÎÒÃÇ¿ÉÒÔ¸ù¾ÝÈÎÎñµÄÐèÒª£¬ÔÚÍ¼3ª²1ª²8ÖÐÑ¡Ôñ²»Í¬µÄÄ£ÐÍ¡¢ÌØÕ÷ÌáÈ¡ÍøÂç¡¢×é¼þºÍÊý¾ÝÔöÇ¿·½Ê½¡£±ÈÈç£¬ÎÒÃÇÔÚ½øÐÐÄ¿±ê¼ì²â¿ÉÒÔÑ¡Ôñ


Í¼3ª²1ª²8PaddleDetection×é¼þ


Á½½×¶ÎµÄFaster RCNN¡¢Ò»½×¶ÎµÄYOLOÏµÁÐÒÔ¼°»ùÓÚTransformerµÄÄ¿±ê¼ì²âÄ£ÐÍDETR¡¢Swin TransformerµÈ£¬Í¬Ê±Ò²¿ÉÒÔ¸ù¾ÝÎÒÃÇ¶Ô¾«¶ÈºÍËÙ¶ÈµÄÒªÇóÑ¡Ôñ²»Í¬µÄÌØÕ÷ÌáÈ¡ÍøÂçºÍ×é¼þ(¶ÔÐ¡Ä¿±êÒªÇó½Ï¸ßÊ±Ê¹ÓÃHRNet£¬¶ÔËÙ¶ÈÒªÇó½Ï¸ßÊ±Ê¹ÓÃMobileNetµÈ)¡£³ý´ËÖ®Íâ£¬»¹¿ÉÒÔ¸ù¾ÝÊµ¼ÊµÄÐèÇóÑ¡Ôñ²»Í¬µÄÊý¾ÝÔöÇ¿·½·¨µÈ¡£

ÔÚÊ¹ÓÃPaddleDetection½øÐÐÄ¿±ê¼ì²âÖ®Ç°£¬ÎÒÃÇÊ×ÏÈÒªÏÂÔØPaddleDetectionµÄÔ´Âë(¿ÉÒÔÍ¨¹ýgitÏÂÔØ£¬Ò²¿ÉÒÔ½âÑ¹ÏÂÔØºÃµÄÑ¹Ëõ°ü)£¬È»ºó°²×°PaddleDetectionËùÐèÒªµÄÒÀÀµ²¢±àÒë°²×°paddledet¡£

#ÏÂÔØ

git clone https://github.com/PaddlePaddle/PaddleDetection.git

#½âÑ¹

!unzip -o /home/aistudio/data/data113827/PaddleDetection-release-2.2_tile.zip -d /home/aistudio/work/

!pip install -r requirements.txt

!python setup.py install

²½Öè3£º  Ä£ÐÍÑµÁ·¼°ÑéÖ¤

ÔÚ´¦ÀíºÃÊý¾ÝºÍ²¿ÊðºÃ»·¾³ºó£¬ÎÒÃÇ¾Í¿ÉÒÔÍ¨¹ýtrain.py¿ªÊ¼ÑµÁ·ÍøÂç¡£ÔÚÊ¹ÓÃtrain.py()º¯ÊýÑµÁ·ÍøÂçµÄÊ±ºò£¬ÎÒÃÇ»¹ÐèÒªÍ¨¹ý¼ÓÔØÅäÖÃÎÄ¼þÀ´ÅäÖÃÎÒÃÇµÄÑµÁ·¹ý³Ì¡£ÈçÍ¼3ª²1ª²9ËùÊ¾£¬ÔÚÅäÖÃÎÄ¼þÖÐ¿ÉÒÔÉèÖÃµü´úµÄ×ÜÂÖÊý¡¢Ô¤ÑµÁ·µÄÈ¨ÖØ¡¢¼ì²âÀà±ð¡¢Êý¾Ý¼¯Â·¾¶¡¢ÓÅ»¯Æ÷ÒÔ¼°Faster RCNNÍøÂçÖÐµÄ¸÷ÖÖ²ÎÊýÅäÖÃ(ÌØÕ÷ÌáÈ¡ÍøÂç¡¢ÍøÂçÉî¶È¡¢FPNÍøÂç²ÎÊý¡¢RPNÍøÂç²ÎÊýÉèÖÃµÈ)£¬Í¬Ê±»¹¿ÉÒÔÍ¨¹ýª²ª²eval²ÎÊý±íÊ¾ÔÚÑµÁ·¹ý³ÌÖÐÔÚÑéÖ¤¼¯ÉÏÑéÖ¤Ä£ÐÍ¡£


!python tools/train.py £Ü

-c /home/aistudio/work/faster_rcnn_r50_fpn_2x.yml -eval



Í¼3ª²1ª²9ÅäÖÃÎÄ¼þ


ÑµÁ·¿ªÊ¼ºó»áËæ×ÅÑµÁ·µÄ½øÐÐ£¬Êä³öµü´úµÄÂÖÊý¡¢batchµÄÅú´Î¡¢Ñ§Ï°ÂÊ¡¢Faster RCNNÍøÂçÖÐRPNÍøÂçºÍÔ¤²âÍøÂçµÄ·ÖÀà¡¢»Ø¹éËðÊ§£¬ÒÔ¼°×ÜËðÊ§µÈ£¬ÈçÍ¼3ª²1ª²10ËùÊ¾¡£





Í¼3ª²1ª²10ÑµÁ·¹ý³ÌÖÐµÄ²¿·ÖÊä³ö½á¹û


ÑµÁ·Íê³Éºó¿ÉÒÔÍ¨¹ýÖ´ÐÐeval.py¿ªÆôÑéÖ¤Ä£ÐÍ£¬ÓëÑµÁ·Ê±ÏàËÆ£¬Ò²ÐèÒª¸ø¶¨Ä£ÐÍµÄÅäÖÃÎÄ¼þ£¬³ý´ËÖ®Íâ»¹ÐèÒª¸ø¶¨ÑµÁ·½×¶ÎµÃµ½È¨ÖØÎÄ¼þ¡£

!python tools/eval.py £Ü

-c /home/aistudio/work/faster_rcnn_r50_fpn_2x.yml -o weights=

output/faster_rcnn_r50_fpn_2x/best_model.pdparams

Ò²¿ÉÒÔÍ¨¹ýÖ´ÐÐinfer.pyÓÃÑµÁ·ºÃµÄÄ£ÐÍ½øÐÐÔ¤²â¡£ÔÚÕâÀï£¬ÐèÒª¸ø¶¨Ä£ÐÍµÄÅäÖÃÎÄ¼þ¡¢ÑµÁ·ºÃµÄÈ¨ÖØºÍÓÃÓÚÔ¤²âµÄÍ¼ÏñÂ·¾¶¡£

!python -u tools/infer.py £Ü

-c /home/aistudio/work/faster_rcnn_r50_fpn_2x.yml £Ü

--output_dir=infer_output/ £Ü

--save_txt=True £Ü

-o  weights=

output/faster_rcnn_r50_fpn_2x/best_model.pdparams £Ü

--infer_img=/home/aistudio/work/235_7_t20201127123214965_CAM2.jpg

½«Ô¤²âºóµÄÍ¼Æ¬¾Ö²¿·Å´óºó¿ÉÒÔ¿´µ½Í¼3ª²1ª²11µÄ¼ì²â½á¹û¡£





Í¼3ª²1ª²11¼ì²â½á¹ûÊ¾Àý

3.2Êµ¼ù¶þ£º  »ùÓÚYOLOV3/PPª²YOLOÄ£ÐÍµÄÀ¥³æ¼ì²â
(Ò»½×¶ÎÄ¿±ê¼ì²â)

±¾½Ú½«Ê¹ÓÃYOLOV3ºÍPPª²YOLOÀ´ÊµÏÖÀ¥³æÊ¶±ð¡£

Rª²CNNÏµÁÐËã·¨ÐèÒªÏÈ²úÉúºòÑ¡ÇøÓò£¬ÔÙ¶ÔºòÑ¡ÇøÓò½øÐÐ·ÖÀàºÍÎ»ÖÃµÄÔ¤²â£¬ÕâÀàËã·¨±»³ÆÎªÁ½½×¶ÎÄ¿±ê¼ì²âËã·¨¡£½ü¼¸Äê£¬ºÜ¶àÑÐ¾¿ÈËÔ±Ïà¼ÌÌá³öÒ»ÏµÁÐÒ»½×¶ÎµÄ¼ì²âËã·¨£¬Ö±½Ó´ÓÍ¼ÏñÖÐÔ¤²âÄ¿±ê£¬´Ó¶øÉæ¼°ºòÑ¡ÇøÓòÌáÒéµÄ¹ý³Ì¡£




Joseph RedmonµÈÈËÔÚ2015ÄêÌá³öYOLO(You Only Look Once)Ëã·¨£¬¸ÃËã·¨Í¨³£Ò²±»³ÆÎªYOLOV1£»  2016Äê£¬ËûÃÇ¶ÔËã·¨½øÐÐ¸Ä½ø£¬ÓÖÌá³öYOLOV2°æ±¾£»  2018Äê¸ÃËã·¨·¢Õ¹³öYOLOV3°æ±¾¡£YOLO3²ÉÓÃÁËDarknetª²53µÄÍøÂç½á¹¹(º¬ÓÐ53¸ö¾í»ý²ã)£¬Ëü½è¼øÁË²Ð²îÍøÂçµÄ×ö·¨£¬ÔÚÒ»Ð©²ãÖ®¼äÉèÖÃÁËÌøÔ¾Á´½Ó£¬²¢ÔÚÈý¸ö²»Í¬µÄ³ß¶ÈÉÏ½øÐÐÔ¤²â¡£

PPª²YOLOÊÇPaddleDetecionÖÐ»ùÓÚYOLOV3¾«¶ÈËÙ¶ÈÓÅ»¯µÄÊµÕ½Êµ¼ù£¬Í¨¹ý¼¸ºõ²»Ôö¼ÓÔ¤²â¼ÆËãÁ¿µÄÓÅ»¯·½·¨¾¡¿ÉÄÜµØÌá¸ßYOLOV3Ä£ÐÍµÄ¾«¶È£¬×îÖÕÔÚCOCO testª²dev2017Êý¾Ý¼¯ÉÏ¾«¶È´ïµ½45.9%£¬µ¥¿¨V100Ô¤²âËÙ¶ÈÎª72.9FPS¡£Í¼3ª²2ª²1ÊÇPPª²YOLOÄ£ÐÍºÍµ±Ê±SOTAµÄÄ¿±ê¼ì²âËã·¨ÔÚCOCO testª²devÊý¾Ý¼¯µÄ¾«¶ÈºÍV100ÉÏÔ¤²âËÙ¶ÈµÄ¶Ô±ÈÍ¼¡£



Í¼3ª²2ª²1ÍøÂçÐ§¹û¶Ô±È




»ùÓÚYOLOV3
Ä£ÐÍµÄÀ¥³æ
¼ì²â


3.2.1»ùÓÚYOLOV3Ä£ÐÍµÄÀ¥³æ¼ì²â
²½Öè1£º  ÈÏÊ¶AIÊ¶³æÊý¾Ý¼¯ÓëÊý¾ÝÏÂÔØ

±¾´ÎÊµ¼ù²ÉÓÃ°Ù¶ÈÓë±±¾©ÁÖÒµ´óÑ§ºÏ×÷¿ª·¢µÄÁÖÒµ²¡³æº¦·ÀÖÎÏîÄ¿ÓÃµ½µÄAIÊ¶³æÊý¾Ý¼¯£¬ÈçÍ¼3ª²2ª²2ËùÊ¾£¬Í¼Æ¬ÖÐÓÐ²»Í¬ÖÖÀà

Í¼3ª²2ª²2Êý¾Ý¼¯Í¼ÏñÊ¾Àý

µÄÀ¥³æ£¬±¾´ÎÊµ¼ùµÄÄ¿±ê¾ÍÊÇ¼ì²â³öÍ¼ÏñÖÐÀ¥³æµÄÎ»ÖÃ²¢Çø·ÖËüÃÇµÄÀà±ð¡£Êý¾Ý¼¯¿ÉÒÔÔÚAIstudioÖÐÏÂÔØ£º  https://aistudio.baidu.com/aistudio/datasetdetail/19638¡£


¸ÃÊý¾Ý¼¯Ìá¹©ÁË2183ÕÅÍ¼Ïñ£¬ÆäÖÐÑµÁ·¼¯1693ÕÅ£¬ÑéÖ¤¼¯245ÕÅ£¬²âÊÔ¼¯245ÕÅ£¬¹²°üº¬Boerner¡¢Leconte¡¢Linnaeus¡¢acuminatus¡¢armandi¡¢coleopteraµÈ¶àÖÖÀ¥³æ¡£Êý¾Ý¼¯¸ñÊ½ÈçÍ¼3ª²2ª²3ËùÊ¾£¬·ÖÎªtrain¡¢valºÍtestÈý¸öÎÄ¼þ¼Ð£¬Ã¿¸öÎÄ¼þ¼ÐÏÂÍ¼ÏñºÍ±ê×¢ÎÄ¼þ·Ö±ð´æ´¢ÔÚannotationsºÍimagesÏÂ¡£





Í¼3ª²2ª²3Êý¾Ý¼¯½á¹¹





À¥³æÊý¾Ý¼¯²ÉÓÃÁËÓëPASCAL VOCÊý¾Ý¼¯ÏàÍ¬µÄXML±ê×¢¸ñÊ½£¬ÈçÍ¼3ª²2ª²4ËùÊ¾£¬filename±êÇ©¶ÔÏÂ¼ÇÂ¼µÄÊÇÍ¼ÏñÃû³Æ£»  size±êÇ©¶ÔÏÂ¼ÇÂ¼µÄÊÇÍ¼ÏñµÄ¿í¡¢¸ßºÍÍ¼ÏñµÄÍ¨µÀÊý£»  Ã¿¸öobject±êÇ©¶ÔÏÂ¼ÇÂ¼µÄÊÇÍ¼ÏñÖÐÃ¿¸öÄ¿±êÊµÀýµÄÐÅÏ¢¡£ÆäÖÐ£¬name±êÇ©¶Ô±íÊ¾Ä¿±ê


Í¼3ª²2ª²4±ê×¢ÎÄ¼þ


ÊµÀýµÄÀà±ð£¬bndbox±êÇ©¶ÔÔòÊÇ¼ÇÂ¼µÄÄ¿±êÊµÀý¾ØÐÎ¿òµÄ×óÉÏ½ÇºÍÓÒÏÂ½Ç×ø±ê¡£


²½Öè2£º  Êý¾Ý¼ÓÔØ

(1) Êý¾Ý¶ÁÈ¡¡£

ÔÚ±¾´ÎÊµ¼ùÖÐ£¬ÎÒÃÇÐèÒªÍ¨¹ý±àÐ´´úÂë´ÓxmlÎÄ¼þÖÐÌáÈ¡±ê×¢ÐÅÏ¢¡£Ê×ÏÈ£¬Í¨¹ýget_annotations¶ÁÈ¡xmlÖÐµÄ±ê×¢ÐÅÏ¢£¬²¢·µ»ØÒ»¸öÍ¼ÏñÖÐËùÓÐÄ¿±êÊµÀýµÄÀà±ðºÍÎ»ÖÃ(x,y,w,h)£¬ÔÚÕâÀïÎÒÃÇÐèÒªÓÃElementTreeÀ´½âÎöxml¸ñÊ½µÄÎÄ¼þ£¬»ñÈ¡Í¼ÏñµÄÃû³Æ¡¢¿í¡¢¸ßÒÔ¼°Í¨µÀÊý¡£

def get_annotations(cname2cid, datadir):

filenames = os.listdir(os.path.join(datadir, 'annotations', 'xmls'))

records = £Û£Ý

ct = 0

for fname in filenames:

fid = fname.split('.')£Û0£Ý

fpath = os.path.join(datadir, 'annotations', 'xmls', fname)

img_file = os.path.join(datadir, 'images', fid + '.jpeg')

tree = ET.parse(fpath)

if tree.find('id') is None:

im_id = np.array(£Ûct£Ý)

else:

im_id = np.array(£Ûint(tree.find('id').text)£Ý)

objs = tree.findall('object')

im_w = float(tree.find('size').find('width').text)

im_h = float(tree.find('size').find('height').text)

gt_bbox = np.zeros((len(objs), 4), dtype=np.float32)

gt_class = np.zeros((len(objs), ), dtype=np.int32)

is_crowd = np.zeros((len(objs), ), dtype=np.int32)

difficult = np.zeros((len(objs), ), dtype=np.int32)

Í¨¹ý±éÀúËùÓÐµÄobject±êÇ©¶Ô£¬ÒÀ´Î¶ÁÈ¡Í¼ÏñÖÐÃ¿¸öÄ¿±êÊµÀýµÄ±ê×¢£¬²¢Õë¶ÔÃ¿¸öÊµÀý¹¹½¨Ò»¸ö×Öµä¡£×îÖÕ¶ÔÓÚÍ¼ÏñÖÐËùÓÐµÄÄ¿±êÊµÀý·µ»ØÒ»¸öÊµÀýÁÐ±í£º  

for i, obj in enumerate(objs):

cname = obj.find('name').text

gt_class£Ûi£Ý = cname2cid£Ûcname£Ý

_difficult = int(obj.find('difficult').text)

x1 = float(obj.find('bndbox').find('xmin').text)

y1 = float(obj.find('bndbox').find('ymin').text)

x2 = float(obj.find('bndbox').find('xmax').text)

y2 = float(obj.find('bndbox').find('ymax').text)

x1 = max(0, x1)

y1 = max(0, y1)

x2 = min(im_w - 1, x2)

y2 = min(im_h - 1, y2)

# ÕâÀïÊ¹ÓÃxywh¸ñÊ½À´±íÊ¾Ä¿±êÎïÌåÕæÊµ¿ò

gt_bbox£Ûi£Ý = £Û(x1+x2)/2.0 , (y1+y2)/2.0, x2-x1+1., y2-y1+1.£Ý

is_crowd£Ûi£Ý = 0

difficult£Ûi£Ý = _difficult

voc_rec = {

'im_file': img_file,

'im_id': im_id,

'h': im_h,

'w': im_w,

'is_crowd': is_crowd,

'gt_class': gt_class,

'gt_bbox': gt_bbox,

'gt_poly': £Û£Ý,

'difficult': difficult

}

if len(objs) != 0:

records.append(voc_rec)

¼ì²âÍøÂçÑµÁ·µÄ¹ý³ÌÖÐ£¬ÐèÒªÍ¬Ê±ÊäÈëÍ¼Ïñ¡¢Ä¿±ê¾ØÐÎ¿òºÍÄ¿±êÀà±ð£¬Òò´ËÐèÒªÍ¨¹ýget_img_data_from_file()º¯Êý£¬Ê¹ÓÃcv2.imread()º¯Êý¼ÓÔØÍ¼Ïñ£¬²¢½«Ä¿±êÊµÀýµÄ×ø±ê×ª»¯ÎªÏà¶ÔÖµ¡£×îÖÕ·µ»ØÍ¼Ïñ¾ØÕó¡¢Í¼ÏñµÄ´óÐ¡ÒÔ¼°Í¼ÏñÖÐËùÓÐÄ¿±êÊµÀýÎ»ÖÃºÍÀà±ð¡£

def get_img_data_from_file(record):

im_file = record£Û'im_file'£Ý

h = record£Û'h'£Ý

w = record£Û'w'£Ý

is_crowd = record£Û'is_crowd'£Ý

gt_class = record£Û'gt_class'£Ý

gt_bbox = record£Û'gt_bbox'£Ý

difficult = record£Û'difficult'£Ý

img = cv2.imread(im_file)

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

# check if h and w in record equals that read from img

assert img.shape£Û0£Ý == int(h)

assert img.shape£Û1£Ý == int(w)

gt_boxes, gt_labels = get_bbox(gt_bbox, gt_class)

# gt_bbox ÓÃÏà¶ÔÖµ

gt_boxes£Û:, 0£Ý = gt_boxes£Û:, 0£Ý / float(w)

gt_boxes£Û:, 1£Ý = gt_boxes£Û:, 1£Ý / float(h)

gt_boxes£Û:, 2£Ý = gt_boxes£Û:, 2£Ý / float(w)

gt_boxes£Û:, 3£Ý = gt_boxes£Û:, 3£Ý / float(h)

return img, gt_boxes, gt_labels, (h, w)

¶ÔÓÚÒ»°ãµÄ¼ì²âÈÎÎñÀ´Ëµ£¬Ò»·ùÍ¼ÏñÉÏÍùÍù»áÓÐ¶à¸öÄ¿±êÎïÌå(Ã¿·ùÍ¼ÏñÉÏµÄÄ¿±êÊýÄ¿²¢²»¹Ì¶¨)£¬ÕâÑù¾ÍÎÞ·¨¹Ì¶¨Ã¿·ùÍ¼ÏñµÄÄ¿±êÊµÀýÁÐ±íµÄ³¤¶È(ÒÔ×ø±êÎ»ÖÃÎªÀý£¬³¤¶ÈÎª4¡ÁÄ¿±êÊýÄ¿)¡£Òò´ËÔÚÊäÈëÍøÂçÖ®Ç°ÐèÒªÍ³Ò»ËùÓÐÍ¼ÏñµÄ±ê×¢³¤¶È£¬Í¨¹ýget_bbox½«Ä¿±ê¾ØÐÎ¿òºÍ±êÇ©¶¼Ìî³äÖÁ50£¬¶ÔÓÚ¶à³öÍ¼ÏñÖÐÄ¿±êµÄ²¿·ÖÓÃ0²¹Æë¡£

def get_bbox(gt_bbox, gt_class):

MAX_NUM = 50

gt_bbox2 = np.zeros((MAX_NUM, 4))

gt_class2 = np.zeros((MAX_NUM,))

for i in range(len(gt_bbox)):

gt_bbox2£Ûi, :£Ý = gt_bbox£Ûi, :£Ý

gt_class2£Ûi£Ý = gt_class£Ûi£Ý

if i >= MAX_NUM:

break

return gt_bbox2, gt_class2

(2) Êý¾ÝÔ¤´¦Àí¡£

ÔÚÑµÁ·Ö®Ç°£¬Í¨³£»á¶ÔÍ¼Ïñ×öÒ»Ð©Ëæ»úµÄ±ä»¯£¬²úÉúÏàËÆµ«ÓÖ²»ÍêÈ«ÏàÍ¬µÄÑù±¾¡£ÆäÖ÷Òª×÷ÓÃÊÇÀ©´óÑµÁ·Êý¾Ý¼¯£¬ÒÖÖÆ¹ýÄâºÏ£¬ÌáÉýÄ£ÐÍµÄ·º»¯ÄÜÁ¦£¬ÔÚ¼ì²âÈÎÎñÖÐ³£ÓÃµÄ·½·¨Ö÷ÒªÓÐÒÔÏÂ¼¸ÖÖ¡£

Ëæ»ú¸Ä±äÁÁ¶È¡¢¶Ô±È¶ÈºÍÑÕÉ«£º  Ã¿´Î¼ÓÔØÊý¾ÝÊ±£¬ÔÚÒ»¶¨·¶Î§ÄÚËæ»ú¸Ä±äÍ¼ÏñµÄÁÁ¶È¡¢¶Ô±È¶ÈºÍÑÕÉ«µÄÖµ¡£

def random_distort(img):

# Ëæ»ú¸Ä±äÁÁ¶È

def random_brightness(img, lower=0.5, upper=1.5):

e = np.random.uniform(lower, upper)

return ImageEnhance.Brightness(img).enhance(e)

# Ëæ»ú¸Ä±ä¶Ô±È¶È

def random_contrast(img, lower=0.5, upper=1.5):

e = np.random.uniform(lower, upper)

return ImageEnhance.Contrast(img).enhance(e)

# Ëæ»ú¸Ä±äÑÕÉ«

def random_color(img, lower=0.5, upper=1.5):

e = np.random.uniform(lower, upper)

return ImageEnhance.Color(img).enhance(e)

ops = £Ûrandom_brightness, random_contrast, random_color£Ý

np.random.shuffle(ops)

img = Image.fromarray(img)

img = ops£Û0£Ý(img)

img = ops£Û1£Ý(img)

img = ops£Û2£Ý(img)

img = np.asarray(img)

return img

Ëæ»úÌî³ä£º  Ã¿´Î¼ÓÔØÊý¾ÝÊ±£¬ÒÔÒ»¶¨µÄ¸ÅÂÊÔÚÍ¼Ïñ±ßÔµ´¦Ìí¼ÓÒ»¶¨·¶Î§ÄÚµÄËæ»ú±ß¿ò¡£µ«ÐèÒª×¢ÒâµÄÊÇ£¬Ìî³ä»á¸Ä±äÍ¼ÏñµÄ´óÐ¡£¬Òò´Ë±ê×¢Ò²ÒªÏàÓ¦µØ×ö³öµ÷Õû(ÈçÍ¼3ª²2ª²5ËùÊ¾)¡£

def random_expand(img,gtboxes,max_ratio=4.,fill=None, keep_ratio=True, thresh=0.5):

if random.random() > thresh:

return img, gtboxes

if max_ratio < 1.0:

return img, gtboxes

h, w, c = img.shape

ratio_x = random.uniform(1, max_ratio)

if keep_ratio:

ratio_y = ratio_x

else:

ratio_y = random.uniform(1, max_ratio)

oh = int(h * ratio_y)

ow = int(w * ratio_x)

off_x = random.randint(0, ow - w)

off_y = random.randint(0, oh - h)

out_img = np.zeros((oh, ow, c))

if fill and len(fill) == c:

for i in range(c):

out_img£Û:, :, i£Ý = fill£Ûi£Ý * 255.0

out_img£Ûoff_y:off_y + h, off_x:off_x + w, :£Ý = img

gtboxes£Û:, 0£Ý = ((gtboxes£Û:, 0£Ý * w) + off_x) / float(ow)

gtboxes£Û:, 1£Ý = ((gtboxes£Û:, 1£Ý * h) + off_y) / float(oh)

gtboxes£Û:, 2£Ý = gtboxes£Û:, 2£Ý / ratio_x

gtboxes£Û:, 3£Ý = gtboxes£Û:, 3£Ý / ratio_y

return out_img.astype('uint8'), gtboxes



Í¼3ª²2ª²5Ëæ»úÌî³äÐ§¹û


Ëæ»ú²Ã¼ô£º  ¶ÔÍ¼Ïñ½øÐÐËæ»úµÄ²Ã¼ô£¬µ«ÐèÒª×¢ÒâµÄÊÇ£¬²Ã¼ô»á¸Ä±äÍ¼ÏñµÄ´óÐ¡£¬Òò´Ë±ê×¢Ò²ÒªÏàÓ¦µØµ÷Õû¡£

def box_crop(boxes, labels, crop, img_shape):

x, y, w, h = map(float, crop)

im_w, im_h = map(float, img_shape)

boxes = boxes.copy()

boxes£Û:, 0£Ý, boxes£Û:, 2£Ý = (boxes£Û:, 0£Ý - boxes£Û:, 2£Ý / 2) * im_w, (boxes£Û:, 0£Ý + boxes£Û:, 2£Ý / 2) * im_wboxes£Û:, 1£Ý, boxes£Û:, 3£Ý = (boxes£Û:, 1£Ý - boxes£Û:, 3£Ý / 2) * im_h, (boxes£Û:, 1£Ý + boxes£Û:, 3£Ý / 2) * im_hcrop_box = np.array(£Ûx, y, x + w, y + h£Ý)

centers = (boxes£Û:, :2£Ý + boxes£Û:, 2:£Ý) / 2.0

mask = np.logical_and(crop_box£Û:2£Ý <= centers, centers <= crop_box£Û2:£Ý).all(axis=1)

boxes£Û:, :2£Ý = np.maximum(boxes£Û:, :2£Ý, crop_box£Û:2£Ý)

boxes£Û:, 2:£Ý = np.minimum(boxes£Û:, 2:£Ý, crop_box£Û2:£Ý)

boxes£Û:, :2£Ý -= crop_box£Û:2£Ý

boxes£Û:, 2:£Ý -= crop_box£Û:2£Ý

mask = np.logical_and(mask, (boxes£Û:, :2£Ý < boxes£Û:, 2:£Ý).all(axis=1))

boxes = boxes * np.expand_dims(mask.astype('float32'), axis=1)

labels = labels * mask.astype('float32')

boxes£Û:, 0£Ý, boxes£Û:, 2£Ý = (boxes£Û:, 0£Ý + boxes£Û:, 2£Ý) / 2 / w, ( boxes£Û:, 2£Ý - boxes£Û:, 0£Ý) / 
w    boxes£Û:, 1£Ý, boxes£Û:, 3£Ý = (boxes£Û:, 1£Ý + boxes£Û:, 3£Ý) / 2 / h, (boxes£Û:, 3£Ý - boxes£Û:, 1£Ý) / 

h return boxes, labels, mask.sum()

Ëæ»úËõ·Å£º  ¶ÔÍ¼ÏñµÄ´óÐ¡½øÐÐµ÷Õû¡£ÒòÎª±ê×¢»á×ª»»³ÉÍ¼ÏñÖÐÏà¶Ô×ø±êÎ»ÖÃµÄÐÎÊ½£¬Òò´ËËõ·Å²»»á¶Ô±ê×¢Ôì³ÉÓ°Ïì¡£

def random_interp(img, size, interp=None):

interp_method = £Û

cv2.INTER_NEAREST,

cv2.INTER_LINEAR,

cv2.INTER_AREA,

cv2.INTER_CUBIC,

cv2.INTER_LANCZOS4,

£Ý

if not interp or interp not in interp_method:

interp = interp_method£Ûrandom.randint(0, len(interp_method) - 1)£Ý

h, w, _ = img.shape

im_scale_x = size / float(w)

im_scale_y = size / float(h)

img = cv2.resize(

img, None, None, fx=im_scale_x, fy=im_scale_y, interpolation=interp)

return img

Ëæ»ú·­×ª£º  ¶ÔÍ¼Ïñ°´ÕÕÖÐÐÄ½øÐÐ¶Ô³Æ·­×ª£¬ÏàÓ¦µÄ±ê×¢Ò²Òªµ÷Õû¡£

def random_flip(img, gtboxes, thresh=0.5):

if random.random() > thresh:

img = img£Û:, ::-1, :£Ý

gtboxes£Û:, 0£Ý = 1.0 - gtboxes£Û:, 0£Ý

return img, gtboxes

Ëæ»ú´òÂÒ±ê×¢¿òµÄÅÅÁÐË³Ðò£º  Ã¿·ùÍ¼Ïñ´æÔÚÒ»¸öÖÁ¶à¸öÄ¿±êÊµÀý£¬Ã¿´ÎÑµÁ·Ê±£¬Ëæ»ú´òÂÒÕâÐ©ÊµÀý±ê×¢µÄË³Ðò¡£

def shuffle_gtbox(gtbox, gtlabel):

gt = np.concatenate(£Ûgtbox, gtlabel£Û:, np.newaxis£Ý£Ý, axis=1)

idx = np.arange(gt.shape£Û0£Ý)

np.random.shuffle(idx)

gt = gt£Ûidx, :£Ý

return gt£Û:, :4£Ý, gt£Û:, 4£Ý

ÔÚ¶ÁÈ¡Êý¾ÝµÄ¹ý³ÌÖÐ£¬ÎÒÃÇ»á°´Ë³Ðò½øÐÐÉÏÊöµÄÊý¾ÝÔöÇ¿·½·¨£¬ÒÔÀ©³äÑù±¾µÄ¶àÑùÐÔ¡£Í¨¹ýÕâÖÖ·½Ê½Ã¿´ÎËÍÈëÍøÂçµÄÊý¾Ý¶¼²»¾¡ÏàÍ¬£º  

def image_augment(img, gtboxes, gtlabels, size, means=None):

# Ëæ»ú¸Ä±äÁÁ°µ¡¢¶Ô±È¶ÈºÍÑÕÉ«µÈ

img = random_distort(img)

# Ëæ»úÌî³ä

img, gtboxes = random_expand(img, gtboxes, fill=means)

# Ëæ»ú²Ã¼ô

img, gtboxes, gtlabels, = random_crop(img, gtboxes, gtlabels)

# Ëæ»úËõ·Å

img = random_interp(img, size)

# Ëæ»ú·­×ª

img, gtboxes = random_flip(img, gtboxes)

# Ëæ»ú´òÂÒÕæÊµ¿òÅÅÁÐË³Ðò

gtboxes, gtlabels = shuffle_gtbox(gtboxes, gtlabels)

return img.astype('float32'), gtboxes.astype('float32'), gtlabels.astype('int32')

½ÓÏÂÀ´£¬ÎÒÃÇÍ¨¹ýget_img_dataÀ´µ÷ÓÃÇ°ÃæµÄº¯Êý£¬ÊµÏÖÊý¾ÝµÄ¶ÁÈë£¬Ê×ÏÈÍ¨¹ýget_img_data_from_file¶ÁÈ¡Í¼Ïñ¡¢±ê×¢ÎÄ¼þºÍÍ¼Ïñ³ß´ç£¬Ö®ºóÍ¨¹ýimage_augment¶ÔÍ¼Ïñ½øÐÐÊý¾ÝÔö¹ã£¬×îºóÔÙ½«µÃµ½µÄÍ¼Ïñ½øÐÐ¹éÒ»»¯£¬²¢½«Î¬¶È´Ó£ÛH, W, C£Ýµ÷ÕûÎª£ÛC, H, W£Ý¡£

def get_img_data(record, size=640):

img, gt_boxes, gt_labels, scales = get_img_data_from_file(record)

img, gt_boxes, gt_labels = image_augment(img, gt_boxes, gt_labels, size)

mean = £Û0.485, 0.456, 0.406£Ý

std = £Û0.229, 0.224, 0.225£Ý

mean = np.array(mean).reshape((1, 1, -1))

std = np.array(std).reshape((1, 1, -1))

img = (img / 255.0 - mean) / std

img = img.astype('float32').transpose((2, 0, 1))

return img, gt_boxes, gt_labels, scales

×îºó£¬ÊÇÊý¾Ý¼ÓÔØµÄ×îºóÒ»²½£¬Ò²ÊÇ×îÖØÒªµÄÒ»²½£¬¶¨ÒåÊý¾Ý¶ÁÈ¡ÀàTrainDataset¡£ÔÚinit()º¯ÊýÖÐ£¬ÎÒÃÇÍ¨¹ýget_annotations»ñÈ¡ËùÓÐÍ¼ÏñµÄ±ê×¢ºÍÍ¼ÏñËùÔÚµÄÂ·¾¶£»  ÔÚgetitem()º¯ÊýÖÐÍ¨¹ýget_img_data·µ»ØÍ¼ÏñºÍ±ê×¢¡£

class TrainDataset(paddle.io.Dataset):

def  init(self, datadir, mode ='train'):

self.datadir = datadir

cname2cid = get_insect_names()

self.records = get_annotations(cname2cid, datadir)

self.img_size = 640  #get_img_size(mode)

def getitem(self, idx):

record = self.records£Ûidx£Ý

# print("print: ", record)

img, gt_bbox, gt_labels, im_shape = get_img_data(record, size=self.img_size)

return img, gt_bbox, gt_labels, np.array(im_shape)

²½Öè3£º  ´î½¨YOLOV3ÍøÂç

Ê×ÏÈ½éÉÜÔÚ±¾Êµ¼ùÖÐÊ¹ÓÃµ½µÄAPI½Ó¿Ú¡£

paddle.nn.functional.leaky_relu(x,

negative_slope=0.01,

name=None):

¸Ã½Ó¿ÚÓÃÓÚÊµÏÖleaky_reluµÄ¼¤»î²ã¡£

¤r x(Tensor)£º  ÊäÈëTensor£¬Êý¾ÝÀàÐÍÎªfloat32¡¢float64¡£

¤r negative_slope(float£¬¿ÉÑ¡)£º  x<0Ê±µÄÐ±ÂÊ¡£Ä¬ÈÏÖµÎª0.01¡£

¤r name(str,¿ÉÑ¡)£º ²Ù×÷µÄÃû³Æ(¿ÉÑ¡£¬Ä¬ÈÏÖµÎªNone)¡£

paddle.add(x,y,name=None)£º  ¸Ã½Ó¿ÚÊÇÖðÔªËØÏà¼ÓËã×Ó£¬ÊäÈëxÓëÊäÈëyÖðÔªËØÏà¼Ó£¬²¢½«¸÷¸öÎ»ÖÃµÄÊä³öÔªËØ±£´æµ½·µ»Ø½á¹ûÖÐ¡£

¤r x(Tensor)£º  ÊäÈëTensor£¬Êý¾ÝÀàÐÍÎªfloat32¡¢float64¡¢int32¡¢int64¡£

¤r y(Tensor)£º  ÊäÈëTensor£¬Êý¾ÝÀàÐÍÎªfloat32¡¢float64¡¢int32¡¢int64¡£

¤r name(str£¬¿ÉÑ¡)£º  ²Ù×÷µÄÃû³Æ(¿ÉÑ¡£¬Ä¬ÈÏÖµÎªNone)¡£

paddle.vision.ops.yolo_loss(x,

gt_box,

gt_label,

anchors,

anchor_mask,

class_num,

ignore_thresh,

downsample_ratio,

gt_score=None,

use_label_smooth=True,

name=None,

scale_x_y=1.0):

¸ÃÔËËãÍ¨¹ý¸ø¶¨µÄÔ¤²â½á¹ûºÍÕæÊµ¿ò¼ÆËãYOLOV3ËðÊ§¡£

¤r x(Tensor) £º   YOLOV3ËðÊ§ÔËËãµÄÊäÈëÕÅÁ¿£¬ÕâÊÇÒ»¸öÐÎ×´Îª£ÛN£¬C£¬H£¬W£ÝµÄËÄÎ¬Tensor¡£HºÍWÓ¦¸ÃÏàÍ¬£¬µÚ¶þÎ¬(C)´æ´¢¿òµÄÎ»ÖÃÐÅÏ¢£¬ÒÔ¼°Ã¿¸öanchor boxµÄÖÃÐÅ¶ÈµÃ·ÖºÍoneª²hot·ÖÀà¡£Êý¾ÝÀàÐÍÎªfloat32»òfloat64¡£

¤r gt_box(Tensor) £º  ÕæÊµ¿ò£¬Ó¦¸ÃÊÇ£ÛN£¬B£¬4£ÝµÄÐÎ×´¡£µÚÈýÎ¬ÓÃÀ´³ÐÔØx¡¢y¡¢w¡¢h£¬ÆäÖÐ x¡¢yÊÇÕæÊµ¿òµÄÖÐÐÄ×ø±ê£¬w¡¢hÊÇ¿òµÄ¿í¶ÈºÍ¸ß¶È£¬ÇÒx¡¢y¡¢w¡¢h½«³ýÒÔÊäÈëÍ¼Æ¬µÄ³ß´ç£¬Ëõ·Åµ½£Û0,1£ÝÇø¼äÄÚ¡£ NÊÇbatch size£¬BÊÇÍ¼ÏñÖÐËùº¬ÓÐµÄµÄ×î¶àµÄboxÊýÄ¿¡£Êý¾ÝÀàÐÍÎªfloat32»òfloat64¡£

¤r gt_label(Tensor) £º  ÕæÊµ¿òµÄÀàid£¬Ó¦¸ÃÐÎÎª£ÛN£¬B£Ý¡£Êý¾ÝÀàÐÍÎªint32¡£

¤r anchors(list|tuple) £º  Ö¸¶¨anchor¿òµÄ¿í¶ÈºÍ¸ß¶È£¬½«Öð¶Ô½øÐÐ½âÎö¡£

¤r anchor_mask(list|tuple) £º  µ±Ç°YOLOV3ËðÊ§¼ÆËãÖÐÊ¹ÓÃanchorµÄmaskË÷Òý¡£

¤r class_num(int) £º  ÒªÔ¤²âµÄÀà±ðÊý¡£

¤r ignore_thresh(float) £º  Ò»¶¨Ìõ¼þÏÂºöÂÔÄ³¿òÖÃÐÅ¶ÈËðÊ§µÄºöÂÔãÐÖµ¡£

¤r downsample_ratio(int) £º  ÍøÂçÊäÈëYOLOV3 lossÖÐµÄÏÂ²ÉÑùÂÊ£¬Òò´ËµÚÒ»¡¢µÚ¶þºÍµÚÈý¸ö loss µÄÏÂ²ÉÑùÂÊÓ¦·Ö±ðÎª32,16,8¡£

¤r gt_score(Tensor)£º   ÕæÊµ¿òµÄ»ìºÏµÃ·Ö£¬ÐÎÎª£ÛN£¬B£Ý¡£ Ä¬ÈÏÎªNone¡£Êý¾ÝÀàÐÍÎªfloat32»òfloat64¡£

¤r use_label_smooth(bool)£º   ÊÇ·ñÊ¹ÓÃÆ½»¬±êÇ©¡£ Ä¬ÈÏÎªTrue¡£

¤r name(str£¬¿ÉÑ¡)£º   ²Ù×÷µÄÃû³Æ(¿ÉÑ¡£¬Ä¬ÈÏÖµÎªNone)¡£

¤r scale_x_y(float,¿ÉÑ¡)£º   Ëõ·Å½âÂë±ß½ç¿òµÄÖÐÐÄµã¡£ Ä¬ÈÏÖµÎª1.0¡£

(1) YOLOV3±êÇ©·ÖÅä¡£

IoUÊÇÄ¿±ê¼ì²â¹ý³ÌÖÐ³£ÓÃµÄ±ê×¼£¬ÓÃÓÚ·´Ó³Á½¸ö¿òÖ®¼äµÄ½»²¢±È¡£Òò´Ë£¬ÔÚ½øÐÐÍøÂç´î½¨Ö®Ç°£¬Ê×ÏÈÒª¶¨ÒåÓÃÓÚ¼ÆËãIoUµÄº¯Êýbox_iou_xywh¡£

def box_iou_xywh(box1, box2):

x1min, y1min = box1£Û0£Ý - box1£Û2£Ý/2.0, box1£Û1£Ý - box1£Û3£Ý/2.0

x1max, y1max = box1£Û0£Ý + box1£Û2£Ý/2.0, box1£Û1£Ý + box1£Û3£Ý/2.0

s1 = box1£Û2£Ý * box1£Û3£Ý

x2min, y2min = box2£Û0£Ý - box2£Û2£Ý/2.0, box2£Û1£Ý - box2£Û3£Ý/2.0

x2max, y2max = box2£Û0£Ý + box2£Û2£Ý/2.0, box2£Û1£Ý + box2£Û3£Ý/2.0

s2 = box2£Û2£Ý * box2£Û3£Ý

xmin = np.maximum(x1min, x2min)

ymin = np.maximum(y1min, y2min)

xmax = np.minimum(x1max, x2max)

ymax = np.minimum(y1max, y2max)

inter_h = np.maximum(ymax - ymin, 0.)

inter_w = np.maximum(xmax - xmin, 0.)

intersection = inter_h * inter_w

union = s1 + s2 - intersection

iou = intersection / union

return iou

YOLOV3ÔÚÑµÁ·µÄ¹ý³ÌÖÐÊ×ÏÈÐèÒª²úÉúÃª¿ò£¬²¢¸ù¾Ý±ê×¢¶ÔºòÑ¡¿ò·ÖÅä±êÇ©¡£Ã¿Ò»¸öobjectness±ê×¢Îª1µÄÃª¿ò£¬»áÓÐÒ»¸öÕæÊµµÄ±ê×¢¿ò¸úËü¶ÔÓ¦£¬¸ÃÃª¿òËùÊôÎïÌåÀà±ð£¬ÊÇÆäËù¶ÔÓ¦µÄÕæÊµ¿ò°üº¬µÄÎïÌåÀà±ð¡£ÕâÀïÊ¹ÓÃoneª²hotÏòÁ¿À´±íÊ¾Àà±ð±êÇ©label¡£±ÈÈçÒ»¹²ÓÐ10¸ö·ÖÀà£¬¶øÕæÊµµÄ±ê×¢¿òÀïÃæ°üº¬µÄÎïÌåÀà±ðÊÇµÚ2Àà£¬ÔòlabelÎª(0,1,0,0,0,0,0,0,0,0)£¬¾ßÌåµÄ¹ý³ÌÈçÍ¼3ª²2ª²6ËùÊ¾¡£





Í¼3ª²2ª²6±êÇ©·ÖÅä¹ý³Ì





(2) YOLOV3 ÌØÕ÷ÌáÈ¡ÍøÂç¡£

YOLOV3Ëã·¨Ê¹ÓÃµÄÌØÕ÷ÌáÈ¡ÍøÂçÊÇDarknet53¡£Darknet53ÔÚImageNetÍ¼Ïñ·ÖÀàÈÎÎñÉÏÈ¡µÃÁËºÜºÃµÄ³É¼¨£¬ÍøÂçµÄ¾ßÌå½á¹¹ÈçÍ¼3ª²2ª²7ËùÊ¾¡£ÔÚ¼ì²âÈÎÎñÖÐ£¬½«Í¼ÖÐC0ºóÃæµÄÆ½¾ù³Ø»¯¡¢È«Á¬½Ó²ãºÍSoftmaxÈ¥µô£¬±£Áô´ÓÊäÈëµ½C0²¿·ÖµÄÍøÂç½á¹¹£¬×÷Îª¼ì²âÄ£ÐÍµÄ»ù´¡ÍøÂç½á¹¹£¬Ò²³ÆÎª¹Ç¸ÉÍøÂç¡£YOLOV3Ä£ÐÍ»áÔÚ¹Ç¸ÉÍøÂçµÄ»ù´¡ÉÏ£¬ÔÙÌí¼Ó¼ì²âÏà¹ØµÄÍøÂçÄ£¿é¡£

ÒòÎªDarkNet53µÄÍøÂç²ãÊý±È½Ï¶à£¬Òò´ËÎÒÃÇ²ÉÓÃÁËÄ£¿é»¯µÄ´î½¨ÐÎÊ½¡£Ê×ÏÈ£¬´î½¨¾í»ý£«Åú¹éÒ»»¯²ãµÄ×ÓÄ£¿éConvBNLayer()º¯Êý£¬ËüÓÉÒ»²ã¾í»ýºÍÒ»²ãÅú¹éÒ»»¯²ã×é³É£¬¸ù¾ÝÊäÈë¿ÉÒÔÑ¡ÔñÊÇ·ñÊ¹ÓÃleaky_relu×÷Îª¼¤»îº¯Êý¡£

class ConvBNLayer(paddle.nn.Layer):

def init(self, ch_in, ch_out, 

kernel_size=3, stride=1, groups=1,

padding=0, act="leaky"):

super(ConvBNLayer, self).init()



self.conv = paddle.nn.Conv2D(

in_channels=ch_in,

out_channels=ch_out,

kernel_size=kernel_size,

stride=stride,

padding=padding,

groups=groups,

weight_attr=paddle.ParamAttr(

initializer=paddle.nn.initializer.Normal(0., 0.02)),

bias_attr=False)

self.batch_norm = paddle.nn.BatchNorm2D(

num_features=ch_out,

weight_attr=paddle.ParamAttr(

initializer=paddle.nn.initializer.Normal(0.,0.02),

regularizer=paddle.regularizer.L2Decay(0.)),

bias_attr=paddle.ParamAttr(

initializer=paddle.nn.initializer.Constant(0.0),

regularizer=paddle.regularizer.L2Decay(0.)))

self.act = act

def forward(self, inputs):

out = self.conv(inputs)

out = self.batch_norm(out)

if self.act == 'leaky':

out = F.leaky_relu(x=out, negative_slope=0.1)

return out



Í¼3ª²2ª²7Darknet53ÍøÂç½á¹¹


DownSampleÀàÊÇÔÚÍøÂçÖÐÓÃÓÚÏÂ²ÉÑùµÄÄ£¿é£¬ÔÚDarkNet53ÖÐÏÂ²ÉÑùÊÇÍ¨¹ý²½³¤Îª£²µÄ¾í»ý²ãÊµÏÖµÄ£¬¿ÉÒÔÊµÏÖÌØÕ÷·Ö±ðÂÊ¼õ°ë¡£

class DownSample(paddle.nn.Layer):

# ÏÂ²ÉÑù£¬Í¼Æ¬³ß´ç¼õ°ë£¬¾ßÌåÊµÏÖ·½Ê½ÊÇÊ¹ÓÃstirde=2µÄ¾í»ý

def init(self,

ch_in,

ch_out,

kernel_size=3,

stride=2,

padding=1):

super(DownSample, self).init()

self.conv_bn_layer = ConvBNLayer(

ch_in=ch_in,

ch_out=ch_out,

kernel_size=kernel_size,

stride=stride,

padding=padding)

self.ch_out = ch_out

def forward(self, inputs):

out = self.conv_bn_layer(inputs)

return out

ÔÚDarkNet53ÖÐ£¬ÒýÈëÁËResNetÌøÔ¾Á¬½ÓµÄË¼Â·ºÍ²Ð²î½á¹¹¡£Í¨¹ýBasicBlockÀà¶¨ÒåDarkNet53ÖÐµÄ»ù±¾²Ð²î½á¹¹¡£¶ÔÓÚÊäÈëx£¬¾­¹ýÁ½´Î¾í»ý+Åú¹éÒ»»¯½á¹¹ºó£¬Í¨¹ýpaddle.addÓëÔ­Ê¼µÄÊäÈëxÏà¼Ó¡£

class BasicBlock(paddle.nn.Layer):

def init(self, ch_in, ch_out):

super(BasicBlock, self).init()

self.conv1 = ConvBNLayer(

ch_in=ch_in,

ch_out=ch_out,

kernel_size=1,

stride=1,

padding=0

)

self.conv2 = ConvBNLayer(

ch_in=ch_out,

ch_out=ch_out*2,

kernel_size=3,

stride=1,

padding=1

)

def forward(self, inputs):

conv1 = self.conv1(inputs)

conv2 = self.conv2(conv1)

out = paddle.add(x=inputs, y=conv2)

return out

LayerWarpÀàÒÔBasicBlockÎª»ù´¡£¬×éºÏ¶à¸ö²Ð²î½á¹¹£¬¹¹³ÉDarknet53ÍøÂçµÄÒ»¸ö²ã¼¶¡£

class LayerWarp(paddle.nn.Layer):

def init(self, ch_in, ch_out, count, is_test=True):

super(LayerWarp,self).init()

self.basicblock0 = BasicBlock(ch_in,

ch_out)

self.res_out_list = £Û£Ý

for i in range(1, count):

res_out = self.add_sublayer("basic_block_%d" % (i), # Ê¹ÓÃadd_sublayerÌí¼Ó×Ó²ã

BasicBlock(ch_out*2,

ch_out))

self.res_out_list.append(res_out)

def forward(self,inputs):

y = self.basicblock0(inputs)

for basic_block_i in self.res_out_list:

y = basic_block_i(y)

return y

Éè¼ÆÍêÓÃÓÚ¹¹½¨ÍøÂçµÄ¸÷¸ö×ÓÄ£¿éºó£¬½ÓÏÂÀ´¾ÍÒªÍ¨¹ýÕâÐ©Ä£¿éÀ´´î½¨DarkNet53£¬¹¹½¨YOLOV3µÄÌØÕ÷ÌáÈ¡ÍøÂç¡£¾ßÌåµØ£¬¸ù¾ÝÍ¼3ª²2ª²7µÄÍøÂç½á¹¹Ê¾Òâ£¬Ê×ÏÈÍ¨¹ýConvBNLayerÊµÏÖµÚÒ»¸ö¾í»ý²ã£¬ÔÙÍ¨¹ýDownSampleÊµÏÖÌØÕ÷Í¼µÄÏÂ²ÉÑù¡£

# DarkNet Ã¿×é²Ð²î¿éµÄ¸öÊý£¬À´×ÔDarkNetµÄÍøÂç½á¹¹Í¼

DarkNet_cfg = {53: (£Û1, 2, 8, 8, 4£Ý)}

class DarkNet53_conv_body(paddle.nn.Layer):

def init(self):

super(DarkNet53_conv_body, self).init()

self.stages = DarkNet_cfg£Û53£Ý

self.stages = self.stages£Û0:5£Ý

# µÚÒ»²ã¾í»ý

self.conv0 = ConvBNLayer(

ch_in=3,

ch_out=32,

kernel_size=3,

stride=1,

padding=1)

# ÏÂ²ÉÑù£¬Ê¹ÓÃstride=2µÄ¾í»ýÀ´ÊµÏÖ

self.downsample0 = DownSample(

ch_in=32,

ch_out=32 * 2)

½ÓÏÂÀ´Í¨¹ýÑ­»·µØµ÷ÓÃLayerWarpÊµÏÖÍ¼3ª²2ª²7ÖÐµÄÓÉ²»Í¬ÊýÁ¿²Ð²î½á¹¹×é³ÉµÄ¾í»ýµ¥Ôª(¿òÏßÄÚµÄ²¿·Ö)£¬Ã¿Á½¸öµ¥ÔªÖ®¼äÍ¨¹ýDownSample(´øÓÐ²½³¤µÄ¾í»ý)ÊµÏÖÌØÕ÷Í¼µÄÏÂ²ÉÑù¡£Í¬Ê±¿¼ÂÇºóÃæÍøÂç½á¹¹µÄÐèÒª£¬°ÑC0,C1,C2ÌØÕ÷Í¼¶¼×÷Îª·µ»ØÖµ¡£

# Ìí¼Ó¸÷¸ö²ã¼¶µÄÊµÏÖ

self.darknet53_conv_block_list = £Û£Ý

self.downsample_list = £Û£Ý

for i, stage in enumerate(self.stages):

conv_block = self.add_sublayer(

"stage_%d" % (i),

LayerWarp(32*(2**(i+1)),

32*(2**i),

stage))

self.darknet53_conv_block_list.append(conv_block)

# Á½¸ö²ã¼¶Ö®¼äÊ¹ÓÃDownSample½«³ß´ç¼õ°ë

for i in range(len(self.stages) - 1):

downsample = self.add_sublayer(

"stage_%d_downsample" % i,

DownSample(ch_in=32*(2**(i+1)),

ch_out=32*(2**(i+2))))

self.downsample_list.append(downsample)

def forward(self,inputs):

out = self.conv0(inputs)

out = self.downsample0(out)

blocks = £Û£Ý

for i, conv_block_i in enumerate(self.darknet53_conv_block_list):

#ÒÀ´Î½«¸÷¸ö²ã¼¶×÷ÓÃÔÚÊäÈëÉÏÃæ

out = conv_block_i(out)

blocks.append(out)

if i < len(self.stages) - 1:

out = self.downsample_list£Ûi£Ý(out)

return blocks£Û-1:-4:-1£Ý # ½«C0, C1, C2×÷Îª·µ»ØÖµ

(3) YOLOV3 Ô¤²âÍøÂçÌØÕ÷ÌáÈ¡¡£

Í¨¹ýDarknet53ºÍÉÏ²ÉÑùµÃµ½µÄÌØÕ÷£¬²¢²»ÄÜÖ±½ÓÓÃÓÚÄ£ÐÍÔ¤²â£¬»¹ÐèÒª¾­¹ýÒ»ÏµÁÐµÄ¾í»ý¹ý³Ì¡£Òò´Ë£¬Í¨¹ýYOLODetectionBlockÀ´½øÒ»²½ÌáÈ¡ÌØÕ÷£¬YOLODetectionBlockÓÉ6×é¾í»ýºÍÅú¹éÒ»»¯µÄ½á¹¹×é³É£¬Í¬Ê±·µ»ØÖÐ¼äºÍ×îºóµÄÌØÕ÷Í¼¡£

class YOLODetectionBlock(paddle.nn.Layer):

def init(self,ch_in,ch_out,is_test=True):

super(YOLODetectionBlock, self).init()

self.conv0 = ConvBNLayer(

ch_in=ch_in,ch_out=ch_out,kernel_size=1,stride=1,padding=0)

self.conv1 = ConvBNLayer(

ch_in=ch_out,

ch_out=ch_out*2,

kernel_size=3,

stride=1,

padding=1)

self.conv2 = ConvBNLayer(

ch_in=ch_out*2,

ch_out=ch_out,

kernel_size=1,

stride=1,

padding=0)

self.conv3 = ConvBNLayer(

ch_in=ch_out,

ch_out=ch_out*2,

kernel_size=3,

stride=1,

padding=1)

self.route = ConvBNLayer(

ch_in=ch_out*2,

ch_out=ch_out,

kernel_size=1,

stride=1,

padding=0)

self.tip = ConvBNLayer(

ch_in=ch_out,

ch_out=ch_out*2,

kernel_size=3,

stride=1,

padding=1)

def forward(self, inputs):

out = self.conv0(inputs)

out = self.conv1(out)

out = self.conv2(out)

out = self.conv3(out)

route = self.route(out)

tip = self.tip(route)

return route, tip

(4) YOLOV3 ÉÏ²ÉÑù²¿·Ö¡£

YOLOV3½«ÔÚÈý¸ö²»Í¬³ß¶ÈµÄÌØÕ÷Í¼ÉÏ½øÐÐÔ¤²â£¬Òò´ËÐèÒª¸ù¾ÝDarknet53ÌáÈ¡µÄÌØÕ÷Í¼ºÍUpsampleÀà¹¹½¨ÓÃÓÚÔ¤²âµÄ¶à¸ö³ß¶ÈµÄÌØÕ÷Í¼£º  

class Upsample(paddle.nn.Layer):

def init(self, scale=2):

super(Upsample,self).init()

self.scale = scale



def forward(self, inputs):

# get dynamic upsample output shape

shape_nchw = paddle.shape(inputs)

shape_hw = paddle.slice(shape_nchw, axes=£Û0£Ý, starts=£Û2£Ý, ends=£Û4£Ý)

shape_hw.stop_gradient = True

in_shape = paddle.cast(shape_hw, dtype='int32')

out_shape = in_shape * self.scale

out_shape.stop_gradient = True



# reisze by actual_shape

out = paddle.nn.functional.interpolate(

x=inputs, scale_factor=self.scale, mode="NEAREST")

return out

(5) YOLOV3 ÕûÌå½á¹¹¡£

ÔÚÊµÏÖYOLOV3µÄ¸÷¸ö×é¼þÖ®ºó£¬½ÓÏÂÀ´Òª¶¨ÒåYOLOV3Ä£ÐÍµÄÕûÌå½á¹¹£¬ÆäÖÐ°üÀ¨init¡¢forwardºÍget_loss¡£

ÔÚinit²¿·Ö£¬Í¨¹ýDarkNet53_conv_body()´î½¨ÌØÕ÷ÌáÈ¡ÍøÂçDarkNet53,²¢Í¨¹ýYOLODetectionBlockºÍUpsample¹¹½¨ÓÃÓÚÔ¤²âµÄÈýÖÖ³ß¶ÈµÄÌØÕ÷Í¼¡£¶ÔÓÚÃ¿ÖÖ³ß¶ÈÌØÖÖÍ¼Ê¹ÓÃK(C+5)µÄ1¡Á1¾í»ý½øÐÐÔ¤²â£¬ÆäÖÐCÊÇÔ¤²âÀà±ð£¬KÊÇÃ¿¸ö³ß¶ÈÌØÕ÷Í¼ÉÏÔ¤ÉèµÄÃªµãÖÖÀàÊýÁ¿¡£

ÆäÖÐËðÊ§²¿·Öµ÷ÓÃÁË·É½°Æ½Ì¨ÓÃÓÚ¼ÆËãYOLOV3ËðÊ§µÄ½Ó¿Úpaddle.vision.ops.yolo_loss£¬YOLOV3ËðÊ§°üÀ¨Èý¸öÖ÷Òª²¿·Ö£º  ¿òÎ»ÖÃËðÊ§¡¢Ä¿±êÐÔËðÊ§¡¢·ÖÀàËðÊ§¡£L1ËðÊ§ÓÃÓÚ¿ò×ø±ê(w£¬h)£¬Í¬Ê±£¬sigmoid½»²æìØËðÊ§ÓÃÓÚ¿ò×ø±ê(x£¬y)¡¢Ä¿±êÐÔËðÊ§ºÍ·ÖÀàËðÊ§¡£

Ã¿¸öÕæÊµ¿ò½«ÔÚËùÓÐanchorÖÐÕÒµ½×îÆ¥ÅäµÄanchor£¬¶Ô¸ÃanchorµÄÔ¤²â½«»á¼ÆËãÈ«²¿(ÈýÖÖ)ËðÊ§£¬µ«ÊÇÃ»ÓÐÆ¥ÅäGT box(ground truth box£¬ÕæÊµ¿ò)µÄanchorµÄÔ¤²âÖ»»á²úÉúÄ¿±êÐÔËðÊ§¡£ÎªÁËÈ¨ºâ´ó¿ò(box)ºÍÐ¡¿ò(box)Ö®¼äµÄ¿ò×ø±êËðÊ§£¬¿ò×ø±êËðÊ§½«Óë±ÈÀýÈ¨ÖØÏà³Ë¶øµÃ¡£


loss=(lossxy+losswh)¡Áweightbox+lossconf+lossclass

YOLOV3 lossÇ°µÄÍøÂçÊä³öÐÎ×´Îª£ÛN£¬C£¬H£¬W£Ý£¬HºÍWÓ¦¸ÃÏàÍ¬£¬ÓÃÀ´Ö¸¶¨Íø¸ñ(grid)´óÐ¡¡£Ã¿¸öÍø¸ñµãÔ¤²âS¸ö±ß½ç¿ò(bounding boxes)£¬SÓÉÃ¿¸ö³ß¶ÈÖÐ anchors ´ØµÄ¸öÊýÖ¸¶¨¡£ÔÚµÚ¶þÎ¬(±íÊ¾Í¨µÀµÄÎ¬¶È)ÖÐ£¬CµÄÖµÓ¦ÎªS¡Á(class_num+5)£¬class_numÊÇÔ´Êý¾Ý¼¯µÄ¶ÔÏóÖÖÀàÊý(ÈçcocoÖÐÎª80)£¬ÁíÍâ£¬³ýÁË´æ´¢4¸ö±ß½ç¿òÎ»ÖÃ×ø±êx£¬y£¬w£¬h£¬»¹°üÀ¨±ß½ç¿òÒÔ¼°Ã¿¸öanchor¿òµÄoneª²hot¹Ø¼ü×ÖµÄÖÃÐÅ¶ÈµÃ·Ö¡£

class YOLOV3(paddle.nn.Layer):

def init(self, num_classes=7):

super(YOLOV3,self).init()

self.num_classes = num_classes

# ÌáÈ¡Í¼ÏñÌØÕ÷µÄ¹Ç¸É´úÂë

self.block = DarkNet53_conv_body()

self.block_outputs = £Û£Ý

self.YOLO_blocks = £Û£Ý

self.route_blocks_2 = £Û£Ý

# Éú³É3¸ö²ã¼¶µÄÌØÕ÷Í¼P0, P1, P2

for i in range(3):

# Ìí¼Ó´ÓciÉú³ÉriºÍtiµÄÄ£¿é

YOLO_block = self.add_sublayer(

"YOLO_detecton_block_%d" % (i),

YOLODetectionBlock(

ch_in=512//(2**i)*2 if i==0 else 512//(2**i)*2 + 512//(2**i),

ch_out = 512//(2**i)))

self.YOLO_blocks.append(YOLO_block)

num_filters = 3 * (self.num_classes + 5)

block_out = self.add_sublayer(

"block_out_%d" % (i),

paddle.nn.Conv2D(in_channels=512//(2**i)*2,

out_channels=num_filters,

kernel_size=1,

stride=1,

padding=0,

weight_attr=paddle.ParamAttr(

initializer=paddle.nn.initializer.Normal(0., 0.02)),

bias_attr=paddle.ParamAttr(

initializer=paddle.nn.initializer.Constant(0.0),

regularizer=paddle.regularizer.L2Decay(0.))))

self.block_outputs.append(block_out)

if i < 2:

# ¶Ôri½øÐÐ¾í»ý

route = self.add_sublayer("route2_%d"%i,

ConvBNLayer(ch_in=512//(2**i),

ch_out=256//(2**i),

kernel_size=1,

stride=1,

padding=0))

self.route_blocks_2.append(route)

# ½«ri·Å´óÒÔ±ã¸úc_{i+1}±£³ÖÍ¬ÑùµÄ³ß´ç

self.upsample = Upsample()

ÔÚforward()º¯ÊýÖÐÈ·¶¨YOLOV3ÍøÂç½á¹¹µÄ¸÷²ãÖ®¼äÇ°Ïò´«²¥µÄÏÈºóË³Ðò¡£

def forward(self, inputs):

outputs = £Û£Ý

blocks = self.block(inputs)

for i, block in enumerate(blocks):

if i > 0:

# ½«r_{i-1}¾­¹ý¾í»ýºÍÉÏ²ÉÑùÖ®ºóµÃµ½ÌØÕ÷Í¼£¬ÓëÕâÒ»¼¶µÄci½øÐÐÆ´½Ó

block = paddle.concat(£Ûroute, block£Ý, axis=1)

# ´ÓciÉú³ÉtiºÍri

route, tip = self.YOLO_blocks£Ûi£Ý(block)

# ´ÓtiÉú³Épi

block_out = self.block_outputs£Ûi£Ý(tip)

# ½«pi·ÅÈëÁÐ±í

outputs.append(block_out)

if i < 2:

# ¶Ôri½øÐÐ¾í»ýµ÷ÕûÍ¨µÀÊý

route = self.route_blocks_2£Ûi£Ý(route)

# ¶Ôri½øÐÐ·Å´ó£¬Ê¹Æä³ß´çºÍc_{i+1}±£³ÖÒ»ÖÂ

route = self.upsample(route)

return outputs

Í¨¹ýpaddle.vision.ops.YOLO_lossÖ±½Ó¼ÆËãËðÊ§º¯Êý£¬¹ý³Ì¸ü¼ò½à£¬ËÙ¶ÈÒ²¸ü¿ì¡£

def get_loss(self, outputs, gtbox, gtlabel, gtscore=None,

anchors = £Û10, 13, 16, 30, 33, 23, 30, 61, 62, 45, 59, 119, 116, 90, 156, 198, 373, 326£Ý,

anchor_masks = £Û£Û6, 7, 8£Ý, £Û3, 4, 5£Ý, £Û0, 1, 2£Ý£Ý,

ignore_thresh=0.7,

use_label_smooth=False):

self.losses = £Û£Ý

downsample = 32

for i, out in enumerate(outputs): # ¶ÔÈý¸ö²ã¼¶·Ö±ðÇóËðÊ§º¯Êý

anchor_mask_i = anchor_masks£Ûi£Ý

loss = paddle.vision.ops.YOLO_loss(

x=out,  # outÊÇP0, P1, P2ÖÐµÄÒ»¸ö

gt_box=gtbox, # ÕæÊµ¿ò×ø±ê

gt_label=gtlabel,  # ÕæÊµ¿òÀà±ð

gt_score=gtscore,  # ÕæÊµ¿òµÃ·Ö£¬Ê¹ÓÃmixupÑµÁ·¼¼ÇÉÊ±ÐèÒª

anchors=anchors,   # Ãª¿ò³ß´ç£¬°üº¬£Ûw0, h0, w1, h1, ..., w8, h8£Ý¹²9¸öÃª¿òµÄ³ß´ç

anchor_mask=anchor_mask_i, # É¸Ñ¡Ãª¿òµÄmask 

class_num=self.num_classes, # ·ÖÀàÀà±ðÊý

ignore_thresh=ignore_thresh, # µ±Ô¤²â¿òÓëÕæÊµ¿òIoU > ignore_thresh£¬±ê×¢objectness = -1

downsample_ratio=downsample, # ÌØÕ÷Í¼Ïà¶ÔÓÚÔ­Í¼ËõÐ¡±¶Êý

use_label_smooth=False)      # Ê¹ÓÃlabel_smooth

self.losses.append(paddle.mean(loss))  #mean¶ÔÃ¿ÕÅÍ¼Æ¬ÇóºÍ

downsample = downsample // 2 # ÏÂÒ»¼¶ÌØÕ÷Í¼µÄËõ·Å±¶Êý»á¼õ°ë

return sum(self.losses) # ¶ÔÃ¿¸ö²ã¼¶ÇóºÍ

²½Öè4£º  ÑµÁ·YOLOV3ÍøÂç



Í¼3ª²2ª²8YOLOV3ÑµÁ·¹ý³ÌÁ÷³ÌÍ¼


ÑµÁ·¹ý³ÌÈçÍ¼3ª²2ª²8ËùÊ¾£¬ÊäÈëÍ¼Æ¬¾­¹ýÌØÕ÷ÌáÈ¡ºóµÃµ½Èý¸ö²ã¼¶µÄÊä³öÌØÕ÷Í¼P0(stride=32)¡¢P1(stride=16)ºÍP2(stride=8)£¬ÏàÓ¦µØ·Ö±ðÊ¹ÓÃ²»Í¬´óÐ¡µÄÐ¡·½¿éÇøÓòÈ¥Éú³É¶ÔÓ¦µÄÃª¿òºÍÔ¤²â¿ò£¬²¢¶ÔÕâÐ©Ãª¿ò½øÐÐ±ê×¢¡£

P0²ã¼¶ÌØÕ÷Í¼£¬¶ÔÓ¦Ê¹ÓÃ32¡Á32´óÐ¡µÄÐ¡·½¿é£¬ÔÚÃ¿¸öÇøÓòÖÐÐÄÉú³É´óÐ¡·Ö±ðÎª£Û116,90£Ý¡¢£Û156,198£Ý¡¢£Û373,326£ÝµÄÈýÖÖÃª¿ò¡£

P1²ã¼¶ÌØÕ÷Í¼£¬¶ÔÓ¦Ê¹ÓÃ16¡Á16´óÐ¡µÄÐ¡·½¿é£¬ÔÚÃ¿¸öÇøÓòÖÐÐÄÉú³É´óÐ¡·Ö±ðÎª£Û30,61£Ý¡¢£Û62,45£Ý¡¢£Û59,119£ÝµÄÈýÖÖÃª¿ò¡£

P2²ã¼¶ÌØÕ÷Í¼£¬¶ÔÓ¦Ê¹ÓÃ8¡Á8´óÐ¡µÄÐ¡·½¿é£¬ÔÚÃ¿¸öÇøÓòÖÐÐÄÉú³É´óÐ¡·Ö±ðÎª£Û10,13£Ý¡¢£Û16,30£Ý¡¢£Û33,23£ÝµÄÈýÖÖÃª¿ò¡£

½«Èý¸ö²ã¼¶µÄÌØÕ÷Í¼Óë¶ÔÓ¦Ãª¿òÖ®¼äµÄ±êÇ©¹ØÁªÆðÀ´£¬²¢½¨Á¢ËðÊ§º¯Êý£¬×ÜµÄËðÊ§º¯ÊýµÈÓÚÈý¸ö²ã¼¶µÄËðÊ§º¯ÊýÏà¼Ó¡£Í¨¹ý¼«Ð¡»¯ËðÊ§º¯Êý£¬¿ÉÒÔ¿ªÆô¶Ëµ½¶ËµÄÑµÁ·¹ý³Ì¡£

def train():

model = YOLOV3(num_classes = NUM_CLASSES)  #´´½¨Ä£ÐÍ

learning_rate = get_lr()

opt = paddle.optimizer.Momentum(

learning_rate=learning_rate,

momentum=0.9,

weight_decay=paddle.regularizer.L2Decay(0.0005),

parameters=model.parameters())  #´´½¨ÓÅ»¯Æ÷

MAX_EPOCH = 1

for epoch in range(MAX_EPOCH):

for i, data in enumerate(train_loader()):

img, gt_boxes, gt_labels, img_scale = data

gt_scores = np.ones(gt_labels.shape).astype('float32')

gt_scores = paddle.to_tensor(gt_scores)

img = paddle.to_tensor(img)

gt_boxes = paddle.to_tensor(gt_boxes)

gt_labels = paddle.to_tensor(gt_labels)

outputs = model(img)  #Ç°Ïò´«²¥£¬Êä³ö£ÛP0, P1, P2£Ý

loss = model.get_loss(outputs, gt_boxes, gt_labels, gtscore=gt_scores,

anchors = ANCHORS,

anchor_masks = ANCHOR_MASKS,

ignore_thresh=IGNORE_THRESH,

use_label_smooth=False)        # ¼ÆËãËðÊ§º¯Êý



loss.backward()    # ·´Ïò´«²¥¼ÆËãÌÝ¶È

opt.step()  # ¸üÐÂ²ÎÊý

opt.clear_grad()

ÑµÁ·¹ý³ÌÈçÍ¼3ª²2ª²9ËùÊ¾£¬ÔÚÑµÁ·¹ý³ÌÖÐ»áÊä³öÈ«²¿Êý¾ÝÑµÁ·µÄÂÖÊý¡¢batchµü´úµÄ´ÎÊýºÍÑµÁ·Ê±µÄËðÊ§¡£





Í¼3ª²2ª²9YOLOV3ÑµÁ·¹ý³ÌÖÐµÄ²¿·ÖÊä³ö


²½Öè5£º   YOLOV3Ô¤²âÄ£ÐÍ

Ä£ÐÍµÄÔ¤²â¹ý³ÌÈçÍ¼3ª²2ª²10ËùÊ¾£¬¿ÉÒÔ·ÖÎªÁ½²½£º  

(1) Í¨¹ýÍøÂçÊä³ö¼ÆËã³öÔ¤²â¿òÎ»ÖÃºÍËùÊôÀà±ðµÄµÃ·Ö£»  

(2) Ê¹ÓÃ·Ç¼«´óÖµÒÖÖÆÀ´Ïû³ýÖØµþ½Ï´óµÄÔ¤²â¿ò¡£



ÔÚYOLOV3ÀàÖÐÌí¼Óget_pred()º¯Êý£¬½«ÍøÂçÊä³öµÄÌØÕ÷×ª»»³ÉÍøÂçÔ¤²âµÄ¾ØÐÎ¿ò×ø±êºÍ¾ØÐÎ¿ò¶ÔÓ¦µÄÀà±ð£º  

def get_pred(self,

outputs,

im_shape=None,

anchors = £Û10, 13, 16, 30, 33, 23, 30, 61, 62, 45, 59, 119, 116, 90, 156, 198, 373, 326£Ý,

anchor_masks = £Û£Û6, 7, 8£Ý, £Û3, 4, 5£Ý, £Û0, 1, 2£Ý£Ý,

valid_thresh = 0.01):


downsample = 32

total_boxes = £Û£Ý

total_scores = £Û£Ý

for i, out in enumerate(outputs):

anchor_mask = anchor_masks£Ûi£Ý

anchors_this_level = £Û£Ý

for m in anchor_mask:

anchors_this_level.append(anchors£Û2 * m£Ý)

anchors_this_level.append(anchors£Û2 * m + 1£Ý)

boxes, scores = paddle.vision.ops.YOLO_box(

x=out,

img_size=im_shape,

anchors=anchors_this_level,

class_num=self.num_classes,

conf_thresh=valid_thresh,

downsample_ratio=downsample,

name="YOLO_box" + str(i))

total_boxes.append(boxes)

total_scores.append(

paddle.transpose(

scores, perm=£Û0, 2, 1£Ý))

downsample = downsample // 2

YOLO_boxes = paddle.concat(total_boxes, axis=1)

YOLO_scores = paddle.concat(total_scores, axis=2)

return YOLO_boxes, YOLO_scores



Í¼3ª²2ª²10YOLOV3 ÍøÂçÔ¤²â¹ý³ÌÁ÷³ÌÍ¼

ÒòÎªÃ¿¸öÄ¿±ê¿ÉÄÜ»á±»²»Í¬µÄÃª¿ò¸²¸Ç£¬¿ÉÄÜ»á±»Ô¤²â³ö¶à´Î£¬Òò´ËÐèÒª¶¨Òåmulticlass_nms()º¯Êý£¬¶ÔYOLOV3µÄÔ¤²â½á¹û½øÐÐ·Ç¼«´óÖµÒÖÖÆ£¬¶ÔÓÚÖØµþµÄ¾ØÐÎ¿òÖ»±£ÁôÖÃÐÅ¶È×î¸ßµÄÄ¿±ê£º  

def multiclass_nms(bboxes, scores, score_thresh=0.01, nms_thresh=0.45, pre_nms_topk=1000, pos_nms_topk=100):

batch_size = bboxes.shape£Û0£Ý

class_num = scores.shape£Û1£Ý

rets = £Û£Ý

for i in range(batch_size):

bboxes_i = bboxes£Ûi£Ý

scores_i = scores£Ûi£Ý

ret = £Û£Ý

for c in range(class_num):

scores_i_c = scores_i£Ûc£Ý

keep_inds = nms(bboxes_i, scores_i_c, score_thresh, nms_thresh, pre_nms_topk, i=i, c=c)

if len(keep_inds) < 1:

continue

keep_bboxes = bboxes_i£Ûkeep_inds£Ý

keep_scores = scores_i_c£Ûkeep_inds£Ý

keep_results = np.zeros(£Ûkeep_scores.shape£Û0£Ý, 6£Ý)

keep_results£Û:, 0£Ý = c

keep_results£Û:, 1£Ý = keep_scores£Û:£Ý

keep_results£Û:, 2:6£Ý = keep_bboxes£Û:, :£Ý

ret.append(keep_results)

if len(ret) < 1:

rets.append(ret)

continue

ret_i = np.concatenate(ret, axis=0)

scores_i = ret_i£Û:, 1£Ý

if len(scores_i) > pos_nms_topk:

inds = np.argsort(scores_i)£Û::-1£Ý

inds = inds£Û:pos_nms_topk£Ý

ret_i = ret_i£Ûinds£Ý

rets.append(ret_i)

return rets

×îºóÎÒÃÇÍ¨¹ý¶¨Òåtest()º¯ÊýÊ¹ÓÃÑµÁ·ºÃµÄYOLOV3Ä£ÐÍ½øÐÐÔ¤²â¡£Ê×ÏÈÊ¹ÓÃYOLOV3ÖÐµÄforward()º¯ÊýÌáÈ¡Í¼ÏñµÄÔ¤²âÌØÕ÷£¬È»ºóÍ¨¹ýget_pred½«Ô¤²âÌØÕ÷×ª»»ÎªÍøÂçÔ¤²âµÄ¾ØÐÎ¿òºÍ¶ÔÓ¦µÄÀà±ð£¬×îºóÍ¨¹ýmulticlass_nmsÈ¥³ýÖØµþµÄÔ¤²â½á¹û£¬µÃµ½ÍøÂç×îÖÕµÄÔ¤²â½á¹û¡£

def test():

model = YOLOV3(num_classes=NUM_CLASSES)

params_file_path = '/home/aistudio/YOLO_epoch0'

model_state_dict = paddle.load(params_file_path)

model.load_dict(model_state_dict)

model.eval()

total_results = £Û£Ý

test_loader = test_data_loader(TESTDIR, batch_size= 1, mode='test')

for i, data in enumerate(test_loader()):

img_name, img_data, img_scale_data = data

img = paddle.to_tensor(img_data)

img_scale = paddle.to_tensor(img_scale_data)

outputs = model.forward(img)

bboxes, scores = model.get_pred(outputs,

im_shape=img_scale,

anchors=ANCHORS,

anchor_masks=ANCHOR_MASKS,

valid_thresh = VALID_THRESH)

bboxes_data = bboxes.numpy()

scores_data = scores.numpy()

result = multiclass_nms(bboxes_data, scores_data,

score_thresh=VALID_THRESH, 

nms_thresh=NMS_THRESH, 

pre_nms_topk=NMS_TOPK, 

pos_nms_topk=NMS_POSK)

for j in range(len(result)):

result_j = result£Ûj£Ý

img_name_j = img_name£Ûj£Ý

total_results.append(£Ûimg_name_j, result_j.tolist()£Ý)

Ô¤²âÍê³Éºó£¬Í¨¹ý¿ÉÊÓ»¯£¬¿ÉÒÔµÃµ½ÈçÍ¼3ª²2ª²11ËùÊ¾µÄ½á¹û£¬²»Í¬ÀàÐÍµÄÀ¥³æ±»±íÊ¾ÎªÓÉ²»Í¬Àà±ðµÄ¾ØÐÎ¿ò°ü¹ü×Å£¬¿´ÆðÀ´ÑµÁ·µÄ½á¹û»¹²»´í¡£





Í¼3ª²2ª²11Ô¤²â½á¹ûÊ¾Àý


ÖÁ´Ë£¬ÎÒÃÇ¾ÍÍê³ÉÁËYOLOV3ÍøÂçµÄ´î½¨¡¢ÑµÁ·ºÍÔ¤²â¹ý³Ì, ÄãÑ§»áÁËÂð?



»ùÓÚPPª²
YOLOÄ£
ÐÍµÄÀ¥³æ
¼ì²â


3.2.2»ùÓÚPPª²YOLOÄ£ÐÍµÄÀ¥³æ¼ì²â

ÔÚÊ¹ÓÃYOLOV3ÊµÏÖÀ¥³æÊ¶±ðµÄÊµ¼ùÖÐ£¬ÎÒÃÇÍ¨¹ý´óÁ¿µÄ´úÂëÊµÏÖÁËÊý¾ÝÔ¤´¦Àí¡¢Êý¾Ý¼ÓÔØ¡¢Ä£ÐÍ¹¹½¨£¬ÒÔ¼°Ä£ÐÍÑµÁ·²âÊÔµÄ¹ý³Ì¡£ÔÚÕâÀïÎÒÃÇ½«Ê¹ÓÃPaddleDetection¿ìËÙµØÊµÏÖ»ùÓÚPPª²YOLO½øÐÐÀ¥³æÊ¶±ð¡£



Í¼3ª²2ª²12Êý¾Ý´æ´¢µÄÄ¿Â¼½á¹¹


²½Öè1£º  ÈÏÊ¶AIÊ¶³æÊý¾Ý¼¯



ÕâÀïÊ¹ÓÃµÄÊý¾Ý¼¯Ò²ÊÇÀ¥³æÊ¶±ðµÄÊý¾Ý¼¯£¬°üº¬1693ÕÅÑµÁ·Í¼Ïñ¡¢245ÕÅÑéÖ¤Í¼ÏñºÍ245ÕÅ²âÊÔÍ¼Ïñ¡£ÓëÖ®Ç°²»Í¬µÄÊÇ£¬Êý¾Ý´æ´¢µÄÄ¿Â¼½á¹¹×ö³öÏàÓ¦µÄµ÷Õû£¬ÓëPASCAL VOCµÄÄ¿Â¼½á¹¹ÏàÆ¥Åä¡£ÈçÍ¼3ª²2ª²12ËùÊ¾£¬Ä¿Â¼ÏÂÓÐ±ê×¢¡¢Í¼ÏñºÍÍ¼Ïñ»®·ÖÉèÖÃÈý¸öÎÄ¼þ¼Ð¡£ÆäÖÐ£¬±ê×¢ÎÄ¼þ¼ÐºÍÍ¼ÏñÎÄ¼þ¼ÐÏÂ¸÷×Ô·ÖÎª²âÊÔ¡¢ÑµÁ·ºÍÑéÖ¤Èý¸öÎÄ¼þ¼Ð£¬²¢·Ö±ð´æ´¢¶ÔÓ¦²âÊÔ¡¢ÑµÁ·ºÍÑéÖ¤¼¯µÄ±ê×¢ºÍÍ¼Ïñ¡£Í¼Ïñ»®·ÖÉèÖÃÎÄ¼þ¼ÐÏÂ´æ´¢ÑµÁ·¡¢ÑéÖ¤ºÍ²âÊÔµÄÃûµ¥ÒÔ¼°Àà±ðÁÐ±í¡£


²½Öè2£º  »·¾³°²×°

ÔÚ±¾´ÎÊµ¼ùÖÐ£¬ÎÒÃÇÒªÊ¹ÓÃPaddleDetection£¬Òò´ËÊ×ÏÈÒªÏÂÔØ²¢°²×°PaddleDetectionµÄ»·¾³¡£Óë3.1½ÚµÄÊµ¼ùÒ»Ñù£¬Í¨¹ýgit cloneÃüÁîÏÂÔØPaddleDetectionÔ´Âë£¬²¢°²×°PaddleDetectionËùÐèµÄÒÀÀµ¡£

!git clone https://github.com/PaddlePaddle/PaddleDetection

%cd PaddleDetection

!pip install -r requirements.txt

²½Öè3£º  Ä£ÐÍÑµÁ·¡¢ÑéÖ¤ºÍÆÀ¹À

ÔÚÍê³ÉÊý¾Ý²¿ÊðºÍ»·¾³×¼±¸ºó£¬¿ÉÒÔÖ±½ÓÍ¨¹ýÖ´ÐÐtrain.pyÀ´ÑµÁ·ÍøÂç¡£ÔÚÕâÀïÎÒÃÇÐèÒªÊ¹ÓÃÓëPPª²YOLOÏà¶ÔÓ¦µÄÅäÖÃÎÄ¼þ¡£ÔÚÈçÍ¼3ª²2ª²13ËùÊ¾ÅäÖÃÎÄ¼þÖÐ£¬¿ÉÒÔÉèÖÃÊý¾Ý¼¯µÄÊý¾Ý¸ñÊ½¡¢Êý¾Ý¶ÁÈ¡½×¶ÎµÄ¸÷ÖÖÊý¾ÝÔöÇ¿·½·¨ºÍPPª²YOLOµÄ¸÷ÖÖÍøÂç½á

Í¼3ª²2ª²13PPª²YOLOÅäÖÃÎÄ¼þ

¹¹¡¢²ÎÊýÅäÖÃµÈ¡£

! python tools/train.py -c ../../work/ppyolo.yml --eval


ÑµÁ·Íê³Éºó¿ÉÒÔÍ¨¹ýÖ´ÐÐeval.pyºÍinfer.pyÀ´½øÐÐÄ£ÐÍµÄÑéÖ¤ºÍÔ¤²â¡£ÓëÑµÁ·½×¶Î²»Í¬µÄÊÇ£¬³ýÁËÒª¸ø¶¨ÅäÖÃÎÄ¼þÍâ£¬ÔÚÑéÖ¤½×¶Î»¹ÐèÒª¸ø³öÑµÁ·ºÃµÄÈ¨ÖØ¡¢Ô¤²âÊ±ÐèÒª¸ø³öÑµÁ·ºÃµÄÈ¨ÖØºÍÐèÒªÔ¤²âµÄÍ¼Ïñ¡£

! python tools/eval.py -c ../../work/ppyolo.yml -o weights=../../work/best_model

! python tools/infer.py -c ../../work/ppyolo.yml --infer_img=dataset/insect/JPEGImages/test/1898.jpeg -o weights=../../work/best_model



»ùÓÚDETRÄ£ÐÍµÄÄ¿±ê¼ì²â


3.3Êµ¼ùÈý£º  »ùÓÚDETRÄ£ÐÍµÄÄ¿±ê¼ì²â

±¾½Ú½«Ê¹ÓÃDETRÀ´ÊµÏÖCOCOÊý¾Ý¼¯ÉÏµÄÄ¿±ê¼ì²â¡£

DETR¼´Detection Transformer£¬ÊÇFacebook AI µÄÑÐ¾¿ÕßÌá³öµÄÒ»ÖÖ½èÖú»ùÓÚTransformerµÄ±àÂëÆ÷ª²½âÂëÆ÷ÌåÏµ½á¹¹½øÐÐÄ¿±ê¼ì²âµÄ·½·¨¡£ËüÊÇµÚÒ»¸ö½«Transformer³É¹¦ÕûºÏÎª¼ì²âpipelineÖÐÐÄ¹¹½¨¿éµÄÄ¿±ê¼ì²â¿ò¼Ü¡£ÓëÖ®Ç°µÄÄ¿±ê¼ì²â·½·¨Ïà±È£¬DETRÓÐÐ§µØÏû³ýÁË¶ÔÐí¶àÊÖ¹¤Éè¼ÆµÄ×é¼þµÄÐèÇó£¬ÀýÈç·Ç×î´óÒÖÖÆ(Nonª²Maximum Suppression, NMS)¡¢Ãªµã(Anchor)Éú³ÉµÈ¡£

±¾ÊéÌá³öÁËÒ»¸ö·Ç³£¼òµ¥µÄ¶Ëµ½¶ËµÄ¿ò¼Ü£¬DETR µÄÍøÂç½á¹¹ºÜ¼òµ¥£¬·ÖÎªÈý¸ö²¿·Ö£º  µÚÒ»²¿·ÖÊÇÒ»¸ö´«Í³CNN£¬ÓÃÓÚÌáÈ¡Í¼Æ¬ÌØÕ÷µ½¸ü¸ßÎ¬¶È£»  µÚ¶þ²¿·ÖÊÇÒ»¸öTransformer µÄ Encoder ºÍ Decoder£¬ÓÃÀ´ÌáÈ¡ Bounding Box£»  µÚÈý²¿·ÖÊÇBipartite matching loss£¬ÓÃÀ´ÑµÁ·ÍøÂç¡£

²½Öè1£º  COCOÊý¾Ý¼¯ÓëÊý¾ÝÏÂÔØ

MS COCOµÄÈ«³ÆÊÇMicrosoft Common Objects in Context£¬ÊÇÎ¢ÈíÍÅ¶ÓÌá¹©µÄÒ»¸ö¿ÉÒÔÓÃÀ´½øÐÐÍ¼ÏñÊ¶±ðµÄÊý¾Ý¼¯£¬ÓëImageNet¾ºÈüÒ»Ñù£¬±»ÊÓÎª¼ÆËã»úÊÓ¾õÁìÓò×îÊÜ¹Ø×¢ºÍ×îÈ¨ÍþµÄ±ÈÈüÖ®Ò»¡£

COCOÊý¾Ý¼¯ÊÇÒ»¸ö´óÐÍµÄ¡¢·á¸»µÄÄ¿±ê¼ì²â(Image Detection)¡¢ÓïÒå·Ö¸î(Semantic Segmentation)ºÍÍ¼Ïñ±êÌâ(Image Captioning)Êý¾Ý¼¯¡£ÆäÊý¾ÝÖ÷ÒªÀ´Ô´ÓÚ¸´ÔÓµÄÈÕ³£³¡¾°(ÈçÍ¼3ª²3ª²1ËùÊ¾)£¬¹²°üº¬³¬¹ý33ÍòÕÅÍ¼Ïñ(ÆäÖÐ22ÍòÕÅÊÇÓÐ±ê×¢µÄÍ¼Ïñ)£¬150Íò¸öÄ¿±ê£¬80¸öÄ¿±êÀà±ð(Object Categories£¬ÀýÈçÐÐÈË¡¢Æû³µ¡¢´óÏóµÈ)£¬91ÖÖÀà±ð(Stuff Categoris£¬ÀýÈç£¬²Ý¡¢Ç½¡¢Ìì¿ÕµÈ)£¬Ã¿ÕÅÍ¼Ïñ°üº¬5¾äÍ¼ÏñµÄÓï¾äÃèÊö£¬ÇÒÓÐ250000¸ö´ø¹Ø¼üµã±ê×¢µÄÐÐÈË¡£


±¾´ÎÊµ¼ù²ÉÓÃµÄÊÇCOCO2017µÄÄ¿±ê¼ì²âÊý¾Ý£¬ÑµÁ·¼¯118287ÕÅÍ¼£¬ÑéÖ¤¼¯5000ÕÅÍ¼£¬¹²¼Æ123287ÕÅÍ¼¡£ÈçÍ¼3ª²3ª²2ËùÊ¾£¬ÑµÁ·Í¼ÏñºÍÑéÖ¤Í¼Ïñ·Ö±ð´æ´¢ÔÚtrain2017ºÍval2017ÎÄ¼þ¼ÐÖÐ£¬annotations´æ´¢µÄÊÇ¶ÔÓ¦ÑµÁ·¼¯ºÍÑéÖ¤¼¯µÄ±ê×¢£¬ÆäÖÐinstances_train2017ºÍinstances_val2017ÊÇÐèÒªµÄ±ê×¢ÎÄ¼þ£¬ÆäÓàµÄÎÄ¼þ·Ö±ð¶ÔÓ¦Í¼Ïñ±êÌâºÍÈËÌå¹Ø¼üµãµÄ±ê×¢(±¾´ÎÊµ¼ù²»ÐèÒª)¡£


ÔÚ±¾´ÎÊµ¼ùÖÐ£¬²¢²»ÐèÒªinstances_train2017ÖÐËùÓÐµÄ±ê×¢ÐÅÏ¢¡£ÈçÍ¼3ª²3ª²3ËùÊ¾£¬ÔÚ



Í¼3ª²3ª²1COCOÊý¾Ý¼¯Ê¾Àý




Í¼3ª²3ª²2Ä¿Â¼½á¹¹




Í¼3ª²3ª²3±ê×¢Ê¾Àý


±¾´ÎÊµ¼ùÖÐÐèÒªÓÃµ½Í¼ÏñÐÅÏ¢ÖÐfile_name¼ÇÂ¼µÄÍ¼Æ¬Ãû³Æ¡¢heightºÍwidth¼ÇÂ¼µÄÍ¼Ïñ¸ßºÍ¿íºÍ±ê×¢ÎÄ¼þÖÐcategory_id¼ÇÂ¼µÄ±ê×¢¿ò¶ÔÓ¦Àà±ð¡¢bbox¼ÇÂ¼µÄ±ê×¢¿ò×ø±êÒÔ¼°image_idÖÐ¼ÇÂ¼µÄ±ê×¢¿òËù¶ÔÓ¦µÄÍ¼Ïñid¡£




²½Öè2£º  Êý¾Ý¼ÓÔØ

½ÓÏÂÀ´£¬ÎÒÃÇÒªÊµÏÖÍøÂçÑµÁ·¹ý³ÌÖÐµÄÊý¾Ý¼ÓÔØ²¿·Ö¡£ÔÚÍøÂçÑµÁ·ÖÐ£¬Êý¾Ý¼ÓÔØ²¿·Ö³ýÁËÐèÒªÌá¹©Í¼ÏñºÍ±ê×¢¼ÓÔØµÄ¹¦ÄÜÍâ£¬»¹ÐèÒªÌá¹©Êý¾ÝÔöÇ¿ºÍ·Ö²¼Ê½¶ÁÈ¡µÄ¹¦ÄÜ£¬·Ö±ðÀ´ÊµÏÖÕâÐ©¹¦ÄÜ¡£

±¾´ÎÊµ¼ùÊ¹ÓÃµÄCOCOÊý¾Ý¼¯£¬±ê×¢Í¨¹ýJSONµÄ¸ñÊ½´æ´¢¡£Òò´Ë£¬ÒªÊµÏÖÒ»¸öCOCODataSetÀà¡£COCODataSetÀàÒªÍê³É£º  ¢Ù½âÎö±ê×¢ÎÄ¼þ£¬¹¹½¨Í¼Ïñ¡¢±êÇ©Êý¾Ý£»  ¢Ú¶ÔÍ¼Ïñ½øÐÐÊý¾ÝÔöÇ¿£¬²¢ÏàÓ¦µØ¶Ô±ê×¢½øÐÐµ÷Õû¡£

COCODataSetÀàµÄÖ÷Òªº¯Êý°üÀ¨init¡¢getitemºÍparse_dataset¡£½ÓÏÂÀ´£¬·Ö±ðÕë¶ÔÕâ¼¸¸öº¯ÊýÕ¹¿ª½éÉÜ¡£ÒòÎªCOCODataSetÀàÊÇÕë¶Ô¼æÈÝCOCOÊý¾Ý¼¯¶à¸öÈÎÎñÉè¼ÆµÄ£¬ËùÒÔ´úÂëÖÐ²»½ö¿¼ÂÇÁË¼ì²âµÄ²¿·Ö£¬Ò²¿¼ÂÇÁË·Ö¸î¡¢¹Ø¼üµãµÈÈÎÎñ¡£±¾½ÚµÄÄÚÈÝ½«Ö÷ÒªÕë¶ÔÊµ¼ùËùÉæ¼°µÄÄ¿±ê¼ì²â²¿·Ö¡£

init()º¯ÊýÓÃÓÚÔÚ¹¹½¨COCODataSetÊµÀýÊ±½øÐÐ³õÊ¼»¯£¬È·¶¨Êý¾Ý´æ·ÅµÄÄ¿Â¼¡¢Í¼ÏñÂ·¾¶¡¢±ê×¢Â·¾¶ÒÔ¼°ÐèÒª¼ÓÔØµÄÊý¾ÝÄÚÈÝ(COCOÊý¾Ý¼¯³ýÁË°üº¬¼ì²â±ê×¢Íâ»¹°üº¬·Ö¸î¡¢¹Ø¼üµãµÈ±ê×¢£¬Òò´ËÎÒÃÇÐèÒª¸ø¶¨ÐèÒª¼ÓÔØµÄÊý¾ÝÄÚÈÝ)¡£

def init(self,

dataset_dir=None,

image_dir=None,

anno_path=None,

data_fields=£Û'image'£Ý,

sample_num=-1,

load_crowd=False,

allow_empty=False,

empty_ratio=1.,

use_default_label=None):

super(COCODataSet, self).init()

self.dataset_dir = dataset_dir if dataset_dir is not None else ''

self.anno_path = anno_path

self.image_dir = image_dir if image_dir is not None else ''

self.data_fields = data_fields

self.sample_num = sample_num

¡­ ¡­

parse_dataset()º¯ÊýÊÇCOCODataSetÖÐÓÃÓÚ¼ÓÔØ²¢½âÎöËùÓÐ±ê×¢ÐÅÏ¢µÄº¯Êý¡£ÔÚÕâÀï½«·Ö¶Î½éÉÜparse_dataset()º¯Êý¡£

ÔÚparse_dataset()º¯ÊýÖÐ£¬ÐèÒªÊ¹ÓÃCOCOÊý¾Ý¼¯Ìá¹©µÄ·½·¨À´¶ÁÈ¡±ê×¢ÎÄ¼þÖÐµÄÒ»Ð©ÐÅÏ¢¡£¾ßÌåµØ£¬COCO±ê×¢ÖÐµÄÄ¿±êÊµÀýÍ¨¹ý°ó¶¨Í¼ÏñIDÀ´È·¶¨ÓëÍ¼ÏñµÄ¶ÔÓ¦¹ØÏµ¡£Òò´Ë£¬Í¨¹ýgetImgIds()º¯ÊýÀ´»ñÈ¡ËùÓÐÍ¼ÏñµÄID¡£³ý´ËÖ®Íâ£¬COCOÊý¾Ý¼¯80¸öÀàµÄ±àºÅ²¢²»ÊÇ0~79£¬ËùÒÔÐèÒª¹¹½¨Ë³Ðò±àºÅµÄÀà±ðID¡£ÕâÀï¾ÍÐèÒªÍ¨¹ýgetCatIds()º¯ÊýÀ´»ñÈ¡ËùÓÐCOCOÊý¾Ý¼¯ÖÐµÄËùÓÐÀà±ð±àºÅ¡£

from pycocotools.coco import COCO

coco = COCO(anno_path)

img_ids = coco.getImgIds()

img_ids.sort()

cat_ids = coco.getCatIds()

records = £Û£Ý

self.catid2clsid = dict({catid: i for i, catid in enumerate(cat_ids)})

self.cname2cid = dict({

coco.loadCats(catid)£Û0£Ý£Û'name'£Ý: clsid

for catid, clsid in self.catid2clsid.items()

})

ÔÚ»ñÈ¡ÍêËùÓÐÍ¼ÏñIDºÍ¶ÔÀà±ð½øÐÐ±àÂëÖ®ºó£¬¾ÍÐèÒªÕë¶ÔÃ¿¸öÍ¼Ïó¹¹½¨ËüµÄ±ê×¢ÐÅÏ¢¡£ÔÚ±éÀúÍ¼ÏñÄÚ´æÔÚµÄ±ê×¢Ö®Ç°£¬ÏÈ¹¹½¨Õë¶ÔÍ¼ÏñµÄ³õÊ¼×Öµä£¬ÆäÖÐ°üÀ¨Í¼ÏñµÄ´æ´¢Â·¾¶¡¢Í¼ÏñµÄID ÒÔ¼°Í¼ÏñµÄ³¤¿í¡£

for img_id in img_ids:

img_anno = coco.loadImgs(£Ûimg_id£Ý)£Û0£Ý    #¼ÓÔØ´æ´¢Í¼ÏñÐÅÏ¢µÄ×Öµä

im_fname = img_anno£Û'file_name'£Ý

im_w = float(img_anno£Û'width'£Ý)

im_h = float(img_anno£Û'height'£Ý)

im_path = os.path.join(image_dir,

im_fname) if image_dir else im_fname

coco_rec = {

'im_file': im_path,

'im_id': np.array(£Ûimg_id£Ý),

'h': im_h,

'w': im_w,

} if 'image' in self.data_fields else {}      #¹¹½¨µ¥ÕÅÍ¼ÏñµÄ×Öµä

½ÓÏÂÀ´£¬Í¨¹ý¸ø¶¨Í¼ÏñID£¬Ê¹ÓÃcoco.getAnnIds¶ÁÈ¡ÓëÍ¼Ïñ¹ØÁªµÄËùÓÐÄ¿±êµÄ±ê×¢ÐÅÏ¢¡£Ò»ÕÅÍ¼ÏñÍùÍù´æÔÚ¶à¸öÄ¿±êÊµÀý£¬Ò²¾Í¶ÔÓ¦×Å¶à¸öÄ¿±ê±ê×¢ÐÅÏ¢¡£Õë¶ÔÃ¿¸öÄ¿±ê¾ØÐÎ¿ò£¬½«ÖÐÐÄµã×ø±êºÍ¿ò³¤¿í×ª»¯Îª×óÉÏ½ÇºÍÓÒÏÂ½Çµã×ø±êºó£¬Ìí¼Ó½øbboxesÖÐ¡£

if not self.load_image_only:

ins_anno_ids = coco.getAnnIds(              #»ñÈ¡Í¼ÏñÖÐ°üº¬µÄÄ¿±êID

imgIds=£Ûimg_id£Ý, iscrowd=None if self.load_crowd else False)     

instances = coco.loadAnns(ins_anno_ids)     #ÌáÈ¡Í¼ÏñÖÐµÄÄ¿±ê±ê×¢ÐÅÏ¢

bboxes = £Û£Ý

for inst in instances:                                        #»ñµÃÃ¿Ò»¸öÊµÀýÄ¿±ê

x1, y1, box_w, box_h = inst£Û'bbox'£Ý

x2 = x1 + box_w

y2 = y1 + box_h

eps = 1e-5

if inst£Û'area'£Ý > 0 and x2 - x1 > eps and y2 - y1 > eps:        

inst£Û'clean_bbox'£Ý = £Û

round(float(x), 3) for x in £Ûx1, y1, x2, y2£Ý

£Ý

bboxes.append(inst)

¶ÔÓÚÍ¼ÏñÖÐµÄÊµÀý£¬³ýÁËÐèÒª°ü¹üÄ¿±êÊµÀý¾ØÐÎ¿òµÄ×ø±êÍâ£¬»¹ÐèÒª¾ØÐÎ¿òËù¶ÔÓ¦µÄÀà±ð¡£Òò´ËÕë¶ÔÒ»ÕÅÍ¼ÏñËùÓÐµÄÄ¿±êÊµÀý£¬ÎÒÃÇ¹¹½¨´æ´¢Ä¿±ê¾ØÐÎ¿ò×ø±êºÍ±ê×¢µÄÊý×é£¬²¢Éú³Éµ¥ÕÅÍ¼ÏñµÄ±ê×¢×Öµä¡£

num_bbox = len(bboxes)

gt_bbox = np.zeros((num_bbox, 4), dtype=np.float32)     

gt_theta = np.zeros((num_bbox, 1), dtype=np.int32)

gt_class = np.zeros((num_bbox, 1), dtype=np.int32)

is_crowd = np.zeros((num_bbox, 1), dtype=np.int32)

gt_poly = £ÛNone£Ý * num_bbox

for i, box in enumerate(bboxes):

catid = box£Û'category_id'£Ý

gt_class£Ûi£Ý£Û0£Ý = self.catid2clsid£Ûcatid£Ý  #µÃµ½±ê×¢Àà±ð

gt_bbox£Ûi, :£Ý = box£Û'clean_bbox'£Ý         #µÃµ½±ê×¢box×ø±ê

# xc, yc, w, h, theta

gt_rec = {                          #Éú³Éµ¥ÕÅÍ¼ÏñµÄ±ê×¢ÐÅÏ¢(×ÖµäµÄÐÎÊ½)

'is_crowd': is_crowd,           #Çø·ÖÊÇµ¥¸öÊµÀý»¹ÊÇÒ»×é¶ÔÏó

'gt_class': gt_class,

'gt_bbox': gt_bbox,

'gt_poly': gt_poly,                  

}

×îºó£¬½«Í¼ÏñµÄÐÅÏ¢×ÖµäºÍÍ¼ÏñÄÚµÄ±ê×¢×ÖµäºÏ²¢ÔÚÒ»Æð¾ÍÍê³ÉÁËµ¥ÕÅÍ¼ÏñµÄËùÓÐÐÅÏ¢¼ÓÔØ¡£±éÀúËùÓÐÑµÁ·µÄÍ¼Ïñ£¬¾ÍµÃµ½ÁËÑµÁ·¹ý³ÌÖÐÐèÒªµÄÐÅÏ¢¡£

for k, v in gt_rec.items():

if k in self.data_fields:

coco_rec£Ûk£Ý = v

records.append(coco_rec)

self.roidbs = records

getitem()º¯ÊýÓÃÓÚÔÚÍøÂçÑµÁ·µü´úµÄ¹ý³ÌÖÐÌá¹©ÑµÁ·ËùÐèÒªµÄÊý¾Ý¡£ÔÚDETRÖÐ·µ»ØµÄÊÇÍ¼Ïñ¡¢Í¼ÏñµÄ¿í¸ßÐÅÏ¢ºÍÍ¼ÏñÖÐ´æÔÚµÄÄ¿±ê¾ØÐÎ¿òµÄÎ»ÖÃºÍÀà±ð¡£ÔÚgetitemÖÐ»¹»áËæ×Åµü´úÂÖÊýµÄ±ä»¯£¬¸ù¾ÝÉè¶¨µÄMixupÊý¾ÝÔöÇ¿·½Ê½£¬¶Ô·µ»ØµÄÍ¼ÏñºÍ±ê×¢½øÐÐµ÷Õû¡£

def getitem(self, idx):

roidb = copy.deepcopy(self.roidbs£Ûidx£Ý)

if self.mixup_epoch == 0 or self._epoch < self.mixup_epoch:

n = len(self.roidbs)

idx = np.random.randint(n)

roidb = £Ûroidb, copy.deepcopy(self.roidbs£Ûidx£Ý)£Ý

elif self.cutmix_epoch == 0 or self._epoch < self.cutmix_epoch:

n = len(self.roidbs)

idx = np.random.randint(n)

roidb = £Ûroidb, copy.deepcopy(self.roidbs£Ûidx£Ý)£Ý

elif self.mosaic_epoch == 0 or self._epoch < self.mosaic_epoch:

n = len(self.roidbs)

roidb = £Ûroidb, £Ý + £Û

copy.deepcopy(self.roidbs£Ûnp.random.randint(n)£Ý)

for _ in range(3)

£Ý

if isinstance(roidb, Sequence):

for r in roidb:

r£Û'curr_iter'£Ý = self._curr_iter

else:

roidb£Û'curr_iter'£Ý = self._curr_iter

self._curr_iter += 1

return self.transform(roidb)

ÎÒÃÇ¿ÉÄÜ»á¾õµÃÆæ¹Ö£¬ÔÚgetitem()º¯ÊýÖÐ£¬ÎÒÃÇÍ¨¹ýË÷ÒýµÃµ½µÄÊÇparse_dataset()º¯ÊýÖÐÉú³ÉµÄÍ¼Ïñ´æ´¢Â·¾¶£¬²¢Ã»ÓÐÖ±½ÓµÃµ½Í¼Ïñ¡£ÆäÊµ£¬ÔÚgetitem()º¯ÊýÖÐÊÇÍ¨¹ýtransform(roidb)À´ÊµÏÖÍ¼ÏñµÄ¼ÓÔØºÍÊý¾ÝÔöÇ¿µÄ¹ý³ÌµÄ¡£ÔÚCOCODataSetÀàÊµÀý»¯ºó£¬ÎÒÃÇ»áµ÷ÓÃset_transformÉèÖÃ¶ÔÍ¼ÏñºÍ±ê×¢µÄ¼ÓÔØÒÔ¼°ÔöÇ¿·½Ê½¡£

def set_transform(self, transform):

self.transform = transform

»¹Òª¶¨ÒåÓÃÓÚÊý¾Ý´¦ÀíµÄ¸÷¸öÀà¡£Ä¿±ê¼ì²âÍøÂç¶ÔÊäÈëÍ¼Æ¬µÄ¸ñÊ½¡¢´óÐ¡ÓÐÒ»¶¨µÄÒªÇó£¬Êý¾Ý¹àÈëÄ£ÐÍÇ°£¬ÐèÒª¶ÔÊý¾Ý½øÐÐÔ¤´¦Àí²Ù×÷£¬Ê¹Í¼Æ¬Âú×ãÍøÂçÑµÁ·ÒÔ¼°Ô¤²âµÄÐèÒª¡£Í¬Ê±£¬ÎªÁËÊ¹ÍøÂç¼û¹ý¸ü¶à¸»ÓÐ±ä»¯µÄÊý¾Ý£¬ÔöÇ¿ÍøÂçµÄ·º»¯ÄÜÁ¦£¬»¹»á½øÐÐÒ»Ð©Êý¾ÝÔö¹ã¡£

±¾´ÎÊµ¼ùÖÐÓÃµ½µÄÊý¾ÝÔ¤´¦Àí·½·¨ÈçÏÂ¡£

¤r Í¼Ïñ½âÂë£º  ½«Í¼Ïñ×ªÎªNumpy¸ñÊ½¡£

¤r Í¼Ïñ·­×ª£º  ½«Í¼Ïñ½øÐÐ·­×ª¡£

¤r Ëæ»úÑ¡Ôñ£º  ÔÚ²»Í¬µÄÔ¤´¦ÀíËæ»úÖ®¼äËæ»úÑ¡ÔñÒ»¸ö×ª»»¡£

¤r µ÷ÕûÍ¼Æ¬´óÐ¡£º  ½«Ô­Í¼Æ¬ÖÐ¶Ì±ß³ß´çÍ³Ò»Ëõ·Åµ½384¡£

¤r Í¼Ïñ²Ã¼ô£º  ½«Í¼ÏñµÄ³¤¿íÍ³Ò»²Ã¼ôÎª384¡Á384£¬È·±£Ä£ÐÍ¶ÁÈëµÄÍ¼Æ¬Êý¾Ý´óÐ¡Í³Ò»¡£

¤r ¹éÒ»»¯(Normalization)£º  Í¨¹ý¹æ·¶»¯ÊÖ¶Î£¬°ÑÉñ¾­ÍøÂçÃ¿²ãÖÐÈÎÒâÉñ¾­ÔªµÄÊäÈëÖµ·Ö²¼¸Ä±ä³É¾ùÖµÎª0¡¢·½²îÎª1µÄ±ê×¼ÕýÌ¬·Ö²¼£¬Ê¹µÃ×îÓÅ½âµÄÑ°ÓÅ¹ý³ÌÃ÷ÏÔ»á±äµÃÆ½»º£¬ÑµÁ·¹ý³Ì¸üÈÝÒ×ÊÕÁ²¡£

¤r Í¨µÀ±ä»»£º  Í¼ÏñµÄÊý¾Ý¸ñÊ½Îª£ÛH, W, C£Ý(¸ß¶È¡¢¿í¶ÈºÍÍ¨µÀÊý)£¬¶øÉñ¾­ÍøÂçÊ¹ÓÃµÄÑµÁ·Êý¾ÝµÄ¸ñÊ½Îª£ÛC, H, W£Ý£¬Òò´ËÐèÒª¶ÔÍ¼ÏñÊý¾ÝÖØÐÂÅÅÁÐ£¬ÀýÈç£Û384, 384, 3£Ý±äÎª£Û3, 384, 384£Ý¡£

ÔÚÊµÏÖÕâÐ©·½·¨Ö®Ç°£¬ÒªÏÈ¶¨ÒåÒ»¸öÔ¤´¦ÀíµÄ¸¸ÀàBaseOperator£¬ÆäËûµÄÊý¾ÝÔ¤´¦ÀíÀà¶¼Òª¼Ì³ÐÕâ¸ö¸¸Àà¡£ÔÚBaseOperatorÀàÖÐ£¬Í¨¹ýcallµÄBaseOperatorÀàÊµÀý¶ÔÏó¿ÉÒÔÏñµ÷ÓÃÆÕÍ¨º¯ÊýÄÇÑù£¬ÒÔ¡°¶ÔÏóÃû()¡±µÄÐÎÊ½Ê¹ÓÃ¡£ÆäËûÀàÔÚ¼Ì³ÐBaseOperatorÀàºó£¬Ö»ÐèÒªÖØÐÂapply·½·¨¼´¿É¡£

class BaseOperator(object):

def init(self, name=None):

if name is None:

name = self.class.name

self._id = name + '_' + str(uuid.uuid4())£Û-6:£Ý

def apply(self, sample, context=None):

return sample

def call(self, sample, context=None):

if isinstance(sample, Sequence):

for i in range(len(sample)):

sample£Ûi£Ý = self.apply(sample£Ûi£Ý, context)

else:

sample = self.apply(sample, context)

return sample

def str(self):

return str(self._id)

Í¼Ïñ½âÂëÀàDecode£º  ÓÃÓÚ¼ÓÔØÍ¼Ïñ£¬²¢½«Í¼Ïñ×ª»¯ÎªNumpyµÄ¸ñÊ½¡£ÒòÎª¼Ì³ÐÁËBaseOperatorµÄ·½·¨£¬ÔÚDecodeÀàÖÐÖ»ÐèÒªÍ¨¹ýÖØÐ´apply()º¯Êý¾Í¿ÉÒÔÊµÏÖÍ¼ÏñµÄ¼ÓÔØ¡£¾ßÌåµØ£¬Ê¹ÓÃopencvÍ¨¹ýÍ¼ÏñÂ·¾¶¼ÓÔØÍ¼ÐÎ£¬È·±£¼ÓÔØµÄÍ¼ÏñÎªRGB¸ñÊ½£¬²¢¸ù¾Ý¼ÓÔØÍ¼ÏñµÄ³¤¿í²¹³ä¡¢ÐÞÕýÍ¨¹ýCOCOÌá¹©µÄJSON±ê×¢ÎÄ¼þµÃµ½µÄÍ¼Ïñ³¤¿í¡£×îºó£¬½«Í¼Ïñ×ª»»ÎªNumpyµÄ¸ñÊ½¡£

class Decode(BaseOperator):

def init(self):

super(Decode, self).init()

def apply(self, sample, context=None):

""" load image if 'im_file' field is not empty but 'image' is"""

im = sample£Û'image'£Ý

data = np.frombuffer(im, dtype='uint8')

im = cv2.imdecode(data, 1)  # BGR mode, but need RGB mode

if 'keep_ori_im' in sample and sample£Û'keep_ori_im'£Ý:

sample£Û'ori_image'£Ý = im

im = cv2.cvtColor(im, cv2.COLOR_BGR2RGB)

sample£Û'image'£Ý = im

if 'h' not in sample:

sample£Û'h'£Ý = im.shape£Û0£Ý

elif sample£Û'h'£Ý != im.shape£Û0£Ý:

sample£Û'h'£Ý = im.shape£Û0£Ý

if 'w' not in sample:

sample£Û'w'£Ý = im.shape£Û1£Ý

elif sample£Û'w'£Ý != im.shape£Û1£Ý:

sample£Û'w'£Ý = im.shape£Û1£Ý

sample£Û'im_shape'£Ý = np.array(im.shape£Û:2£Ý, dtype=np.float32)

sample£Û'scale_factor'£Ý = np.array(£Û1., 1.£Ý, dtype=np.float32)

return sample

Í¼Ïñ·­×ªÀàRandomFlipÀà£º  ÓÃÓÚ¶ÔÍ¼Ïñ½øÐÐ·´×ª¡£Í¬Ê±£¬¶ÔÓÚ±ê×¢µÄ¾ØÐÎ¿òÒ²Òª×ö³öÏàÓ¦µÄµ÷Õû£¬È·±£ÎÞÂÛÍ¼ÏñÔõÃ´±ä»¯£¬¾ØÐÎ¿ò×ÜÄÜÕýÈ·µØ°ü¹ü×¡Ä¿±ê¡£

class RandomFlip(BaseOperator):

def init(self, prob=0.5):

super(RandomFlip, self).init()

self.prob = prob

def apply_image(self, image):

return image£Û:, ::-1, :£Ý

def apply_bbox(self, bbox, width):

oldx1 = bbox£Û:, 0£Ý.copy()

oldx2 = bbox£Û:, 2£Ý.copy()

bbox£Û:, 0£Ý = width - oldx2

bbox£Û:, 2£Ý = width - oldx1

return bbox

def apply(self, sample, context=None):

if np.random.uniform(0, 1) < self.prob:

im = sample£Û'image'£Ý

height, width = im.shape£Û:2£Ý

im = self.apply_image(im)

if 'gt_bbox' in sample and len(sample£Û'gt_bbox'£Ý) > 0:

sample£Û'gt_bbox'£Ý = self.apply_bbox(sample£Û'gt_bbox'£Ý, width)

sample£Û'flipped'£Ý = True

sample£Û'image'£Ý = im

return sample

¸ù¾Ý¶Ì±ßËæ»úµ÷ÕûÍ¼ÏñÀàRandomShortSideResize£º  ÒÔÍ¼ÏñµÄ×î¶Ì±ßÎª»ù´¡£¬Ëæ»ú·Å´ó»òËõÐ¡¶Ì±ßµÄ³¤¶È¡£ÔÚËùËõ·Å¶Ì±ßµÄÍ¬Ê±£¬±£Ö¤Õû¸öÍ¼ÏñµÄ³¤¿í±ÈÀý²»±ä£¬½ø¶øËõ·ÅÕû¸öÍ¼Ïñ£¬´Ó¶øÊµÏÖÍ¼Ïñ·Ö±æÂÊËæ»úµ÷Õû¡£ÓëÍ¼Ïñ·´×ªÏàÍ¬£¬±ê×¢µÄ¾ØÐÎ¿òÒ²Òª×ö³öÏàÓ¦µÄµ÷Õû¡£ÆäÖÐ£¬get_size_with_aspect_ratio()º¯ÊýÓÃÓÚ¼ÆËãËõ·ÅÒò×Ó£¬resize()º¯Êý¸ù¾ÝËõ·ÅÒò×ÓÊµÏÖÍ¼ÏñµÄµ÷Õû£¬apply_bboxÔò¶ÔÓ¦µØµ÷Õû±ê×¢µÄÐÅÏ¢¡£

class RandomShortSideResize(BaseOperator):

def init(self,

short_side_sizes,

max_size=None,

interp=cv2.INTER_LINEAR,

random_interp=False):

super(RandomShortSideResize, self).init()

...



def get_size_with_aspect_ratio(self, image_shape, size, max_size=None):

...

return (ow, oh)

def resize(self,

sample,

target_size,

max_size=None,

interp=cv2.INTER_LINEAR):

...

return sample



def apply_bbox(self, bbox, scale, size):

im_scale_x, im_scale_y = scale

resize_w, resize_h = size

bbox£Û:, 0::2£Ý *= im_scale_x

bbox£Û:, 1::2£Ý *= im_scale_y

bbox£Û:, 0::2£Ý = np.clip(bbox£Û:, 0::2£Ý, 0, resize_w)

bbox£Û:, 1::2£Ý = np.clip(bbox£Û:, 1::2£Ý, 0, resize_h)

return bbox.astype('float32')



def apply(self, sample, context=None):

target_size = random.choice(self.short_side_sizes)

interp = random.choice(

self.interps) if self.random_interp else self.interp

return self.resize(sample, target_size, self.max_size, interp)

Ëæ»ú²Ã¼ôÀàRandomSizeCrop£º   ¸ù¾Ý¸ø¶¨µÄmin_sizeºÍmax_size¶ÔÍ¼Ïñ½ø²Ã¼ô¡£ÔÚRandomSizeCropÖÐÍ¨¹ýget_crop_params()º¯Êý»ñµÃ²Ã¼ô¹ý³ÌÖÐËù±ØÐèµÄ²ÎÊý(²Ã¼ôÎ»ÖÃ¡¢´óÐ¡)£¬²¢Í¨¹ýcropÊµÏÖÍ¼ÏñµÄ²Ã¼ô¡£Í¬ÑùµØ£¬ÔÚ¶ÔÍ¼Ïñ½øÐÐ²Ã¼ôµÄÊ±ºò£¬±ê×¢µÄ¾ØÐÎ¿òÒ²ÒªÍ¨¹ýapply_bbox()º¯Êý×ö³öÏàÓ¦µØµ÷Õû¡£

class RandomSizeCrop(BaseOperator):

def init(self, min_size, max_size):

super(RandomSizeCrop, self).init()

self.min_size = min_size

self.max_size = max_size

from paddle.vision.transforms.functional import crop as paddle_crop

self.paddle_crop = paddle_crop

@staticmethod

def get_crop_params(img_shape, output_size):

h, w = img_shape

th, tw = output_size

if w == tw and h == th:

return 0, 0, h, w

i = random.randint(0, h - th + 1)

j = random.randint(0, w - tw + 1)

return i, j, th, tw



def crop(self, sample, region):

image_shape = sample£Û'image'£Ý.shape£Û:2£Ý

sample£Û'image'£Ý = self.paddle_crop(sample£Û'image'£Ý, *region)

keep_index = None

if 'gt_bbox' in sample and len(sample£Û'gt_bbox'£Ý) > 0:

sample£Û'gt_bbox'£Ý = self.apply_bbox(sample£Û'gt_bbox'£Ý, region)

bbox = sample£Û'gt_bbox'£Ý.reshape(£Û-1, 2, 2£Ý)

area = (bbox£Û:, 1, :£Ý - bbox£Û:, 0, :£Ý).prod(axis=1)

keep_index = np.where(area > 0)£Û0£Ý

sample£Û'gt_bbox'£Ý = sample£Û'gt_bbox'£Ý£Ûkeep_index£Ý if len(

keep_index) > 0 else np.zeros(

£Û0, 4£Ý, dtype=np.float32)

sample£Û'gt_class'£Ý = sample£Û'gt_class'£Ý£Ûkeep_index£Ý if len(

keep_index) > 0 else np.zeros(

£Û0, 1£Ý, dtype=np.float32)

return sample



def apply_bbox(self, bbox, region):

i, j, h, w = region

region_size = np.asarray(£Ûw, h£Ý)

crop_bbox = bbox - np.asarray(£Ûj, i, j, i£Ý)

crop_bbox = np.minimum(crop_bbox.reshape(£Û-1, 2, 2£Ý), region_size)

crop_bbox = crop_bbox.clip(min=0)

return crop_bbox.reshape(£Û-1, 4£Ý).astype('float32')



def apply(self, sample, context=None):

h = random.randint(self.min_size,

min(sample£Û'image'£Ý.shape£Û0£Ý, self.max_size))

w = random.randint(self.min_size,

min(sample£Û'image'£Ý.shape£Û1£Ý, self.max_size))

region = self.get_crop_params(sample£Û'image'£Ý.shape£Û:2£Ý, £Ûh, w£Ý)

return self.crop(sample, region)

Ëæ»úÑ¡ÔñÔ¤´¦ÀíÀàRandomSelect£º  ´ÓÁ½ÖÖÊý¾ÝÔ¤´¦Àí·½Ê½×éºÏÖÐËæ»úÑ¡ÔñÒ»ÖÖ¡£¿ÉÒÔ¸ù¾ÝÊäÈëp¿ØÖÆÁ½ÖÖÔ¤´¦Àí×éºÏµÄÇãÏòÐÔ¡£

class RandomSelect(BaseOperator):

def init(self, transforms1, transforms2, p=0.5):

super(RandomSelect, self).init()

self.transforms1 = Compose(transforms1)

self.transforms2 = Compose(transforms2)

self.p = p



def apply(self, sample, context=None):

if random.random() < self.p:

return self.transforms1(sample)

return self.transforms2(sample)

Í¼Ïñ¹éÒ»»¯ÀàNormalizeImage£º  ¶ÔÊäÈëµÄÍ¼Ïñ½øÐÐ¹éÒ»»¯¡£NormalizeImageÀàÌá¹©ÁËÁ½ÖÖÑ¡Ïî£º  ¢Ù½«Í¼ÏñµÄÏñËØÖµÓ³Éäµ½0µ½1£»  ¢ÚÃ¿¸öÏñËØµã¼õÈ¥¾ùÖµÔÙ³ýÒÔ·½²î¡£

class NormalizeImage(BaseOperator):

def init(self, mean=£Û0.485, 0.456, 0.406£Ý, std=£Û1, 1, 1£Ý,

is_scale=True):

super(NormalizeImage, self).init()

self.mean = mean

self.std = std

self.is_scale = is_scale

from functools import reduce

if reduce(lambda x, y: x * y, self.std) == 0:

raise ValueError('{}: std is invalid!'.format(self))



def apply(self, sample, context=None):

im = sample£Û'image'£Ý

im = im.astype(np.float32, copy=False)

mean = np.array(self.mean)£Ûnp.newaxis, np.newaxis, :£Ý

std = np.array(self.std)£Ûnp.newaxis, np.newaxis, :£Ý

if self.is_scale:

im = im / 255.0

im -= mean

im /= std

sample£Û'image'£Ý = im

return sample

±ê×¢¾ØÐÎ¿ò×ø±ê¹éÒ»»¯ÀàNormalizeBox£º  ½«±ê×¢¾ØÐÎ¿òµÄ×ø±ê¹éÒ»»¯£¬ÓÉÔ­À´µÄ¾ø¶Ô×ø±êÎ»ÖÃ×ª»¯ÎªÏà¶ÔÕû¸öÍ¼Ïñ¶øÑÔµÄÏà¶Ô×ø±êÎ»ÖÃ¡£¼òµ¥À´Ëµ£¬¾ÍÊÇ×ø±êµã·Ö±ð³ýÒÔÍ¼ÏñµÄ³¤»ò¿í¡£

class NormalizeBox(BaseOperator):



def init(self):

super(NormalizeBox, self).init()

def apply(self, sample, context):

im = sample£Û'image'£Ý

gt_bbox = sample£Û'gt_bbox'£Ý

height, width, _ = im.shape

for i in range(gt_bbox.shape£Û0£Ý):

gt_bbox£Ûi£Ý£Û0£Ý = gt_bbox£Ûi£Ý£Û0£Ý / width

gt_bbox£Ûi£Ý£Û1£Ý = gt_bbox£Ûi£Ý£Û1£Ý / height

gt_bbox£Ûi£Ý£Û2£Ý = gt_bbox£Ûi£Ý£Û2£Ý / width

gt_bbox£Ûi£Ý£Û3£Ý = gt_bbox£Ûi£Ý£Û3£Ý / height

sample£Û'gt_bbox'£Ý = gt_bbox

return sample

PermuteÀà£º  ÓÃÓÚ¸ü¸ÄÍ¼Æ¬Í¨µÀÎª(C,H,W)¡£Í¼ÏñÔÚ¼ÓÔØ½øÀ´ºóÍ¨µÀÎª(H,W,C)²¢²»Âú×ãÍøÂçµÄÊäÈëÒªÇó£¬Òò´ËÐèÒªÍ¨¹ýPermuteÀàµ÷½«Æäµ÷ÕûÎª(C,H,W)¡£

class Permute(BaseOperator):

def init(self):

super(Permute, self).init()



def apply(self, sample, context=None):

im = sample£Û'image'£Ý

im = im.transpose((2, 0, 1))

sample£Û'image'£Ý = im

return sample

ÔÚÍê³ÉCOCODataSetºÍ¸÷ÖÖÔ¤´¦ÀíÀàºó£¬ÎÒÃÇ¾ÍÒªÊµÏÖ×îÖÕµÄÊý¾Ý¶ÁÈ¡ÀàBaseDataLoader¡£BaseDataLoaderÍ¨¹ý½ÓÊÕCOCODataSetµÄÊµÀý£¬µ÷ÓÃCOCODataSetµÄ·½·¨ºÍpaddle.io.DataLoaderÊµÏÖDETRÍøÂçÊý¾ÝµÄ¼ÓÔØ£¬¸ù¾ÝbatchµÄÉèÖÃÎªDETRÅúÁ¿µØÌá¹©Ô¤´¦ÀíºóµÄÍ¼ÏñºÍ±ê×¢Êý¾Ý¡£ÆäÖÐ£¬Compose¡¢BatchComposeÀà·Ö±ð¸ù¾Ý½ÓÊÕµ½Ô¤´¦Àí²ÎÊý×éºÏ¹¹½¨Ô¤´¦ÀíµÄ¹ý³Ì¡£

class BaseDataLoader(object):

def init(self,

sample_transforms=£Û£Ý,

batch_transforms=£Û£Ý,

batch_size=1,

shuffle=False,

drop_last=True,

num_classes=80,

collate_batch=True,

use_shared_memory=False,

**kwargs):

self._sample_transforms = Compose(

sample_transforms, num_classes=num_classes)

self._batch_transforms = BatchCompose(batch_transforms, num_classes,

collate_batch)

...

def call(self,

dataset,

worker_num,

batch_sampler=None,

return_list=False):

self.dataset = dataset

self.dataset.parse_dataset()

self.dataset.set_transform(self._sample_transforms)

self.dataset.set_kwargs(**self.kwargs)

...

self.dataloader = DataLoader(

dataset=self.dataset,

batch_sampler=self._batch_sampler,

collate_fn=self._batch_transforms,

num_workers=worker_num,

return_list=return_list,

use_shared_memory=use_shared_memory)

self.loader = iter(self.dataloader)

return self

...

²½Öè3£º  DETRÄ£ÐÍ¹¹½¨

ÔÚÕâ²¿·Ö£¬ÎÒÃÇÒª¿ªÊ¼¹¹½¨DETRµÄÄ£ÐÍ¡£ÈçÍ¼3ª²3ª²4ËùÊ¾£¬DETRÊ×ÏÈ½«Ò»ÕÅÈýÍ¨µÀÍ¼Æ¬ÊäÈëµ½backboneÎªCNNµÄÍøÂçÖÐ£¬ÌáÈ¡Í¼Æ¬ÌØÕ÷£»  Æä´Î£¬°ÑÍ¼ÏñÌØÕ÷ºÍÎ»ÖÃÐÅÏ¢½áºÏºóÊäÈëµ½transformerÄ£ÐÍµÄ±àÂëÆ÷ºÍ½âÂëÆ÷ÖÐ£»  ×îºó£¬Í¨¹ýÔ¤²âÍøÂçµÃµ½×îÖÕµÄ¼ì²â½á¹û£¬Ã¿¸ö½á¹û¾ÍÊÇÒ»¸öbox£¬Ã¿¸öbox±íÊ¾Ò»¸öÔª×é£¬°üº¬ÎïÌåµÄÀà±ðºÍ¼ì²â¿òÎ»ÖÃ¡£½ÓÏÂÀ´½«·Ö±ðÊµÏÖDETRµÄÃ¿¸ö²¿·Ö¡£





Í¼3ª²3ª²4DETRÏêÏ¸ÍøÂç½á¹¹


(1) ResnetÌØÕ÷ÌáÈ¡ÍøÂç¡£

ÔÚÕâÀï£¬ÎÒÃÇÊ¹ÓÃResNet×÷ÎªbackboneÀ´ÌáÈ¡Í¼Æ¬µÄÌØÕ÷¡£ResNet ÍøÂçÔÚ2015ÄêÓÉÎ¢ÈíÊµÑéÊÒµÄºÎ¿­Ã÷µÈÌá³ö£¬Õ¶»ñµ±ÄêImageNet¾ºÈüÖÐ·ÖÀà¡¢Ä¿±ê¼ì²âÈÎÎñµÄµÚÒ»Ãû¡¢COCOÊý¾Ý¼¯ÖÐÄ¿±ê¼ì²â¡¢Í¼Ïñ·Ö¸îµÄµÚÒ»Ãû¡£

ÔÚ´Ë¹ý³ÌÖÐ£¬ÎÒÃÇÖ÷ÒªÊ¹ÓÃÈçÏÂ½Ó¿Ú½øÐÐÍøÂç½á¹¹µÄ¶Ñµþ¡£

paddle.nn.Sequential(*layers)£º  Ë³ÐòÈÝÆ÷¡£×ÓLayer½«°´¹¹Ôìº¯Êý²ÎÊýµÄË³ÐòÌí¼Óµ½´ËÈÝÆ÷ÖÐ¡£´«µÝ¸ø¹¹Ôìº¯ÊýµÄ²ÎÊý¿ÉÒÔÊÇLayers»ò¿Éµü´úµÄname LayerÔª×é¡£

¤r layers(tuple)£º  Layers»ò¿Éµü´úµÄname Layer¶Ô¡£

Í¨¹ý¶¨ÒåÒ»¸ö¼Ì³ÐÁËpaddle.nn.LayerµÄResNetÀàÀ´ÊµÏÖResNetÍøÂç¡£ÔÚinit()º¯ÊýÖÐÎÒÃÇÐèÒªÊäÈë´î½¨ResNetÍøÂçµÄÒ»Ð©±ØÒª²ÎÊý¡£

class ResNet(nn.Layer):

def init(self,

depth=50, #ResNet depth, should be 18, 34, 50, 101, 152.

ch_in=64, #output channel of first stage, default 64

variant='b',#ResNet variant,

lr_mult_list=£Û1.0, 1.0, 1.0, 1.0£Ý, #learning rate ratio

groups=1,  # group convolution cardinality

base_width=64, # base width of each group convolution

norm_type='bn', # normalization type

norm_decay=0,# weight decay               

freeze_norm=True, # freeze normalization layers

freeze_at=0, # freeze the backbone at which stage

return_idx=£Û0, 1, 2, 3£Ý,#freeze the backbone 

dcn_v2_stages=£Û-1£Ý,# deformable conv v2

num_stages=4, #  total num of stages

std_senet=False):

super(ResNet, self).init()

self._model_type = 'ResNet' if groups == 1 else 'ResNeXt'

self.depth = depth

self.variant = variant

self.groups = groups

self.base_width = base_width

self.norm_type = norm_type

self.norm_decay = norm_decay

self.freeze_norm = freeze_norm

self.freeze_at = freeze_at

self.return_idx = return_idx

self.num_stages = num_stages

self.dcn_v2_stages = dcn_v2_stages

ÔÚinit()º¯ÊýÖÐ£¬»¹ÐèÒªÍê³ÉResNet¸÷¸öÍøÂç²ãµÄ´î½¨¡£Í¨¹ýµ÷ÓÃresnet.pyÎÄ¼þÖÐµÄNameAdapter·½·¨»ñÈ¡ÍøÂç²ãµÄÃû³ÆÒÔÆ¥ÅäÔ¤ÑµÁ·È¨ÖØ¡£ÒòÎªResnetµÄµÚÒ»¸ö¾í»ý²ãÓëºóÃæµÄÍøÂç²ã¶¼²»ÏàÍ¬£¬Òò´Ë£¬ÒªÍ¨¹ýConvNormLayer()º¯Êýµ¥¶ÀÊµÏÖµÚ¾í»ý+BN²ã(²½³¤Îª2£¬´óÐ¡Îª7¡Á7µÄ¾í»ýºË)¡£

na = NameAdapter(self)

conv1_name = na.fix_c1_stage_name()

conv_def = £Û£Û3, ch_in, 7, 2, conv1_name£Ý£Ý

self.conv1 = nn.Sequential()

for (c_in, c_out, k, s, _name) in conv_def:

self.conv1.add_sublayer(

_name,

ConvNormLayer(

ch_in=c_in,

ch_out=c_out,

filter_size=k,

stride=s,

groups=1,

act='relu',

norm_type=norm_type,

norm_decay=norm_decay,

freeze_norm=freeze_norm,

lr=1.0))

ResNet³ýµÚÒ»²ãÍøÂç²ÎÊýÐèÒªµ¥¶ÀÉè¶¨Ö®Íâ£¬ÆäÓàµÄÍøÂç²ã¶¼ÓÐ×ÅÏàËÆµÄ½á¹¹¡£Òò´ËÍ¨¹ýÑ­»·µ÷ÓÃBlocks()Àà£¬²¢¸³Óè²»Í¬µÄ²ÎÊýÀ´¿ìËÙÊµÏÖ¡£×îÖÕÍøÂç²ãµÄ½á¹¹±»´æ´¢ÔÚres_layersÖÐ(¾ßÌå¿É²Î¿¼2.4½ÚºÍresnet.pyÎÄ¼þ)¡£

ch_out_list = £Û64, 128, 256, 512£Ý

block = BottleNeck if depth >= 50 else BasicBlock

self._out_channels = £Ûblock.expansion * v for v in ch_out_list£Ý

self._out_strides = £Û4, 8, 16, 32£Ý

self.res_layers = £Û£Ý

for i in range(num_stages):

lr_mult = lr_mult_list£Ûi£Ý

stage_num = i + 2

res_name = "res{}".format(stage_num)

res_layer = self.add_sublayer(

res_name,

Blocks(

block,

self.ch_in,

ch_out_list£Ûi£Ý,

count=block_nums£Ûi£Ý,

name_adapter=na,

stage_num=stage_num,

variant=variant,

groups=groups,

base_width=base_width,

lr=lr_mult,

norm_type=norm_type,

norm_decay=norm_decay,

freeze_norm=freeze_norm,

dcn_v2=(i in self.dcn_v2_stages),

std_senet=std_senet))

self.res_layers.append(res_layer)

self.ch_in = self._out_channels£Ûi£Ý

ResNetÇ°Ïò´«²¥±È½Ï¼òµ¥£¬Ö»ÐèÒª½«ÎÒÃÇµÚÒ»²ãÍøÂç½á¹¹ºÍres_layersµÄÍøÂç½á¹¹°´Ë³Ðò´«²¥¾Í¿ÉÒÔ(²Ð²îµÄ½á¹¹ÔÚBlocksÀàÖÐÒÑ¾­ÊµÏÖÁË)¡£

def forward(self, inputs):

x = inputs£Û'image'£Ý

conv1 = self.conv1(x)

x = F.max_pool2d(conv1, kernel_size=3, stride=2, padding=1)

outs = £Û£Ý

for idx, stage in enumerate(self.res_layers):

x = stage(x)

if idx in self.return_idx:

outs.append(x)

return outs

(2) Î»ÖÃ±àÂë¡£

ÔÚDETRÖÐÓë2.5½ÚÏàËÆµØÊ¹ÓÃÁËÎ»ÖÃ±àÂë(PositionEmbedding)¡£ÔÚDETRÊµ¼ùÖÐÍ¨¹ýPositionEmbeddingÀàÀ´ÊµÏÖDETRµÄÎ»ÖÃ±àÂë¡£PositionEmbeddingÌá¹©ÁËsineºÍlearnedÁ½ÖÖÎ»ÖÃ±àÂë·½Ê½¡£learnedÊÇÒ»ÖÖ¿ÉÑ§Ï°µÄ·½·¨£¬¼´emmbedingÏòÁ¿´ÓÍøÂçÖÐÑ§Ï°£»  sine·½·¨¶ÔÓÚÌØÕ÷Í¼z0¡ÊRd¡ÁH¡ÁW,¹¹½¨ÏàÓ¦µÄÎ»ÖÃ±àÂëPE¡ÊRd¡ÁH¡ÁW, ¶ÔÓÚÎ»ÖÃ(h,w)£¬Ç°d/2Î¬±íÊ¾H·½ÏòµÄÎ»ÖÃ±àÂë£¬ºód/2Î¬±íÊ¾W·½ÏòµÄÎ»ÖÃ±àÂë£º   
PE(POS,2i)=sinpostemperature2i/d
PE(POS,2i+1)=cospostemperature2i/d
ÔÚPositionEmbeddingÀàÖÐ£¬init()º¯ÊýÐèÒª¸ù¾ÝÑ¡¶¨sine()»òÕßlearnedµÄ·½·¨½øÐÐÉèÖÃ¡£Èç¹ûÊÇsine()µÄ·½·¨£¬Òª¸ø¶¨ÌØÕ÷µÄÎ¬¶Èd¡¢sin()ÖÐµÄ·ÖÄ¸µ×Êýtemperature¡£¶ølearnedµÄ·½·¨ÔòÍ¨¹ýpaddle.nn.EmbeddingÀ´ÊµÏÖ¡£

class PositionEmbedding(nn.Layer):

def init(self,

num_pos_feats=128,

temperature=10000,

normalize=True,

scale=None,

embed_type='sine',

num_embeddings=50,

offset=0.):

super(PositionEmbedding, self).init()

assert embed_type in £Û'sine', 'learned'£Ý

self.embed_type = embed_type

self.offset = offset

self.eps = 1e-6

if self.embed_type == 'sine':

self.num_pos_feats = num_pos_feats

self.temperature = temperature

self.normalize = normalize

if scale is not None and normalize is False:

raise ValueError("normalize should be True if scale is passed")

if scale is None:

scale = 2 * math.pi

self.scale = scale

elif self.embed_type == 'learned':

self.row_embed = nn.Embedding(num_embeddings, num_pos_feats)

self.col_embed = nn.Embedding(num_embeddings, num_pos_feats)

ÔÚforward()º¯ÊýÖÐ£¬sineµÄ·½·¨Í¨¹ýcumsum·½·¨·Ö±ð¼ÆËãW¡¢HÁ½¸ö·½ÏòÉÏposÖµµÄÐÅÏ¢£¬ÔÙ·Ö±ð¸ù¾Ý¹«Ê½¼ÆËãµÃµ½¶ÔÓ¦µÄ¾ØÕó£»  ¶ølearned·½·¨Ôò¸ù¾ÝÊäÈëÌØÕ÷µÄW¡¢H£¬·Ö±ðÍ¨¹ýinitÖÐµÄrow_embedºÍcol_embed¹¹½¨¶ÔÓ¦µÄ¾ØÕó¡£×îºó£¬µÃµ½µÄÁ½¸ö·½ÏòµÄ¾ØÕó¾­¹ýÁ¬½ÓºÍÎ¬¶È±ä»¯ºó¾ÍµÃµ½ÁËÎ»ÖÃ±àÂë¡£

def forward(self, mask):

if self.embed_type == 'sine':

mask = mask.astype('float32')

y_embed = mask.cumsum(1, dtype='float32')

x_embed = mask.cumsum(2, dtype='float32')

if self.normalize:

y_embed = (y_embed + self.offset) / (

y_embed£Û:, -1:, :£Ý + self.eps) * self.scale

x_embed = (x_embed + self.offset) / (

x_embed£Û:, :, -1:£Ý + self.eps) * self.scale

dim_t = 2 * (paddle.arange(self.num_pos_feats) //

2).astype('float32')

dim_t = self.temperature**(dim_t / self.num_pos_feats)

pos_x = x_embed.unsqueeze(-1) / dim_t

pos_y = y_embed.unsqueeze(-1) / dim_t

pos_x = paddle.stack(

(pos_x£Û:, :, :, 0::2£Ý.sin(), pos_x£Û:, :, :, 1::2£Ý.cos()),

axis=4).flatten(3)

pos_y = paddle.stack(

(pos_y£Û:, :, :, 0::2£Ý.sin(), pos_y£Û:, :, :, 1::2£Ý.cos()),

axis=4).flatten(3)

pos = paddle.concat((pos_y, pos_x), axis=3).transpose(£Û0, 3, 1, 2£Ý)

return pos

elif self.embed_type == 'learned':

h, w = mask.shape£Û-2:£Ý

i = paddle.arange(w)

j = paddle.arange(h)

x_emb = self.col_embed(i)

y_emb = self.row_embed(j)

pos = paddle.concat(

£Ûx_emb.unsqueeze(0).repeat(h, 1, 1),

y_emb.unsqueeze(1).repeat(1, w, 1)£Ý,

axis=-1).transpose(£Û2, 0, 1£Ý).unsqueeze(0).tile(mask.shape£Û0£Ý,

1, 1, 1)

return pos

(3) Transformer½á¹¹¡£

½ÓÏÂÀ´ÒªÍê³ÉTransformerµÄ½á¹¹¡£ÈçÍ¼3ª²3ª²5ËùÊ¾£¬Transformer·ÖÎªEncoderºÍDecoderÁ½²¿·Ö£¬¾ßÌåÊµÏÖ¹ý³ÌÈçÏÂ¡£



Í¼3ª²3ª²5Transformer½á¹¹Ê¾ÒâÍ¼


ÔÚTransformerÖÐ£¬Ò»¸ö·Ç³£ÖØÒªµÄ²¿·ÖÊÇÊµÏÖ¶àÍ·×Ô×¢ÒâÁ¦¡£Òò´Ë£¬Í¨¹ýMultiHeadAttentionÀàÀ´ÊµÏÖ¶àÍ·×Ô×¢ÒâÁ¦µÄÍøÂç½á¹¹¡£ÔÚinit()º¯ÊýÖÐÎÒÃÇÐèÒª¸ø¶¨ÊäÈëÒÔ¼°Êä³öÌØÕ÷µÄÎ¬¶Èembed_dim¡¢¶àÍ·×Ô×¢ÒâÁ¦»úÖÆÖÐÍ·µÄÊýÄ¿num_headsºÍÊÇ·ñÊ¹ÓÃdropoutµÈ£¬²¢Éú³Éq¡¢k¡¢vËùÐèÒªµÄLinear²ã¡£

class MultiHeadAttention(nn.Layer):

def init(self,

embed_dim,

num_heads,

dropout=0.,

kdim=None,

vdim=None,

need_weights=False):

super(MultiHeadAttention, self).init()

self.embed_dim = embed_dim

...

self.head_dim = embed_dim // num_heads

if self._qkv_same_embed_dim:

self.in_proj_weight = self.create_parameter(

shape=£Ûembed_dim, 3 * embed_dim£Ý,

attr=None,

dtype=self._dtype,

is_bias=False)

self.in_proj_bias = self.create_parameter(

shape=£Û3 * embed_dim£Ý,

attr=None,

dtype=self._dtype,

is_bias=True)

else:

self.q_proj = nn.Linear(embed_dim, embed_dim)

self.k_proj = nn.Linear(self.kdim, embed_dim)

self.v_proj = nn.Linear(self.vdim, embed_dim)

self.out_proj = nn.Linear(embed_dim, embed_dim)

self._type_list = ('q_proj', 'k_proj', 'v_proj')

self._reset_parameters()

½ÓÏÂÀ´£¬ÔÚÇ°Ïò´«²¥forward()º¯ÊýÖÐÊµÏÖ×Ô×¢ÒâÁ¦µÄ¹ý³Ì£º  q³ËÒÔkµÄ×ªÖÃ£¬ÔÚ½øÐÐscalingºÍsoftmaxºó¸úv×ö³Ë»ý¾ÍÍê³ÉÁËself.attentionµÄ¹ý³Ì¡£

def forward(self, query, key=None, value=None, attn_mask=None):

key = query if key is None else key

value = query if value is None else value

q, k, v = (self.compute_qkv(t, i)

for i, t in enumerate(£Ûquery, key, value£Ý))

product = paddle.matmul(x=q, y=k, transpose_y=True)

scaling = float(self.head_dim)**-0.5

product = product * scaling

if attn_mask is not None:

attn_mask = _convert_attention_mask(attn_mask, product.dtype)

product = product + attn_mask

weights = F.softmax(product)

if self.dropout:

weights = F.dropout(

weights,

self.dropout,

training=self.training,

mode="upscale_in_train")

out = paddle.matmul(weights, v)

out = paddle.transpose(out, perm=£Û0, 2, 1, 3£Ý)

out = paddle.reshape(x=out, shape=£Û0, 0, out.shape£Û2£Ý * out.shape£Û3£Ý£Ý)

out = self.out_proj(out)

outs = £Ûout£Ý

if self.need_weights:

outs.append(weights)

return out if len(outs) == 1 else tuple(outs)



Í¼3ª²3ª²6Encoder½á¹¹Ê¾ÒâÍ¼


Encoder²¿·ÖÈçÏÂ¡£

Transformer±àÂëµÄ¹ý³ÌÓÉ¶à¸öÈçÍ¼3ª²3ª²6ËùÊ¾µÄEncoder½á¹¹×é³É£¬ÆäÖÐ°üº¬¶àÍ·×Ô×¢ÒâÁ¦¡¢²Ð²î¡¢¹éÒ»»¯ºÍÇ°À¡Éñ¾­ÍøÂç¡£½ÓÏÂÀ´ÎÒÃÇÍ¨¹ýTransformerEncoderLayerÀ´ÊµÏÖµ¥¸öEncoder¡£


ÔÚTransformerEncoderLayerµÄinit()º¯ÊýÖÐ£¬ÒªÊµÀý»¯Encoder½á¹¹ÖÐËùÐèÒªµÄ¸÷¸öÍøÂç²ã£¬Ö÷Òª°üÀ¨¶àÍ·×Ô×¢ÒâÁ¦²ã¡¢FFN¡¢¹éÒ»»¯ºÍDropout²ã¡£

class TransformerEncoderLayer(nn.Layer):

def init(self,

d_model,

nhead,

dim_feedforward=2048,

dropout=0.1,

activation="relu",

attn_dropout=None,

act_dropout=None,

normalize_before=False):

super(TransformerEncoderLayer, self).init()

attn_dropout = dropout if attn_dropout is None else attn_dropout

act_dropout = dropout if act_dropout is None else act_dropout

self.normalize_before = normalize_before

self.self_attn = MultiHeadAttention(d_model, nhead, attn_dropout)

self.linear1 = nn.Linear(d_model, dim_feedforward)

self.dropout = nn.Dropout(act_dropout, mode="upscale_in_train")

self.linear2 = nn.Linear(dim_feedforward, d_model)

self.norm1 = nn.LayerNorm(d_model)

self.norm2 = nn.LayerNorm(d_model)

self.dropout1 = nn.Dropout(dropout, mode="upscale_in_train")

self.dropout2 = nn.Dropout(dropout, mode="upscale_in_train")

self.activation = getattr(F, activation)

self._reset_parameters()

ÔÚTransformerEncoderLayerµÄÇ°Ïò¹ý³ÌÖÐ£¬°´ÕÕÍ¼3ª²3ª²6ËùÊ¾Á÷³Ì½øÐÐ¡£q,kÓÉ×î³õÊäÈëµÄsrc¼ÓÉÏposµÄÎ»ÖÃ±àÂë¹¹³É£¬½øÈë×Ô×¢ÒâÁ¦²ãºó»á¶Ôq,k,v½øÐÐreshape¡£Ö®ºó½øÐÐ²Ð²î¡¢FNNµÈ²Ù×÷¡£¶ø¹éÒ»»¯Ôò·ÖÎªÁ½ÖÖÇé¿ö£¬Ò»ÖÖÇé¿öÊÇÔÚÊäÈë¶àÍ·×Ô×¢ÒâÁ¦²ãºÍFFNÇ°½øÐÐ¹éÒ»»¯£¬ÁíÒ»ÖÖÇé¿öÊÇÔÚÕâÁ½¸ö²ãÊä³öºóÔÙ½øÐÐ¹éÒ»»¯¡£

def forward(self, src, src_mask=None, pos_embed=None):

src_mask = _convert_attention_mask(src_mask, src.dtype)

residual = src

if self.normalize_before:

src = self.norm1(src)

q = k = self.with_pos_embed(src, pos_embed)

src = self.self_attn(q, k, value=src, attn_mask=src_mask)

src = residual + self.dropout1(src)

if not self.normalize_before:

src = self.norm1(src)

residual = src

if self.normalize_before:

src = self.norm2(src)

src = self.linear2(self.dropout(self.activation(self.linear1(src))))

src = residual + self.dropout2(src)

if not self.normalize_before:

src = self.norm2(src)

return src

Í¨¹ýTransformerEncoderLayer¿ÉÒÔÊµÏÖµ¥¸öµÄEncoder½á¹¹¡£½ÓÏÂÀ´£¬¶¨ÒåTransformerDecoderÀàÀ´ÊµÏÖTransformerµÄÕûÌåµÄEncoder½á¹¹¡£EncoderÍ¨³£ÓÐ6²ã£¬Ò²¾ÍÊÇÉÏÒ»²ãEncoderµÄÊä³ö×÷ÎªÏÂÒ»²ãEncoderµÄÊäÈë£¬Ö±µ½µÚ6²ã×îºóÊä³ömemory£¬Õâ¸ömemory½«×÷ÎªDecoderµÄÊäÈë(Ê¹ÓÃ_get_clones()·½·¨½«Æä¸´ÖÆ¶à´Î)¡£

class TransformerEncoder(nn.Layer):

def init(self, encoder_layer, num_layers, norm=None):

super(TransformerEncoder, self).init()

self.layers = _get_clones(encoder_layer, num_layers)

self.num_layers = num_layers

self.norm = norm

def forward(self, src, src_mask=None, pos_embed=None):

src_mask = _convert_attention_mask(src_mask, src.dtype)

output = src

for layer in self.layers:

output = layer(output, src_mask=src_mask, pos_embed=pos_embed)

if self.norm is not None:

output = self.norm(output)

return output

Decoder²¿·ÖÈçÏÂ¡£

TransformerµÄDecoder²¿·Ö¸úEncoder²¿·ÖÏàËÆ£¬ÓÉ¶à¸öÐ¡µÄDecoder½á¹¹×é³É£¬µ«ÊÇÔÚÊäÈëÉÏ´æÔÚ²îÒì¡£ÈçÍ¼3ª²3ª²7ËùÊ¾£¬×Ô×¢ÒâÁ¦²ãµÄÊä³ö½«×÷Îª¶àÍ·×¢ÒâÁ¦²ãÖÐµÄq£¬¶økºÍvÔòÀ´×ÔEncoder²¿·ÖµÄÊä³ö£¬ÆäÖÐk»¹Òª¼ÓÉÏÎ»ÖÃ±àÂë¡£




ÎÒÃÇÍ¨¹ýTransformerDecoderLayerÀ´ÊµÏÖµ¥¸öµÄDecoder½á¹¹¡£ÔÚinit()º¯ÊýÖÐ£¬ÐèÒªÊµÀý»¯Decoder½á¹¹ÖÐµÄ¶àÍ·×Ô×¢ÒâÁ¦²ã¡¢ÏßÐÔ²ã¡¢dropoutºÍ¼¤»îº¯Êý¡£

class TransformerDecoderLayer(nn.Layer):

def init(self,

d_model,

nhead,

dim_feedforward=2048,

dropout=0.1,

activation="relu",

attn_dropout=None,

act_dropout=None,

normalize_before=False):

super(TransformerDecoderLayer, self).init()

attn_dropout = dropout if attn_dropout is None else attn_dropout

act_dropout = dropout if act_dropout is None else act_dropout

self.normalize_before = normalize_before

self.self_attn = MultiHeadAttention(d_model, nhead, attn_dropout)

self.cross_attn = MultiHeadAttention(d_model, nhead, attn_dropout)

self.linear1 = nn.Linear(d_model, dim_feedforward)

self.dropout = nn.Dropout(act_dropout, mode="upscale_in_train")

self.linear2 = nn.Linear(dim_feedforward, d_model)

self.norm1 = nn.LayerNorm(d_model)

self.norm2 = nn.LayerNorm(d_model)

self.norm3 = nn.LayerNorm(d_model)

self.dropout1 = nn.Dropout(dropout, mode="upscale_in_train")

self.dropout2 = nn.Dropout(dropout, mode="upscale_in_train")

self.dropout3 = nn.Dropout(dropout, mode="upscale_in_train")

self.activation = getattr(F, activation)

self._reset_parameters()



Í¼3ª²3ª²7Decoder½á¹¹Ê¾ÒâÍ¼


TransformerDecoderLayerÇ°Ïò´«²¥µÄ¹ý³ÌÖÐ£¬Í¼3ª²3ª²7ÏÂ°ë²¿·ÖµÄq,kÓÉtgt¼ÓÉÏquery_pos(query¿ÉÒÔÀí½âÎª¶ÔanchorµÄ±àÂë£¬²¢ÇÒÕâ¸öanchorÊÇÒ»¸öÈ«²ÎÊý¿ÉÑ§Ï°µÄ)µÄÏòÁ¿¹¹³É,ÇÒq=k¡£¾­¹ý×Ô×¢ÒâÁ¦²ã¡¢²Ð²îºÍ¹éÒ»»¯ºó£¬¼ÓÉÏquery_pos×÷ÎªÉÏ°ë²¿·Ö¶àÍ·×Ô×¢ÒâÁ¦²ãµÄq¡£ÉÏ°ë²¿·Ö¶àÍ·×Ô×¢ÒâÁ¦²ãµÄkºÍvÔò·Ö±ðÎªEncoder²¿·ÖµÄÊä³ö¼ÓÉÏquery_posºÍencoder²¿·ÖµÄÊä³ö¡£ÉÏ°ë²¿·Ö¶àÍ·×Ô×¢ÒâÁ¦²ãµÄÊä³öÔÙ¾­¹ý²Ð²î¡¢FNNºÍ¹éÒ»»¯µÈ²Ù×÷ºó¾ÍµÃµ½ÁËµ¥¸öDecoder½á¹¹µÄÊä³ö¡£

def forward(self,

tgt,

memory,

tgt_mask=None,

memory_mask=None,

pos_embed=None,

query_pos_embed=None):

tgt_mask = _convert_attention_mask(tgt_mask, tgt.dtype)

memory_mask = _convert_attention_mask(memory_mask, memory.dtype)

residual = tgt

if self.normalize_before:

tgt = self.norm1(tgt)

q = k = self.with_pos_embed(tgt, query_pos_embed)

tgt = self.self_attn(q, k, value=tgt, attn_mask=tgt_mask)

tgt = residual + self.dropout1(tgt)

if not self.normalize_before:

tgt = self.norm1(tgt)

residual = tgt

if self.normalize_before:

tgt = self.norm2(tgt)

q = self.with_pos_embed(tgt, query_pos_embed)

k = self.with_pos_embed(memory, pos_embed)

tgt = self.cross_attn(q, k, value=memory, attn_mask=memory_mask)

tgt = residual + self.dropout2(tgt)

if not self.normalize_before:

tgt = self.norm2(tgt)

residual = tgt

if self.normalize_before:

tgt = self.norm3(tgt)

tgt = self.linear2(self.dropout(self.activation(self.linear1(tgt))))

tgt = residual + self.dropout3(tgt)

if not self.normalize_before:

tgt = self.norm3(tgt)

return tgt

DETRµÄ½âÂëÆ÷ÓÉ¶à¸öDecoderÄ£¿é×é³É£¬½ÓÏÂÀ´Í¨¹ýTransformerDecoderÀàÀ´ÊµÏÖDETRµÄÕû¸öDecoder¹ý³Ì£¬ÓëEncoder²¿·ÖÏàËÆ£¬Í¨¹ý_get_clones¸´ÖÆ¶à¸öDecoderµÄ½á¹¹£¬ÒÔÇ°Ò»¸öDecoderµÄÊä³ö×÷ÎªÏÂÒ»¸öDecoderµÄÊäÈë¡£

class TransformerDecoder(nn.Layer):

def init(self,

decoder_layer,

num_layers,

norm=None,

return_intermediate=False):

super(TransformerDecoder, self).init()

self.layers = _get_clones(decoder_layer, num_layers)

self.num_layers = num_layers

self.norm = norm

self.return_intermediate = return_intermediate



def forward(self,

tgt,

memory,

tgt_mask=None,

memory_mask=None,

pos_embed=None,

query_pos_embed=None):

tgt_mask = _convert_attention_mask(tgt_mask, tgt.dtype)

memory_mask = _convert_attention_mask(memory_mask, memory.dtype)

output = tgt

intermediate = £Û£Ý

for layer in self.layers:

output = layer(

output,

memory,

tgt_mask=tgt_mask,

memory_mask=memory_mask,

pos_embed=pos_embed,

query_pos_embed=query_pos_embed)

if self.return_intermediate:

intermediate.append(self.norm(output))

if self.norm is not None:

output = self.norm(output)

if self.return_intermediate:

return paddle.stack(intermediate)

return output.unsqueeze(0)

Transformer²¿·ÖÈçÏÂ¡£

Íê³ÉTransformerµÄEncoderºÍDecoderÖ®ºó£¬¾Í¿ÉÒÔÊµÏÖDETRµÄTransformerÕûÌå½á¹¹¡£ÔÚDETRTransformerÀàµÄinit()º¯ÊýÖÐ£¬·Ö±ðÊµÀý»¯TransformerÖÐÐèÒªµÄEncoder½á¹¹¡¢Decoder½á¹¹¡¢Î»ÖÃ±àÂë¡¢query_posºÍÓÃÀ´½µÎ¬µÄ1¡Á1¾í»ý¡£

class DETRTransformer(nn.Layer):

def init(self,

num_queries=100,

position_embed_type='sine',

return_intermediate_dec=True,

backbone_num_channels=2048,

hidden_dim=256,

nhead=8,

num_encoder_layers=6,

num_decoder_layers=6,

dim_feedforward=2048,

dropout=0.1,

activation="relu",

attn_dropout=None,

act_dropout=None,

normalize_before=False):

super(DETRTransformer, self).init()

self.hidden_dim = hidden_dim

self.nhead = nhead

encoder_layer = TransformerEncoderLayer(

hidden_dim, nhead, dim_feedforward, dropout, activation,

attn_dropout, act_dropout, normalize_before)

encoder_norm = nn.LayerNorm(hidden_dim) if normalize_before else None

self.encoder = TransformerEncoder(encoder_layer, num_encoder_layers,

encoder_norm)

decoder_layer = TransformerDecoderLayer(

hidden_dim, nhead, dim_feedforward, dropout, activation,

attn_dropout, act_dropout, normalize_before)

decoder_norm = nn.LayerNorm(hidden_dim)

self.decoder = TransformerDecoder(

decoder_layer,

num_decoder_layers,

decoder_norm,

return_intermediate=return_intermediate_dec)

self.input_proj = nn.Conv2D(

backbone_num_channels, hidden_dim, kernel_size=1)

self.query_pos_embed = nn.Embedding(num_queries, hidden_dim)

self.position_embedding = PositionEmbedding(

hidden_dim // 2,

normalize=True if position_embed_type == 'sine' else False,

embed_type=position_embed_type)

TransformerµÄÇ°Ïò¹ý³Ì£¬ÒÔResnetµÄÊä³öºÍmask(ÓÉÓÚÔÚ¶ÁÈ¡Êý¾ÝÊ±¶ÔÍ¼Ïñ½øÐÐÁËËæ»úµÄ±ä»¯£¬ÔÙ¼ÓÉÏ¶ÔÍ¼Ïñ½øÐÐËæ»ú²Ã¼ô£¬ËùÒÔÍ¬Ò»batchµÄÊý¾Ý³ß´ç´æÔÚ²îÒì£¬µ«ÊÇÍ¬Ò»batchÊäÈëresnetµÄ´óÐ¡ÐèÒª±£³ÖÒ»ÖÂ£¬¾ÍÐèÒª¶ÔÍ¼Ïñ½øÐÐpadding(È«0)²Ù×÷ÒÔ±£Ö¤Í¬Ò»batchµÄ³ß´çÏàÍ¬¡£¾ßÌåÀ´Ëµ¾ÍÊÇÕÒµ½¸ÃbatchÏÂ×î´óµÄWºÍ×î´óµÄH£¬È»ºóbatchÏÂËùÓÐµÄÍ¼Ïñ¸ù¾ÝÕâ¸ö×î´óµÄW¡ÁH½øÐÐpadding¡£Òò´Ë»¹ÐèÒªÒ»¸ömaskÀ´¼ÇÂ¼paddingÇ°µÄÔ­Ê¼Í¼ÏñÔÚpaddingºóµÄÍ¼ÏñÖÐµÄÎ»ÖÃ)ÎªÊäÈë¡£Ê×ÏÈ£¬¶ÔResnetµÄÌØÕ÷½øÐÐ½µÎ¬£¬²¢½«Î¬¶ÈÓÉ £ÛB, C, H, W£Ý ×ª»¯Îª £ÛB, H¡ÁW, C£Ý£¬È»ºó¸ù¾Ýmask½øÐÐÎ»ÖÃ±àÂë¡£×îÖÕ£¬Í¼Ïñ¡¢maskºÍÎ»ÖÃ±àÂë¾­¹ýEncoderºÍDecoderÖ®ºó¾ÍµÃµ½ÁË×îÖÕµÄÊä³ö¡£

def forward(self, src, src_mask=None):

src_proj = self.input_proj(src£Û-1£Ý)

bs, c, h, w = src_proj.shape

src_flatten = src_proj.flatten(2).transpose(£Û0, 2, 1£Ý)

if src_mask is not None:

src_mask = F.interpolate(

src_mask.unsqueeze(0).astype(src_flatten.dtype),

size=(h, w))£Û0£Ý.astype('bool')

else:

src_mask = paddle.ones(£Ûbs, h, w£Ý, dtype='bool')

pos_embed = self.position_embedding(src_mask).flatten(2).transpose(

£Û0, 2, 1£Ý)

src_mask = _convert_attention_mask(src_mask, src_flatten.dtype)

src_mask = src_mask.reshape(£Ûbs, 1, 1, -1£Ý)

memory = self.encoder(

src_flatten, src_mask=src_mask, pos_embed=pos_embed)

query_pos_embed = self.query_pos_embed.weight.unsqueeze(0).tile(

£Ûbs, 1, 1£Ý)

tgt = paddle.zeros_like(query_pos_embed)

output = self.decoder(

tgt,

memory,

memory_mask=src_mask,

pos_embed=pos_embed,

query_pos_embed=query_pos_embed)

return (output, memory.transpose(£Û0, 2, 1£Ý).reshape(£Ûbs, c, h, w£Ý),

src_proj, src_mask.reshape(£Ûbs, 1, 1, h, w£Ý))

(4) ÐÙÑÀÀûËã·¨¡£

DETRÖÐ²»ÔÙÉè¶¨anchor£¬¶øÊÇÖ±½ÓÍÆ¶Ï³öÒ»¸ö°üº¬N¸ö½á¹ûµÄÔ¤²â¼¯ºÏ£¬ÆäÖÐN±»ÉèÖÃÎªÃ÷ÏÔ´óÓÚÍ¼ÏñÖÐÎïÌåÊýÁ¿µÄÊýÖµ¡£¶øÐÙÑÀÀûËã·¨¾ÍÊÇÓÃÀ´Æ¥ÅäÕâÐ©Ô¤²âµÄ½á¹ûºÍÕæÊµµÄ±ê×¢(ÔÚÕâÀï¾Í²»¶ÔÐÙÑÀÀûËã·¨Õ¹¿ª½éÉÜÁË)¡£

class HungarianMatcher(nn.Layer):

def init(self,

matcher_coeff={'class': 1,'bbox': 5, 'giou': 2},

use_focal_loss=False,alpha=0.25,gamma=2.0):

super(HungarianMatcher, self).init()

¡­

def forward(self, boxes, logits, gt_bbox, gt_class):

¡­

(5) DETRLOSS¡£

DETRµÄlossÓÉÁ½²¿·Ö×é³É£º  ·ÖÀàËðÊ§ºÍ±ß½ç¿òËðÊ§¡£ÆäÖÐ£¬·ÖÀàËðÊ§Ê¹ÓÃµÄÊÇ½»²æìØËðÊ§£¬¶ø±ß½ç¿òËðÊ§ÔòÓÉL1 Loss(¼ÆËãx¡¢y¡¢W¡¢HµÄ¾ø¶ÔÖµÎó²î)ºÍGIoU Loss×é³É¡£ÔÚÕâÀïÍ¨¹ýDETRLossÀàÀ´ÊµÏÖDETRÍøÂçµÄËðÊ§²¿·Ö¡£

class DETRLoss(nn.Layer):

def init(self,

num_classes=80,

matcher='HungarianMatcher',

loss_coeff={

'class': 1,

'bbox': 5,

'giou': 2,

'no_object': 0.1,

'mask': 1,

'dice': 1

},

aux_loss=True,

use_focal_loss=False):

¡­

DETRÔÚ¼ÆËãËðÊ§Ê±£¬Ê×ÏÈ½«ÍøÂçÔ¤²âµÄ½á¹ûºÍ±ê×¢Í¨¹ýHungarianMatcher·½·¨ÊµÏÖÒ»Ò»Æ¥Åä£¬È»ºó¸ù¾ÝÆ¥ÅäµÄ½á¹û¼ÆËã·ÖÀà»Ø¹éËðÊ§ºÍ±ß½ç¿ò»Ø¹éËðÊ§¡£

def forward(self,

boxes,

logits,

gt_bbox,

gt_class,

masks=None,

gt_mask=None):

match_indices = self.matcher(boxes£Û-1£Ý.detach(), logits£Û-1£Ý.detach(),

gt_bbox, gt_class)

num_gts = sum(len(a) for a in gt_bbox)

...

total_loss = dict()

total_loss.update(

self._get_loss_class(logits£Û-1£Ý, gt_class, match_indices,

self.num_classes, num_gts))

total_loss.update(

self._get_loss_bbox(boxes£Û-1£Ý, gt_bbox, match_indices, num_gts))

return total_loss

_get_loss_classºÍ _get_loss_bbox·Ö±ðÓÃÓÚ¼ÆËã·ÖÀà»Ø¹éËðÊ§ºÍ±ß½ç¿ò»Ø¹éËðÊ§¡£ÆäÖÐ£¬_get_loss_classµÄ½»²æìØËðÊ§Í¨¹ýµ÷ÓÃpaddle.nn.functional.cross_entropyÀ´ÊµÏÖ¡£

def _get_loss_class(self, logits, gt_class, match_indices, bg_index,

num_gts):

target_label = paddle.full(logits.shape£Û:2£Ý, bg_index, dtype='int64')

bs, num_query_objects = target_label.shape

if sum(len(a) for a in gt_class) > 0:

index, updates = self._get_index_updates(num_query_objects,

gt_class, match_indices)

target_label = paddle.scatter(

target_label.reshape(£Û-1, 1£Ý), index, updates.astype('int64'))

target_label = target_label.reshape(£Ûbs, num_query_objects£Ý)

return {

F.cross_entropy(

logits, target_label, weight=self.loss_coeff£Û'class'£Ý)}

_get_loss_bboxÍ¨¹ýµ÷ÓÃpaddle.nn.functional.l1_lossºÍGIoULossÀàÀ´¼ÆËãÔ¤²â¿òºÍ±ê×¢¿òÖ®¼äµÄL1ËðÊ§ºÍGIoUËðÊ§¡£

def _get_loss_bbox(self, boxes, gt_bbox, match_indices, num_gts):

loss = dict()

if sum(len(a) for a in gt_bbox) == 0:

loss£Û'loss_bbox'£Ý = paddle.to_tensor(£Û0.£Ý)

loss£Û'loss_giou'£Ý = paddle.to_tensor(£Û0.£Ý)

return loss

src_bbox, target_bbox = self._get_src_target_assign(boxes, gt_bbox,

match_indices)

loss£Û'loss_bbox'£Ý = self.loss_coeff£Û'bbox'£Ý * F.l1_loss(

src_bbox, target_bbox, reduction='sum') / num_gts

loss£Û'loss_giou'£Ý = self.giou_loss(

bbox_cxcywh_to_xyxy(src_bbox), bbox_cxcywh_to_xyxy(target_bbox))

loss£Û'loss_giou'£Ý = loss£Û'loss_giou'£Ý.sum() / num_gts

loss£Û'loss_giou'£Ý = self.loss_coeff£Û'giou'£Ý * loss£Û'loss_giou'£Ý

return loss

(6) DETRHead¡£

DETRµÄHeadÒÔTransformerÖÐDecoder²¿·ÖµÄÊä³öÎªÊäÈë£¬Í¨¹ýFFNÀ´ÊµÏÖ×îºóµÄ·ÖÀàºÍ±ß½ç¿ò»Ø¹é¡£

class DETRHead(nn.Layer):

def init(self,

num_classes=80,

hidden_dim=256,

nhead=8,

num_mlp_layers=3,

loss='DETRLoss',

fpn_dims=£Û1024, 512, 256£Ý,

with_mask_head=False,

use_focal_loss=False):

super(DETRHead, self).init()

...

self.score_head = nn.Linear(hidden_dim, self.num_classes)

self.bbox_head = MLP(hidden_dim,

hidden_dim,

output_dim=4,

num_layers=num_mlp_layers)

...

...

def forward(self, out_transformer, body_feats, inputs=None):

feats, memory, src_proj, src_mask = out_transformer

outputs_logit = self.score_head(feats)

outputs_bbox = F.sigmoid(self.bbox_head(feats))

outputs_seg = None

if self.training:

gt_mask = self.get_gt_mask_from_polygons(

inputs£Û'gt_poly'£Ý,

inputs£Û'pad_mask'£Ý) if 'gt_poly' in inputs else None

return self.loss(

outputs_bbox,

outputs_logit,

inputs£Û'gt_bbox'£Ý,

inputs£Û'gt_class'£Ý,

masks=outputs_seg,

gt_mask=gt_mask)

else:

return (outputs_bbox£Û-1£Ý, outputs_logit£Û-1£Ý, outputs_seg)

(7) DETR¡£

Ç°Ãæ·Ö±ð¶¨ÒåÁËDETRµÄbackbone¡¢transformer¡¢DETRHeadºÍDETRµÄËðÊ§£¬ËüÃÇ¹²Í¬×é³ÉÁËDETRÄ£ÐÍ¡£

class DETR(nn.Layer):

def init(self,

backbone,

transformer,

detr_head,

post_process='DETRBBoxPostProcess',

data_format='NCHW'):

super(DETR, self).init()

self.backbone = backbone

self.transformer = transformer

self.detr_head = detr_head

self.post_process = post_process

self.data_format = data_format

ÔÚÇ°Ïò´«²¥µÄ¹ý³ÌÖÐ£¬DETRÒÔÍ¼ÏñºÍ±ê×¢ÎªÊäÈë£¬Í¨¹ýBackboneÌáÈ¡Í¼ÏñÌØÕ÷£¬²¢½«ÌáÈ¡µÄÌØÕ÷ËÍÈëtransformer£¬×îÖÕÍ¨¹ýdetr_head·µ»Ø×îºóµÄËðÊ§(Ô¤²â½×¶Î²â·µ»Ø¶ÔÓ¦µÄÔ¤²â½á¹û)¡£

def forward(self, inputs):

if self.data_format == 'NHWC':

image = inputs£Û'image'£Ý

inputs£Û'image'£Ý = paddle.transpose(image, £Û0, 2, 3, 1£Ý)

self.inputs = inputs

self.model_arch()

if self.training:

body_feats = self.backbone(self.inputs)

out_transformer = self.transformer(body_feats, self.inputs£Û'pad_mask'£Ý)

losses=detr_head(out_transformer, body_feats, self.inputs)

losses.update({'loss':paddle.add_n(£Ûv for k, v in losses.items() if 'log' not in k£Ý)

})

return loss

else:

body_feats = self.backbone(self.inputs)

out_transformer = self.transformer(body_feats, self.inputs£Û'pad_mask'£Ý)

preds = self.detr_head(out_transformer, body_feats)

bbox, bbox_num = self.post_process(preds, self.inputs£Û'im_shape'£Ý,

self.inputs£Û'scale_factor'£Ý)

output = {"bbox": bbox_pred,"bbox_num": bbox_num}

return output

²½Öè4£º  DETRÑµÁ·

ÔÚDETRµÄÑµÁ·½×¶Î£¬Ê×ÏÈÒªÊµÀý»¯Ç°Ãæ¶¨ÒåµÄÄ£ÐÍ£¬ÓÃÓÚÌáÈ¡Í¼ÏñÌØÕ÷µÄResNet¡¢DETRµÄTransformer½á¹¹£¬ÓÃÓÚÆ¥ÅäÔ¤²â½á¹ûºÍ±êÖ¾µÄHungarianMatcher¡¢ËðÊ§DETRLossºÍÓÃÓÚDETRµÄÔ¤²âÍ·²¿ÍøÂç(DETRBBoxPostProcessÔÚÔ¤²â½×¶ÎÊ¹ÓÃ£¬ÓÃÓÚ¶Ô½á¹û½øÐÐºó´¦Àí£¬´Ó¶øµÃµ½Àà±ðºÍ¼ì²â¿ò×ø±ê)£¬È»ºóµÄÊµÀý»¯model¾ÍÊÇÎÒÃÇÒªÑµÁ·µÄDETRÄ£ÐÍ£º  

backbone = ResNet(depth=50, norm_type='bn', freeze_at=0, return_idx=£Û3£Ý, 

lr_mult_list=£Û0.0, 0.1, 0.1, 0.1£Ý, num_stages=4)

transformer = DETRTransformer(num_queries=100, position_embed_type='sine',

nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation='relu', hidden_dim=256, backbone_num_channels=2048)

matcher = HungarianMatcher(matcher_coeff={'class': 1, 'bbox': 5, 'giou': 2},

use_focal_loss=False)

loss = DETRLoss(loss_coeff={'class': 1, 'bbox': 5, 'giou': 2, 'no_object': 0.1, 

'mask': 1, 'dice': 1}, aux_loss=True, num_classes=80, use_focal_loss=False, matcher=matcher)

detr_head = DETRHead(num_mlp_layers=3, num_classes=80, hidden_dim=256, use

_focal_loss=False, nhead=8, fpn_dims=£Û£Ý, loss=loss)

post_process = DETRBBoxPostProcess(num_classes=80, use_focal_loss=False)

model = DETR(backbone=backbone,

transformer=transformer,

detr_head=detr_head,

post_process=post_process)

Íê³ÉÄ£ÐÍµÄÊµÀý»¯ºó£¬½ÓÏÂÀ´ÒªÊµÏÖÑµÁ·½×¶ÎËùÐèµÄÊý¾Ý¼¯¡¢ÓÅ»¯Æ÷¡¢ÉèÖÃÑµÁ·¹ý³ÌÖÐµÄÑ§Ï°ÂÊ¡¢È¨ÖØË¥¼õ¡£ÔÚsample_transformsºÍbatch_transformsÉèÖÃÍ¼ÏñÔ¤´¦ÀíºÍbatchÉÏÔ¤´¦ÀíµÄ²Ù×÷¡£

def train(model, start_epoch, epoch):

¡­

dataset = COCODataSet(dataset_dir='/home/aistudio/dataset/', image_dir='train2017',anno_path='annotations/instances_train2017.json',data_fields=£Û'image', 'gt_bbox', 'gt_class', 'is_crowd'£Ý)

sample_transforms = £Û

{Decode: {}}, {RandomFlip: {'prob': 0.5}}, {RandomSelect: {'transforms1': £Û{RandomShortSideResize: {'short_side_sizes': £Û480, 512, 544, 576, 608, 640, 672, 704, 736, 768, 800£Ý, 'max_size': 1333}}£Ý, 'transforms2': £Û{RandomShortSideResize: {'short_side_sizes': £Û400, 500, 600£Ý}}, {RandomSizeCrop: {'min_size': 384, 'max_size': 600}}, {RandomShortSideResize: {'short_side_sizes': £Û480, 512, 544, 576, 608, 640, 672, 704, 736, 768, 800£Ý, 'max_size': 1333}}£Ý}}, {NormalizeImage: {'is_scale': True, 'mean': £Û0.485, 0.456, 0.406£Ý, 'std': £Û0.229, 0.224, 0.225£Ý}}, {NormalizeBox: {}}, {BboxXYXY2XYWH: {}}, {Permute: {}}£Ý

batch_transforms = £Û

{PadMaskBatch: {'pad_to_stride': 1, 'return_pad_mask': True}}£Ý    

loader = BaseDataLoader(sample_transforms, batch_transforms, batch_size=2, 

shuffle=True, drop_last=True,collate_batch=False, use_shared_memory=False)(dataset, 0)

# build optimizer in train mode

steps_per_epoch = len(loader)

# ÉèÖÃÑ§Ï°ÂÊ¡¢ÓÅ»¯Æ÷

schedulers = PiecewiseDecay(gamma=0.1,milestones=£Û400£Ý,use_warmup=False)

lr_ = LearningRate(base_lr=0.0001, schedulers=schedulers)

optimizer_ = OptimizerBuilder(clip_grad_by_norm=0.1, regularizer=False, optimizers={'type': 'AdamW', 'weight_decay': 0.0001})

lr = lr_(steps_per_epoch)

optimizers = optimizer_(lr,model.parameters())

DETRÑµÁ·µÄ¹ý³ÌÓëÇ°ÃæµÄÊµ¼ùÏàËÆ£¬ÔÚÃ¿´Îµü´úµÄ¹ý³ÌÖÐ½«¼ÓÔØÊý¾ÝÊäÈëDETRÄ£ÐÍ½øÐÐÇ°Ïò´«²¥²¢¼ÆËãËðÊ§£¬¸ù¾ÝËðÊ§½øÐÐ·´Ïò´«²¥£¬Ö´ÐÐÒ»´ÎÓÅ»¯Æ÷²¢½øÐÐ²ÎÊý¸üÐÂ¡¢Çå¿ÕÌÝ¶È£¬ÕâÑù¾ÍÍê³ÉÁËÒ»´Îµü´úÑµÁ·¡£

for epoch_id in range(start_epoch, epoch):

status£Û'mode'£Ý = 'train'

status£Û'epoch_id'£Ý = epoch_id

_compose_callback.on_epoch_begin(status)

loader.dataset.set_epoch(epoch_id)

model.train()

iter_tic = time.time()

for step_id, data in enumerate(loader):

status£Û'data_time'£Ý.update(time.time() - iter_tic)

status£Û'step_id'£Ý = step_id

_compose_callback.on_step_begin(status)

outputs = model(data)

loss = outputs£Û'loss'£Ý

loss.backward()

optimizers.step()

curr_lr = optimizers.get_lr()

lr.step()

optimizers.clear_grad()

status£Û'learning_rate'£Ý = curr_lr

if _nranks < 2 or _local_rank == 0:

status£Û'training_staus'£Ý.update(outputs)

status£Û'batch_time'£Ý.update(time.time() - iter_tic)

_compose_callback.on_step_end(status)

iter_tic = time.time()

²½Öè5£º  DETRµÄÑéÖ¤ºÍÔ¤²â

DETRµÄÑéÖ¤½×¶ÎÓëÑµÁ·¹ý³ÌÏàËÆ£¬ÐèÒªÏÈÊµÏÖÓÃÓÚÑéÖ¤µÄÊý¾Ý¼¯£¬µ«²»ÐèÒªÔÚ¶ÔÍ¼Ïñ×öÔö¹ãµÄ²Ù×÷£¬Ö»ÐèÒª½øÐÐ¹éÒ»»¯µÈ»ù´¡²Ù×÷¡£Í¬Ê±£¬Ò²²»ÐèÒªÓÅ»¯Æ÷ºÍ·´Ïò´«²¥£¬Ã¿´Îµü´úÍ¨¹ýÄ£ÐÍ·µ»ØÔ¤²â½á¹ûÓë±ê×¢¼ÆËã¾«¶È¼´¿É¡£

def _eval_with_loader(model):

status = {}

_callbacks = £ÛLogPrinter(model)£Ý

_compose_callback = ComposeCallback(_callbacks)    

dataset = COCODataSet(dataset_dir='/home/aistudio/dataset/', image_dir='val2017'

,anno_path='annotations/instances_val2017.json')

_eval_batch_sampler = paddle.io.BatchSampler(dataset, batch_size=1)

sample_transforms = £Û{Decode: {}}, {Resize: {'target_size': £Û800, 1333£Ý, 

'keep_ratio': True}}, {NormalizeImage: {'is_scale': True, 'mean': £Û0.485, 0.456, 0.406£Ý, 'std': £Û0.229, 0.224, 0.225£Ý}}, {Permute: {}}£Ý

batch_transforms = £Û{PadMaskBatch:{'pad_to_stride': -1,

 'return_pad_mask': True}}£Ý

loader = BaseDataLoader(sample_transforms, batch_transforms, batch_size=1, 

shuffle=False, drop_last=False, drop_empty=False)(dataset,

 4, _eval_batch_sampler)

_metrics = _init_metrics(dataset=dataset)

sample_num = 0

tic = time.time()

_compose_callback.on_epoch_begin(status)

status£Û'mode'£Ý = 'eval'

model.eval()

for step_id, data in enumerate(loader):

status£Û'step_id'£Ý = step_id

_compose_callback.on_step_begin(status)

outs = model(data)

for metric in _metrics:

metric.update(data, outs)

sample_num += data£Û'im_id'£Ý.numpy().shape£Û0£Ý

_compose_callback.on_step_end(status)

ÔÚDETRÔ¤²âµÄ¹ý³ÌÖÐÒ²Òª¶ÔÔ¤²âµÄÍ¼Ïñ½øÐÐ¹éÒ»»¯¡¢µ÷Õû³ß´çµÈ»ù´¡µÄ²Ù×÷¡£Í¼ÏñÔÚ½øÐÐ´¦ÖÃÖ®ºóËÍÈëÍøÂç£¬¶ÔÍøÂçµÄÊä³ö½øÐÐ´¦Àí¾ÍÍê³ÉÁËÍøÂçÔ¤²âµÄ¹ý³Ì¡£ÖÁ´Ë£¬DETRµÄÍøÂçÊµ¼ù¾ÍÑ§Ï°ÍêÁË£¬¿ìÈ¥¶¯ÊÖÊµ¼ù°É£¡