µÚ
3
ÕÂ
HadoopÈëÃÅ
±¾ÕÂ½éÉÜHadoop·Ö²¼Ê½ÎÄ¼þÏµÍ³(HadoopDistributedFileSystem, 
HDFS)¼°MapReduce±à³ÌÄ£ÐÍµÄ»ù±¾Ô­Àí¡£HadoopÒÑ¾­´Ó1.0°æ·¢Õ¹µ½2.0°æ¡¢
3.0°æ,ÔÚ½éÉÜHadoo0µÄ»ù´¡ÉÏ,±¾ÕÂ¶ÔHad0½øÐÐÁË³õ²½½éÉÜ¡£
p1.
op2.

..3.1 
Hadoop 
¼ò½é

ApacheHadoopÊÇ´æ´¢ºÍ´¦Àí´óÊý¾ÝµÄ¿ªÔ´Èí¼þ¿ò¼Ü¡£HadoopÏîÄ¿ÓÉ
DougCutingºÍMikeCafarelaÓÚ2005Äê´´½¨,Æä×î³õµÄÄ¿±êÊÇÌá¹©NutchËÑ
Ë÷ÒýÇæµÄ·Ö²¼Ê½´¦ÀíÄÜÁ¦¡£Ä¿Ç°,DougCutingÊÇCloudera¹«Ë¾µÄÊ×Ï¯¼Ü¹¹
Ê¦,ClouderaÊÇÒ»¼Ò»ùÓÚHadoop¿ªÔ´Èí¼þ¡¢Ìá¹©ÔöÖµ¿ª·¢ºÍ·þÎñµÄ´´Òµ¹«Ë¾¡£

ÔÚÀ©Õ¹ÐÔ(Scalability)·½Ãæ,HadoopÄÜ¹»ÔÚÉÏÇ§Ì¨»úÆ÷×é³ÉµÄ¼¯ÈºÉÏÔË
ÐÐ¡£´ó¹æÄ£¼¯ÈºµÄ¿É¿¿ÐÔ,²»ÄÜ½ö½ö¿¿Ó²¼þÀ´±£Ö¤,ÒòÎª½ÚµãµÄÊ§°Ü¡¢ÍøÂçµÄÊ§
°ÜµÈ×´¿ö²»¿É±ÜÃâ¡£ÎªÁËÄÜ¹»ÔÚ´ó¹æÄ£¼¯ÈºÉÏË³ÀûÔËÐÐ,HadoopµÄËùÓÐÄ£¿é, 
ÆäÉè¼ÆÔ­Ôò¶¼»ùÓÚÕâÑùµÄ»ù±¾¼ÙÉè,¼´Ó²¼þµÄÊ§°ÜÔÚËùÄÑÃâ,Ã¿¸ö½Úµã¶¼Ã»ÓÐ
ÄÇÃ´¿É¿¿,¿ÉÄÜ·¢Éú½ÚµãÊ§°Ü×´¿ö,Èí¼þ¿ò¼ÜÓ¦¸ÃÄÜ¹»×Ô¶¯¼ì²âºÍ´¦ÀíÕâÐ©Ê§
°ÜÇé¿ö¡£Hadoop Í¨¹ýÈí¼þ,ÔÚ´ó¹æÄ£¼¯ÈºÉÏÌá¹©¸ß¿ÉÓÃÐÔ(High 
Availability)¡£

HadopÈí¼þ¿ò¼ÜÊ¹ÓÃ¼òµ¥µÄ±à³ÌÄ£ÐÍMapRdcop1.ÓÃ

oeue¡£ÔÚHado0ÖÐ, 
»§Ö»ÐèÒÔMapº¯ÊýºÍReduceº¯ÊýµÄÐÎÊ½Ìá¹©Êý¾Ý´¦ÀíÂß¼­,¾Í¿ÉÒÔÔÚ´ó¹æÄ£
¼¯ÈºÉÏ¶Ô´óÊý¾Ý½øÐÐ´¦Àí¡£ÏµÍ³µÄ¿É¿¿ÐÔ¡¢À©Õ¹ÐÔ,ÒÔ¼°·Ö²¼Ê½´¦ÀíµÈ¹¦ÄÜ,ÓÉ
ÏµÍ³Èí¼þ²ãÌá¹©,ÓÃ»§ÎÞÐë¹ØÐÄ¡£

2013Äê,HadopÒÑ¾­´Ó1.0(op3.

o0ÑÝ»¯·¢Õ¹µ½2.YARN¢Ù)¡£Ä¿Ç°,Hado0 
ÒÑ¾­´¦ÓÚGeeaalbe×´Ì¬, op2.3°æÎª×¼½øÐÐ½éÉÜ¡£ÔÚ

nrlAvial±¾ÊéÈÔÒÔHado7.
oooop1.oop2.

½éÉÜHadpÈí¼þÊ±,Ê×ÏÈ½éÉÜHad0µÄ¹Ø¼ü¼¼Êõ,È»ºó¶ÔHad0µÄ

ÐÂÌØÐÔ×öÏêÏ¸µÄ½éÉÜ¡£
HadoopÈí¼þ¿ò¼Ü,°üº¬ÈçÏÂÖ÷ÒªÄ£¿é¡£
(1)HadoopCommon¡£Õâ¸öÄ£¿é°üº¬ÁËÆäËûÄ£¿éÐèÒªµÄ¿âº¯ÊýºÍÊµÓÃ

¢Ù YARNÈ«³ÆYetAnotherResourceNegotiator¡£

30 
HadopÓëSparkÈëÃÅ

º¯Êý¡£
(2)HDFS ¡£ÕâÊÇÔÚÓÉÆÕÍ¨·þÎñÆ÷×é³ÉµÄ¼¯ÈºÉÏÔËÐÐµÄ·Ö²¼Ê½ÎÄ¼þÏµÍ³,Ö§³Ö´óÊý

¾ÝµÄ´æ´¢¡£Í¨¹ý¶à¸ö½ÚµãµÄ²¢ÐÐI/O,Ìá¹©¼«¸ßµÄÍÌÍÂÄÜÁ¦¡£
(3)HadoopMapReduce¡£Ò»ÖÖÖ§³Ö´óÊý¾Ý´¦ÀíµÄ±à³ÌÄ£ÐÍ¡£
(pYARN ¡£ÕâÊÇHad0µÄ»ù´¡Ä£¿é,Ëü±¾ÖÊÉÏÊÇÒ»¸ö×ÊÔ´¹ÜÀíºÍÈÎ

4)Hadoooop2.
Îñµ÷¶ÈÈí¼þ¿ò¼Ü¡£Ëü°Ñ¼¯ÈºµÄ¼ÆËã×ÊÔ´¹ÜÀíÆðÀ´,Îªµ÷¶ÈºÍÖ´ÐÐÓÃ»§³ÌÐòÌá¹©Ö§³Ö¡£
ÖµµÃÖ¸³öµÄÊÇ,HDFSºÍMapReduce·Ö±ðÊÇÊÜµ½GoogleÎÄ¼þÏµÍ³(GoogleFile 
System,GFS )¡¢GoogleMapReduce¼ÆËãÄ£ÐÍµÄÆô·¢,¶ÔÆä½øÐÐÄ£·ÂÊµÏÖµÄ¿ªÔ´Èí¼þ¡£

..3.2 
HDFS 

HDFSÊÇÒ»¸ö·Ö²¼Ê½µÄ¡¢¸ß¿ÉÀ©Õ¹µÄÎÄ¼þÏµÍ³¡£ËüÊ¹ÓÃJavaÓïÑÔ½øÐÐ±àÐ´,¾ßÓÐÁ¼
ºÃµÄ¿ÉÒÆÖ²ÐÔ¡£
Ò»¸öHDFS¼¯ÈºÒ»°ãÓÉÒ»¸öNameNodeºÍÈô¸ÉDataNode×é³É,·Ö±ð¸ºÔðÔªÐÅÏ¢µÄ
¹ÜÀíºÍÊý¾Ý¿é(Block)µÄ¹ÜÀí,ÈçÍ¼3-1ËùÊ¾¡£


Í¼3-
1 
HDFS¼Ü¹¹

NameNodeÊÇHDFSÖÐµÄ¹ÜÀíÕß¡£Ëü¸ºÔð¹ÜÀíÎÄ¼þÏµÍ³µÄÃüÃû¿Õ¼ä,Î¬»¤ÎÄ¼þÏµÍ³
µÄÎÄ¼þÊ÷ÒÔ¼°ÎÄ¼þÊ÷ÖÐÈ«²¿µÄÎÄ¼þºÍÎÄ¼þ¼ÐµÄÔªÊý¾Ý¡£ÕâÐ©ÐÅÏ¢´æ´¢ÔÚNameNodeÎ¬
»¤µÄÁ½¸ö±¾µØ´ÅÅÌÎÄ¼þÀï:ÃüÃû¿Õ¼ä¾µÏñÎÄ¼þ(FsImage)ºÍ±à¼­ÈÕÖ¾ÎÄ¼þ(EditLogs)¡£
Í¬Ê±,NameNodeÖÐ»¹±£´æÁËÃ¿¸öÎÄ¼þ¼°ÆäÊý¾Ý¿éËùÔÚµÄDataNodeµÄ¶ÔÓ¦¹ØÏµ,ÕâÐ©ÐÅ
Ï¢±»ÓÃÓÚÆäËû¹¦ÄÜ×é¼þ²éÕÒÎÄ¼þ(Êý¾Ý¿é)ËùÔÚµÄDataNode¡£

DataNodeÊÇHDFSÖÐ±£´æÊý¾ÝµÄ½Úµã¡£

HDFSÖ§³ÖÌ«×Ö½Ú(TB)¼¶ÉõÖÁÅÄ×Ö½Ú(PB)¼¶´óÐ¡ÎÄ¼þµÄ´æ´¢,Ëü°ÑÎÄ¼þ»®·Ö³ÉÊý
¾Ý¿é,·Ö²¼µ½¶àÌ¨»úÆ÷ÉÏ½øÐÐ´æ´¢¡£ÎªÁË±£Ö¤ÏµÍ³µÄ¿É¿¿ÐÔ,HDFS°ÑÊý¾Ý¿éÔÚ¶à¸ö½Úµã
ÉÏ½øÐÐ¸´ÖÆ(Replicate)¡£

Èç¹ûHDFS²ÉÓÃµÄ¸´ÖÆÒò×Ó(ReplicateFactor)Îª3,ÄÇÃ´Ã¿¸öÊý¾Ý¿éÓÐ3¸ö¸±±¾,±»
±£´æµ½3¸ö½ÚµãÉÏ,ÆäÖÐµÄÁ½¸ö½ÚµãÔÚÍ¬Ò»¸ö»ú¼ÜÄÚ,ÁíÒ»¸ö½ÚµãÒ»°ãÔÚÆäËû»ú¼ÜÉÏ¡£
DataNodeÖ®¼ä¿ÉÒÔ¸´ÖÆÊý¾Ý¸±±¾,´Ó¶øÖØÐÂÆ½ºâÃ¿¸ö½Úµã´æ´¢µÄÊý¾ÝÁ¿,²¢ÇÒ±£Ö¤ÏµÍ³
µÄ¿É¿¿ÐÔ(±£Ö¤Ã¿¸öÊý¾Ý¿é¶¼ÓÐ×ã¹»µÄ¸±±¾)¡£DataNode¶¨ÆÚÏòNameNode±¨¸æÆä´æ´¢
µÄÊý¾Ý¿éÁÐ±í,ÒÔ±¸ÓÃ»§Í¨¹ýÖ±½Ó·ÃÎÊDataNode»ñµÃÏàÓ¦µÄÊý¾Ý¡£

HDFSÒ»°ã´æ´¢²»¿É¸üÐÂµÄÎÄ¼þ,Ö»ÄÜ¶ÔÎÄ¼þ½øÐÐÊý¾ÝµÄ×·¼Ó¡£Hadoop´óÊý¾Ý´¦
ÀíÏµÍ³Ò»°ãÓÃÀ´Ö§³Ö´óÊý¾ÝµÄ·ÖÎöÐÍ´¦Àí,Êý¾ÝÒ»µ©×°ÔØ,Ò»°ãÎÞÐë½øÐÐ¸üÐÂ¡£


µÚ3ÕÂHadopÈëÃÅ31 

ÓÉÓÚHDFSÊÇÓÃJava±àÐ´µÄ,ËùÒÔËüÄÚÉúµØÖ§³ÖJavaÓ¦ÓÃ³ÌÐò½Ó¿Ú(Application 
ProgramInterface,API )¡£´ËÍâ,HDFS»¹Ö§³Ö¸÷ÖÖÁ÷ÐÐµÄ±à³ÌÓïÑÔ,°üÀ¨C++¡¢Python¡¢
RubyºÍC#µÈ¡£

HadoopµÄÉÏ²ãÄ£¿é,ÈçMapReduce¼ÆËãÄ£ÐÍµÄÔËÐÐÊ±(Runtime),¸ù¾ÝNameNode 
ÉÏµÄÔªÐÅÏ¢¾Í¿ÉÒÔÖªµÀÃ¿¸öÊý¾Ý¿éÓÐ¶àÉÙ¸±±¾,ÕâÐ©¸±±¾·Ö±ð´æ·Åµ½ÄÄÐ©½ÚµãÉÏ,ÓÚÊÇ¿É
ÒÔ°Ñ¼ÆËãÈÎÎñ·ÖÅäµ½ÕâÐ©½ÚµãÉÏÖ´ÐÐ¡£°Ñ¼ÆËãÒÆ¶¯µ½Êý¾ÝÉÏ,¶ø²»ÊÇÒÆ¶¯Êý¾Ý±¾Éí,´ó´ó
¼õÉÙÁË´óÊý¾Ý´¦Àí¹ý³ÌÖÐµÄÊý¾ÝÒÆ¶¯¿ªÏú,¼Ó¿ì¼ÆËã¹ý³Ì¡£

3.1 
Ð´ÎÄ¼þ
2.
ÎªÁË½øÐÐÎÄ¼þÊý¾ÝµÄ¶ÁÐ´,¿Í»§¶ËÑ¯ÎÊNameNode,ÁË½âµ½ËüÓ¦¸Ã´æÈ¡ÄÄÐ©
DataNode,È»ºó¿Í»§¶ËÖ±½ÓºÍDataNode½øÐÐÍ¨ÐÅ,Êý¾ÝµÄ´«ÊäÊ¹ÓÃDataTransferÐ­Òé, 
ÕâÊÇÒ»¸öÁ÷Êý¾Ý´«ÊäÐ­Òé,¿ÉÒÔÌá¸ßÊý¾Ý´«ÊäµÄÐ§ÂÊ¡£

ËùÓÐNameNodeºÍDataNodeÖ®¼äµÄÍ¨ÐÅ,°üÀ¨DataNodeµÄ×¢²á¡¢ÐÄÌøÐÅÏ¢¡¢±¨¸æÊý
¾Ý¿éµÄÔªÐÅÏ¢µÈ,¶¼ÊÇÓÉDataNode·¢ÆðÇëÇó,NameNode±»¶¯Ó¦´ð²¢Íê³É¹ÜÀí¡£

µ±´´½¨Ò»¸öÎÄ¼þÊ±,¿Í»§¶Ë°ÑÎÄ¼þÊý¾Ý»º´æÔÚÒ»¸öÁÙÊ±µÄ±¾µØÎÄ¼þ¡£µ±±¾µØÎÄ¼þÀÛ
»ýÁË³¬¹ýÒ»¸öÊý¾Ý¿é´óÐ¡µÄÊý¾ÝÊ±,¿Í»§¶Ë³ÌÐòÁªÏµNameNode¡£NameNode¸üÐÂÎÄ¼þ
ÏµÍ³µÄÃüÃû¿Õ¼ä(Namespace),²¢ÇÒ·µ»ØÐÂ·ÖÅäµÄÊý¾Ý¿éµÄÎ»ÖÃÐÅÏ¢¡£¿Í»§¶Ë³ÌÐò¸ù¾Ý
Õâ¸öÐÅÏ¢°ÑÎÄ¼þ¿éÊý¾Ý´Ó±¾µØÁÙÊ±ÎÄ¼þ·¢ËÍ¸ø(Flush)DataNode½øÐÐ±£´æ¡£µ±ÎÄ¼þ¹Ø±Õ
(Close)Ê±,Ê£ÏÂµÄ×îºóÒ»¸öÊý¾Ý¿é´«Êäµ½DataNode½øÐÐ±£´æ¡£

½ÓÏÂÀ´½éÉÜHDFSÈçºÎ´´½¨Ò»¸öÎÄ¼þ,°ÑÊý¾ÝÐ´Èëºó¹Ø±ÕÎÄ¼þ¡£Õû¸ö¹ý³ÌÉæ¼°7¸ö
Ö÷ÒªµÄ²½Öè,ÈçÍ¼3-2ËùÊ¾¡£


Í¼3-
2 
HDFSÎÄ¼þµÄÐ´Èë¹ý³Ì

(1)¿Í»§¶Ë³ÌÐòµ÷ÓÃDistributedFileSystemµÄcreate·½·¨¡£
(2)DistributedFileSystemÏòNameNode·¢ÆðÒ»¸öÔ¶³Ì¹ý³Ìµ÷ÓÃ(RemoteProcedure 
Cal,RPC),ÓÉÆäÔÚÆäÎÄ¼þÏµÍ³µÄÃüÃû¿Õ¼äÀï´´½¨Ò»¸öÐÂÎÄ¼þ¡£ÕâÊ±,¸ÃÎÄ¼þ»¹Ã»ÓÐÈÎºÎÊý
¾Ý¿é¡£

NameNode½øÐÐÒ»ÏµÁÐµÄ¼ì²é,±£Ö¤ÎÄ¼þ²¢Î´´æÔÚ(²Å¿ÉÒÔÐÂ½¨),¶øÇÒ¿Í»§¶ËÓÐÈ¨ÏÞ
´´½¨¸ÃÎÄ¼þ¡£Èç¹û¼ì²éÍ¨¹ý,ÄÇÃ´NameNodeÎªÐÂÎÄ¼þ´´½¨Ò»¸öÐÂµÄ¼ÇÂ¼,±£´æÆäÐÅÏ¢, 
·ñÔòÎÄ¼þ´´½¨Ê§°Ü¡£


32 
HadopÓëSparkÈëÃÅ

Èç¹ûÎÄ¼þ´´½¨³É¹¦,DistributedFileSystem·µ»ØFSDataOutputStream¸ø¿Í»§¶Ë³Ì
Ðò,ÒÔ±ãÆä¿ªÊ¼Ð´ÈëÊý¾Ý¡£FSDataOutputStream°üº¬Ò»¸öDFSOutputStream¶ÔÏó,¸º
ÔðºÍNameNodeÒÔ¼°DataNodeµÄÍ¨ÐÅ¡£

(3)µ±¿Í»§¶Ë¿ªÊ¼Ð´ÈëÊý¾Ý,DFSOutputStream°ÑÊý¾Ý·Ö½â³ÉÊý¾Ý°ü(Packet),²¢ÇÒ
Ð´ÈëÒ»¸öÄÚ²¿¶ÓÁÐ,³ÆÎªÊý¾Ý¶ÓÁÐ(DataQueue)¡£DataStreamerÏû·ÑÕâ¸öÊý¾Ý¶ÓÁÐ,Çë
ÇóNameNodeÎªÐÂµÄÊý¾Ý¿é·ÖÅä¿Õ¼ä,¼´Ñ¡ÔñÒ»ÏµÁÐºÏÊÊµÄDataNode,ÓÃÓÚ´æ·Å¸÷¸öÊý
¾Ý¿éµÄ¸±±¾¡£
ataNodPipelin
(4)´æ·Å¸÷¸ö¸±±¾µÄDeÐÎ³ÉÒ»¸öÁ÷Ë®Ïß(e),¼ÙÉè¸´ÖÆÒò×ÓÊÇ3,ÓÚÊÇ
ÔÚÁ÷Ë®ÏßÉÏÓÐ3¸ö½Úµã¡£DataStreamer°ÑÊý¾Ý°ü·¢ËÍµ½µÚÒ»¸öDataNode,Õâ¸ö
DataNode±£´æÊý¾Ý°ü,²¢ÇÒ×ª·¢¸øÁ÷Ë®ÏßÉÏµÄµÚ¶þ¸öDataNode¡£
µ±Ð´ÈëÊý¾ÝÒÑ¾­³¬¹ýÒ»¸öÊý¾Ý¿éµÄ´óÐ¡Ê±,DataStreamerÏòNameNodeÉêÇëÎªÐÂµÄ

Êý¾Ý¿é·ÖÅä¿Õ¼ä¡£
µÚ¶þ¸öDataNode±£´æÕâ¸öÊý¾Ý°ü,²¢ÇÒ×ª·¢¸øµÚÈý¸ö(×îºóÒ»¸ö)DataNode¡£
(5)DFSOupuSramÍ¬Ê±Î¬»¤Ò»¸öÊý¾Ý°üµÄÄÚ²¿¶ÓÁÐ(nenlQuuÓÃÓÚµÈ´ý

ttteItraee), 
½ÓÊÕDataNodeµÄÓ¦´ðÐÅÏ¢,³ÆÎªAckQueue¡£µ±Ä³¸öÊý¾Ý°üÒÑ¾­±»Á÷Ë®ÏßÉÏµÄËùÓÐ
DataNodeÓ¦´ðÒÔºó,Ëü²Å±»(´ÓAckQueueÉÏ)É¾³ý¡£

(6)µ±¿Í»§¶Ë³ÌÐòÍê³ÉÊý¾ÝÐ´Èë,Ëüµ÷ÓÃFSDataOutputStreamÊý¾ÝÁ÷µÄclose 
·½·¨¡£
(7)¿Í»§¶Ë°ÑËùÓÐÊ£ÓàµÄÊý¾Ý°ü·¢ËÍµ½DataNodeÁ÷Ë®ÏßÉÏ,²¢ÇÒµÈ´ýÓ¦´ðÐÅÏ¢,×î
ºóÁªÏµNameNode,¸æËßËüÎÄ¼þ½áÊø¡£
NameNodeÖªµÀÎÄ¼þÓÉÄÄÐ©Êý¾Ý¿é¹¹³É(DataStreamerÇëÇóËüÎªÐÂµÄÊý¾Ý¿é·ÖÅä¿Õ
¼ä),ËüµÈ´ýÊý¾Ý¿éµÄ¸´ÖÆÍê³É,È»ºó·µ»ØÎÄ¼þ´´½¨³É¹¦¡£

3.2 
¶ÁÎÄ¼þ
2.
ÔÚ½øÐÐÎÄ¼þ¶ÁÈ¡Ê±,Ê×ÏÈ¿Í»§¶Ë³ÌÐòÊ¹ÓÃ½«Òª¶ÁÈ¡µÄÎÄ¼þÃû¡¢¶ÁÈ¡·¶Î§(ReadRange)µÄ
¿ªÊ¼Æ«ÒÆÁ¿ºÍ¶ÁÈ¡·¶Î§µÄ³¤¶ÈµÈÐÅÏ¢,Ñ¯ÎÊNameNode¡£NameNode·µ»ØÂäÔÚ¶ÁÈ¡·¶Î§ÄÚµÄ
Êý¾Ý¿éµÄÎ»ÖÃ(Location)ÐÅÏ¢¡£Ã¿¸öÊý¾Ý¿éµÄÎ»ÖÃÐÅÏ¢ÌõÄ¿,¸ù¾ÝÓë¿Í»§¶ËµÄÁÙ½üÐÔ
(Proximity)½øÐÐÅÅÐò¡£¿Í»§¶ËÒ»°ãÑ¡Ôñ×îÁÙ½üµÄDataNode,ÏòÆä·¢ËÍ¶ÁÈ¡ÇëÇó¡£

¶ÔÕû¸öÎÄ¼þ½øÐÐ¶ÁÈ¡µÄ¹ý³Ì,ÈçÍ¼3-3ËùÊ¾¡£


Í¼3-
3 
HDFSÎÄ¼þµÄ¶ÁÈ¡¹ý³Ì


µÚ3ÕÂHadopÈëÃÅ33 

¿Í»§¶Ë³ÌÐò´ÓHDFS¶ÁÈ¡Õû¸öÎÄ¼þµÄÖ÷Òª²½ÖèÈçÏÂ¡£

(1)¿Í»§¶Ë³ÌÐòÍ¨¹ýµ÷ÓÃFlsee»ñµÃDsrbtdFlse
ÀàµÄÒ»¸öÊµÀý¡£
ieSytm¶ÔÏóµÄopn·½·¨´ò¿ªÎÄ¼þ, itiueieSytm 

(2)DistributedFileSystemÍ¨¹ýÔ¶³Ì¹ý³Ìµ÷ÓÃNameNode,»ñµÃÎÄ¼þÊ×ÅúÊý¾Ý¿éµÄ
Î»ÖÃÐÅÏ¢¡£¶ÔÓÚÃ¿¸öÊý¾Ý¿éÀ´Ëµ,NameNode»á·µ»ØÓµÓÐÕâ¸öÊý¾Ý¿é¸±±¾µÄËùÓÐ
DataNodeµÄµØÖ·¡£DistributedFileSystem·µ»ØFSDataInputStreamÀàµÄÒ»¸öÊµÀý,ÕâÊÇ
Ò»¸öÊäÈëÁ÷(InputStream),Ö§³ÖÎÄ¼þµÄ¶¨Î»ºÍÊý¾ÝµÄ¶ÁÈ¡,Ê¹µÃ¿Í»§¶Ë¿ÉÒÔ¶ÁÈ¡ÎÄ¼þÊý
¾Ý¡£FSDataInputStream°üº¬ÁËÒ»¸öDFSInputStream¶ÔÏó,¸ºÔð¹ÜÀí¿Í»§¶Ë¶ÔHDFS 
µÄDataNodeºÍNameNodeµÄ´æÈ¡¡£

(3)¿Í»§¶Ë³ÌÐò´ÓÊäÈëÁ÷ÉÏµ÷ÓÃreadº¯Êý¡£ÓÉÓÚDFSInputStreamÒÑ¾­±£´æÁËÎÄ¼þ
Ê×ÅúÈô¸ÉÊý¾Ý¿éËùÔÚµÄDataNodeµÄµØÖ·,DFSInputStreamÁ¬½Ó×î½üµÄ(Closest)
DataNode,¶ÁÈ¡ÎÄ¼þµÄµÚÒ»¸öÊý¾Ý¿é¡£
(4)Êý¾Ý´ÓDataNodeÔ´Ô´²»¶Ï´«ËÍ»Ø¿Í»§¶Ë³ÌÐò,¶ø¿Í»§¶Ë³ÌÐòÔò²»¶ÏµØµ÷ÓÃÊý¾Ý
Á÷µÄread·½·¨¡£
(5)µ±µ½´ïÊý¾Ý¿éµÄÄ©Î²Ê±,DFSInputStream½«¹Ø±ÕDataNodeµÄÁ¬½Ó,È»ºóÑ°ÕÒÏÂ
Ò»¸öÊý¾Ý¿é×îÓÅµÄDataNode,ÒÔ±ã½øÐÐºóÐøÊý¾Ý¿éµÄ¶ÁÈ¡¡£DataNodeµÄÑ¡Ôñ¶Ô¿Í»§¶Ë
³ÌÐòÊÇÍ¸Ã÷µÄ,¿Í»§¶Ë³ÌÐòÖ»ÊÇ´ÓÒ»¸öÁ¬ÐøµÄÊý¾ÝÁ÷½øÐÐ¶ÁÈ¡¡£
¿Í»§¶Ë°´ÕÕË³Ðò¶ÁÈ¡¸÷¸öÊý¾Ý¿é¡£µ±¿Í»§¶Ë²»¶Ï¶ÁÈ¡Êý¾ÝÁ÷Ê±,ÔÚÊý¾Ý¿éµÄ±ß½ç, 
DFSInputStream²»¶Ï´´½¨µ½±£´æÓÐºóÐøÊý¾Ý¿éµÄDataNodeµÄÁ¬½Ó¡£DFSInputStream 
Í¬Ê±ÏòNameNodeÑ¯ÎÊºÍÌáÈ¡ÏÂÒ»ÅúÊý¾Ý¿éµÄDataNodeµÄÎ»ÖÃÐÅÏ¢¡£

(6)µ±¿Í»§¶ËÍê³ÉÎÄ¼þµÄ¶ÁÈ¡,Ëüµ÷ÓÃFSDataInputStreamÊµÀýµÄclose·½·¨¡£
3.3 
ScnayNmNde½éÉÜ
2.eodraeo

NameNode¼¯ÖÐ´æ´¢ÁËHDFSµÄÔªÐÅÏ¢¡£Ëü¸ºÔðÖ´ÐÐÃüÃû¿Õ¼äµÄÒ»Ð©²Ù×÷,Èç´´
½¨¡¢É¾³ý¡¢ÐÞ¸Ä¡¢ÁÐ³öËùÓÐÎÄ¼þºÍÄ¿Â¼µÈ¡£Ëü»¹Ö´ÐÐÊý¾Ý¿éµÄ¹ÜÀí²Ù×÷,°üÀ¨°ÑÎÄ¼þÓ³Éäµ½
ËùÓÐµÄÊý¾Ý¿é¡¢´´½¨ºÍÉ¾³ýÊý¾Ý¿é¡¢¹ÜÀí¸±±¾µÄ·ÅÖÃºÍ½øÐÐÖØÐÂ¸´ÖÆ²Ù×÷µÈ¡£

´ËÍâ,NameNode»¹¸ºÔðDataNodeµÄ³ÉÔ±¹ÜÀí,¼´½ÓÊÜÆä×¢²á(Registration)ºÍÖÜÆÚ
ÐÔµÄÐÄÌøÐÅÏ¢(HeartBeat)µÈ¡£¿Í»§¶ËºÍHDFSµÄÊý¾Ý´«ÊäÊÇÔÚ¿Í»§¶ËºÍDataNodeÖ®
¼ä½øÐÐµÄ,Êý¾Ý´«Êä²»¾­¹ýNameNode¡£

ÎªÁËÖ§³Ö¸ßÐ§µÄ´æÈ¡²Ù×÷,NameNode°ÑËùÓÐµÄÔªÐÅÏ¢±£´æÔÚÄÚ´æÖÐ,°üÀ¨ÎÄ¼þÃüÃû
¿Õ¼ä¡¢ÎÄ¼þµ½Êý¾Ý¿éµÄÓ³Éä¡¢Ã¿¸öÊý¾Ý¿é¸±±¾µÄÎ»ÖÃÐÅÏ¢µÈ¡£ÕâÐ©ÐÅÏ¢,Ò²³Ö¾Ã»¯µ½
NameNodeµÄ±¾µØÎÄ¼þÏµÍ³¡£NameNodeµÄ±¾µØÎÄ¼þ°üÀ¨FsImageÎÄ¼þºÍEditLogsÎÄ
¼þ¡£FsImageÎÄ¼þ±£´æÕâÐ©ÔªÐÅÏ¢¡£EditLogsÎÄ¼þÔòÊÇÒ»¸öÊÂÎñÈÕÖ¾(TransactionLog)ÎÄ
¼þ,¼ÇÂ¼ÁË¶ÔÎÄ¼þÏµÍ³ÔªÐÅÏ¢µÄËùÓÐ¸üÐÂ²Ù×÷,Èç´´½¨ÎÄ¼þ¡¢¸Ä±äÎÄ¼þµÄ¸´ÖÆÒò×ÓµÈ¡£

µ±NameNodeÆô¶¯(»òÕßÖØÆô)Ê±,Ëü×°ÔØFsImageÎÄ¼þ,²¢ÇÒ°ÑEditLogsµÄËùÓÐÊÂ
ÎñÈÕÖ¾,Ó¦ÓÃµ½´ÓFsImageÎÄ¼þ×°ÔØµÄÔªÐÅÏ¢ÉÏ,µÃµ½ÎÄ¼þÏµÍ³ÔªÊý¾ÝµÄÒ»¸öÐÂ¿ìÕÕ(¼´
ÐÂµÄFsImage),½Ó×Å°ÑÕâ¸öÐÂµÄFsImage(ÄÚ´æÖÐ)±£´æµ½´ÅÅÌ,²¢ÇÒ½Ø¶ÌEditLogs¡£´Ë
ºó,ÔÚNameNodeÔËÐÐ¹ý³ÌÖÐ,EditLogs¼ÌÐø¼ÇÂ¼¶ÔÎÄ¼þÏµÍ³µÄ¸Ä¶¯µÄÈÕÖ¾ÐòÁÐ¡£


34 
HadopÓëSparkÈëÃÅ

ÓÉÓÚNameNode±£´æÁËHDFSµÄËùÓÐÔªÐÅÏ¢,Ö»ÓÐNameNode²ÅÖªµÀÈçºÎ´Ó
DataNodeµÄ¸÷¸öÊý¾Ý¿éÖØ¹¹Ò»¸öÎÄ¼þ¡£NameNode³ö¹ÊÕÏ,½«ÒýÆðÕû¸öHDFS²»ÄÜÌá
¹©·þÎñ¡£

Ò»°ãÀ´½²,ÔÚÉú²úÏµÍ³ÖÐNameNodeÊÇºÜÉÙÖØÆôµÄ,ÓÚÊÇNameNodeÔËÐÐÁËºÜ³¤Ê±
¼äÖ®ºó,EditLogsÎÄ¼þ»á±äµÃÔ½À´Ô½´ó¡£ÈçºÎ´æ´¢Ô½À´Ô½´óµÄEditLogsÎÄ¼þÊÇÒ»¸öÎÊ
Ìâ,¶øÇÒÏÂ´ÎNameNodeÖØÆô,»á»¨·ÑÏàµ±³¤µÄÊ±¼ä¡£ÒòÎªEditLogs°üº¬ÁËºÜ¶à¸Ä¶¯, 
ÐèÒªºÏ²¢µ½FsImageÎÄ¼þÖÐ¡£

SecondaryNameNodeÎª½â¾öÉÏÊöÎÊÌâ¶øÉú¡£SecondaryNameNodeµÄÖ°ÔðÊÇºÏ²¢
FsImageÎÄ¼þºÍEditLogsÎÄ¼þ,Éú³ÉÐÂµÄ¿ìÕÕ(¼´ÐÂµÄFsImage)¡£

Ê×ÏÈ,µ±NameNodeµÄEditLogsÎÄ¼þµÄ´óÐ¡´ïµ½Ò»¸öÁÙ½çÖµ(Ä¬ÈÏÊÇ64MB)»òÕß¼ä
¸ôÒ»¶ÎÊ±¼ä(Ä¬ÈÏÊÇ1h)Ê±,Ëü·¢³öÒ»¸ö¼ì²éµã(Checkpoint)Ö¸Ê¾¸øSecondaryNameNode¡£

È»ºó,SecondaryNameNode µ½NameNode »ñÈ¡FsImage ºÍEditLogs¡£ÔÚ
NameNodeÉÏ,µ±´¥·¢Ò»¸öCheckpoint²Ù×÷Ê±,NameNode»áÉú³ÉÒ»¸öÐÂµÄEditLogs,¼´
EditLogs(New)¡£

SecondaryNameNode°ÑEditLogsÓ¦ÓÃµ½FsImage,µÃµ½ÐÂµÄFsImage(¼´Checkpoint) 
ÎÄ¼þÒÔºó,°ÑËü¸´ÖÆ»ØNameNodeÖÐ¡£NameNodeÓÃÐÂµÄFsImage(¼´Checkpoint)ºÍ
EditLogs(New),Ìæ»»Ô­À´µÄFsImageºÍEditLogs,±£³ÖEditLogsµÄ¹æÄ£¿É¿Ø¡£
NameNodeÔÚÏÂ´ÎÖØÆôÊ±,»áÊ¹ÓÃÕâ¸öÐÂµÄFsImageÎÄ¼þ,ÕâÑùËüÐèÒª´¦ÀíµÄEditLogs 
¼ÇÂ¼±äÉÙºÜ¶à,¼õÉÙÁËÖØÆôµÄÊ±¼ä¡£

¿ÉÒÔ¿´µ½,SecondaryNameNodeµÄ¹¤×÷ÊÇ¶¨ÆÚºÏ²¢FsImageºÍEditLogs¡£SecondaryNameNodeÐèÒªÔÚÁíÒ»Ì¨»úÆ÷ÉÏÔËÐÐ,ËüÐèÒªºÍNameNodeÒ»Ñù¹æÄ£µÄCPU¼ÆËãÄÜÁ¦
ºÍÄÚ´æ¿Õ¼ä,ÒÔ±ãÍê³ÉÕâ¸ö¹¤×÷¡£

Èç¹ûNameNode³öÏÖ¹ÊÕÏ,ÕâÊ±¿ÉÒÔ×¼±¸ÁíÒ»Ì¨»úÆ÷,Ó²¼þ¹æ¸ñºÍNameNodeÀàËÆ,Åä
ÖÃÎÄ¼þÒ»Ñù¡£°ÑSecondaryNameNodeµÄCheckpoint¸´ÖÆ¹ýÀ´,½øÐÐimport²Ù×÷,¿ÉÒÔ»Ö¸´
FsImage,ÓÚÊÇ¿ÉÒÔ°ÑÕâÌ¨»úÆ÷µ±×÷ÐÂµÄNameNodeÀ´Ê¹ÓÃ¡£ÓÉÓÚSecondaryNameNode²»
ÊÇ½øÐÐÍ¬²½µÄ±¸·Ý,ËùÒÔËü»á¶ªÊ§¹ÊÕÏµÄNameNodeµÄ²¿·ÖEditLogsÊý¾Ý¡£

¶ÔSecondaryNameNodeµÄ¸Ä½øÊÇBackupNode,¼´±¸·Ý½Úµã¡£Õâ¸ö½ÚµãµÄÔËÐÐÄ£Ê½
ÀàËÆ¹ØÏµÊý¾Ý¿â¹ÜÀíÏµÍ³(RelationalDatabaseManagementSystem,RDBMS)Ê¹ÓÃµÄÖ÷
´Ó¸´ÖÆ¹¦ÄÜ,NameNode¿ÉÒÔÊµÊ±µØ½«ÈÕÖ¾´«ËÍ¸øBackupNode,BackupNode¼°Ê±°ÑÈÕ
Ö¾ºÏ²¢µ½FsImage(ÔÚÄÚ´æÖÐ),È»ºó½«ÄÚ´æÖÐµÄFsImage±£´æµ½±¾µØ´ÅÅÌ,²¢ÇÒÖØÖÃ
EditLogs¡£

µ±NameNode³ö¹ÊÕÏÊ±,BackupNodeÄÜ¹»»Ö¸´³ö×îÐÂµÄFsImage¡£

..3.3 
MapReduce¹¤×÷Ô­Àí

ÏÂÃæ´ÓÁ½·½Ãæ½éÉÜMapReduce:Ò»·½ÃæÊÇMapReduce×÷Òµ(Job)ÊÇÈçºÎÔËÐÐµÄ;Áí
Ò»·½ÃæÊÇMapReduce±à³ÌÄ£ÐÍÊÇÈçºÎ°ÑÒ»¸ö¼ÆËãÈÎÎñ±í´ï³ÉÒ»¸öMapº¯ÊýºÍÒ»¸ö


µÚ3ÕÂHadoopÈëÃÅ35Reduceº¯ÊýµÄ¡£
3.3.1MapReduceÖ´ÐÐÒýÇæ
MapReduceÖ´ÐÐÒýÇæÔËÐÐÔÚHDFSÖ®ÉÏ,°üÀ¨JobTrackerºÍTaskTrackerÁ½¸öÖ÷
ÒªµÄ×é³É²¿·Ö,·Ö±ðÔËÐÐÔÚNameNodeºÍDataNodeÉÏ¡£ÓÃ»§Ìá½»µÄÊý¾Ý´¦ÀíÇëÇó,³ÆÎª
Ò»¸ö×÷Òµ,ÓÉJobTracker·Ö½âÎªÊý¾Ý´¦ÀíÈÎÎñ(Task),·Ö·¢¸ø¼¯ÈºÀïµÄÏà¹Ø½ÚµãÉÏµÄ
TaskTrackerÔËÐÐ,ÈçÍ¼3-4ËùÊ¾¡£
Í¼3-
4 
MapReduceÖ´ÐÐÒýÇæ

¿Í»§¶Ë³ÌÐò°Ñ×÷ÒµÌá½»¸øJrÒÔºó,r°ÑÊý¾Ý´¦ÀíÈÎÎñ·¢ËÍ¸øÕû¸ö

obTrackeJobTracke

¼¯Èº¸÷¸ö½ÚµãµÄTaskTracker¡£·¢ËÍÈÎÎñµÄÔ­Ôò:¾¡Á¿°ÑÈÎÎñÍÆËÍµ½ÀëÊý¾Ý×î½üµÄ½Úµã

ÉÏÔËÐÐ,ÉõÖÁÊÇÍÆËÍµ½Êý¾ÝËùÔÚµÄ½ÚµãÉÏÔËÐÐ¡£

ÔÚHDFSÀï,rÍ¨¹ýHDFSNameNodeÖªµÀÄÄÐ©½Úµã°üº¬½«Òª´¦ÀíµÄ¸÷¸ö

JobTracke
Êý¾Ý¿é,Ò²¾ÍÊÇËüÁË½âÊý¾Ý¿éµÄ´æ·ÅÎ»ÖÃ¡£Èç¹ûÈÎÎñ²»ÄÜ·¢ËÍµ½Êý¾Ý¿éËùÔÚµÄ½Úµã,ÈçÒò
Îª¸Ã½ÚµãÄ¿Ç°µÄÈÎÎñ²Û(TaskSlot,¼´Ã¿¸öTaskTracker¿ÉÒÔÔËÐÐµÄTaskÊýÁ¿)ÒÑ¾­ÓÃ
Íê,ÄÇÃ´ÏµÍ³ÓÅÏÈ°ÑÈÎÎñÍÆËÍµ½Í¬Ò»»ú¼ÜÀïµÄÆäËû½Úµã,¸Ã½Úµã±£ÁôÁËÊý¾Ý¿éµÄÁíÍâÒ»¸ö
¸±±¾(Replica)¡£ÕâÑùµÄÈÎÎñ·Ö·¢²ßÂÔ,±ÜÃâ»òÕß¼õÉÙÁËÊý¾ÝµÄÍøÂç´«Êä(Network 
Transfer),½ø¶ø¼õÉÙ¼¯ÈººËÐÄ¹Ç¸ÉÍøÂç(BackboneNetwork)ÉÏµÄÍøÂçÁ÷Á¿¡£

Èç¹ûTaskTrackerÊ§°Ü»òÕßÔËÐÐ³¬Ê±,Ëü¸ºÔðµÄÈÎÎñ¾Í»á±»JobTrackerÖØÐÂµ÷¶Èµ½
ÆäËûµÄTaskTrackerÉÏ¡£
t
ÔÚ
), 
TaskTrackerÔËÐÐ¹ý³ÌÖÐ,ËüÏòJobTrackerÃ¿¸ô¼¸·ÖÖÓ·¢ËÍ
Ò»¸öÐÄÌøÐÅºÅ(HeartBeaÒÔ±ã±¨¸æÆä´æ»î×´Ì¬¡£JobTrackerºÍTaskTrackerµÄ×´Ì¬
ÐÅÏ¢,Í¨¹ýÄÚÖÃµÄÒ»¸öHTTP·þÎñÆ÷(Jety)±¨¸æ³öÀ´,¿ÉÒÔÍ¨¹ýä¯ÀÀÆ÷½øÐÐ²é¿´¡£

ÔÚHadop0.JbTakrÊ§°ÜÒÔºó,ËùÓÐµÄÊý¾Ý´¦Àí²Ù×÷¶¼¶ªÊ§ÁË¡£

o20ÒÔÇ°µÄ°æ±¾,orce
´ÓHadop0.opÔö¼ÓÁË×÷Òµ´¦Àí¹ý³ÌµÄ¼ì²éµã(ekpitn¹¦ÄÜ¡£

o21°æ±¾¿ªÊ¼,HadoChconig)
JobTrackerÔÚHDFSÀïÃæ,¼ÇÂ¼µ±Ç°×÷ÒµµÄ½øÕ¹³Ì¶È¡£µ±ÐÂµÄJobTrackerÆô¶¯ÒÔºó,Ëü
¿ÉÒÔ¸ù¾ÝÕâÐ©¼ì²éµãÐÅÏ¢,´ÓÉÏ´Î¼ì²éµãÎ»ÖÃ,¼ÌÐøÊý¾Ý´¦Àí¹¤×÷,¶ø²»ÊÇ´ÓÍ·¿ªÊ¼¡£Õâ
¸ö¹¦ÄÜ¸ÄÉÆÁË×÷ÒµµÄµ÷¶ÈÐ§ÂÊ¡£


36HadoopÓëSparkÈëÃÅ
Í¼3-5°ÑHDFSºÍMapReduceÖ´ÐÐÒýÇæµÄ¹ØÏµ,ÇåÎúµØÕ¹Ê¾³öÀ´¡£MapReduceºÍ
HDFSÔËÐÐÔÚÍ¬Ò»¸ö¼¯ÈºÉÏ,ËüÃÇÊÇÍ¬Ò»¸ö¼¯ÈºÉÏÔËÐÐµÄ²»Í¬Èí¼þÄ£¿é,·Ö±ðÌá¹©Êý¾Ý´æ
´¢ºÍÊý¾Ý´¦Àí¹¦ÄÜ¡£Í¼3-6ÔòÕ¹Ê¾ÁËMapReduce×÷ÒµµÄÔËÐÐ¹ý³Ì¡£
Í¼3-5HDFSÓëMapReduceµÄ¹ØÏµ
Í¼3-
6 
MapReduce×÷ÒµµÄÔËÐÐ¹ý³Ì

µ±Ò»¸öMapRe×÷ÒµÌá½»µ½¼¯ÈºÖÐ,r¸ºÔðÈ·¶¨ÆäÔËÐÐ¼Æ»®,°üº¬ÐèÒª´¦Àí

educJobTracke
ÄÄÐ©ÎÄ¼þ¡¢·ÖÅäMapºÍReduceÈÎÎñµÄÔËÐÐ½Úµã¡¢¼à¿ØÈÎÎñµÄÔËÐÐ¡¢ÔÙÒ»´Î·ÖÅäÊ§°ÜµÄÈÎÎñ
µÈ¡£Ã¿¸öHadoop¼¯ÈºÖÐ½öÓÐÒ»¸öJobTracker¡£TaskTracker¸ºÔðÔËÐÐÓÉJobTracker·ÖÅäµÄ
ÈÎÎñ,Ã¿¸öTaskTrackerÄÜ¹»Æô¶¯Ò»¸ö»ò¶à¸öMap/ReduceÈÎÎñ¡£

±»·ÖÅäÁËÈÎÎñµÄTaskTracker´ÓHDFSÖÐÈ¡³öËùÐèµÄÎÄ¼þ,°üÀ¨JAR³ÌÐòÎÄ¼þºÍÈÎ
ÎñÏàÓ¦µÄÊý¾ÝÎÄ¼þ,´æÈë±¾µØ´ÅÅÌ,²¢Æô¶¯Ò»¸öTaskRunner³ÌÐòÊµÀý×¼±¸Ö´ÐÐÈÎÎñ¡£

TaskRunnerÔÚÒ»¸öÐÂµÄJavaÐéÄâ»úÖÐÒÀ¾ÝÈÎÎñÀàÐÍ´´½¨³öMapTask»ò
ReduceTask½øÐÐÔËËã¡£ÔÚÐÂµÄJavaÐéÄâ»úÖÐÖ´ÐÐMapTaskºÍReduceTaskµÄÔ­ÒòÊÇ, 
±ÜÃâÕâÐ©ÈÎÎñµÄÖ´ÐÐÒì³£Ó°ÏìTaskTrackerµÄÕý³£Ö´ÐÐ¡£MapTaskºÍReduceTask»á¶¨
Ê±ÓëTaskRunner½øÐÐÍ¨ÐÅ±¨¸æ½ø¶È,Ö±µ½ÈÎÎñÍê±Ï¡£

Ã¿¸öTaskTracker½Úµã¿ÉÖ´ÐÐMapÈÎÎñºÍReduceÈÎÎñµÄÊýÁ¿Ò²ÊÇÓÐÏÞµÄ,¼´Ã¿¸ö
TaskTrackerÓÐÁ½¸ö¹Ì¶¨ÊýÁ¿µÄÈÎÎñ²Û,·Ö±ðÏìÓ¦MapÈÎÎñºÍReduceÈÎÎñ¡£ÔÚ½øÐÐÈÎ
Îñ·ÖÅäÊ±,JobTrackerÓÅÏÈÌîÂúTaskTrackerµÄMapÈÎÎñ²Û,¼´Ö»ÒªÓÐ¿ÕÏ¾MapÈÎÎñ


µÚ3ÕÂHadoopÈëÃÅ37
²Û,¾Í·ÖÅäÒ»¸öMapÈÎÎñ,MapÈÎÎñ²ÛÂúÁËÖ®ºó,²Å·ÖÅäReduceÈÎÎñ¡£×¢Òâ,Ò»¸ö
MapReduce×÷ÒµµÄMapTasksºÍReduceTasksÓÐÏÈºóÒÀÀµ¹ØÏµ¡£
MapReduce¿ò¼ÜÎªÁË±ÜÃâÄ³¸öÃ»ÓÐÊ§°Ü¡¢µ«ÔËÐÐ»ºÂýµÄÈÎÎñÓ°ÏìÕû¸ö×÷ÒµµÄÔËÐÐËÙ
¶È,Éè¼ÆÁË±¸·ÝÈÎÎñ»úÖÆ¡£
3.3.2MapReduce¼ÆËãÄ£ÐÍ
ÔÚMapReduce¼ÆËãÄ£ÐÍÖÐ,Êý¾ÝÒÔ¼ü-Öµ¶Ô<Key,Value>½øÐÐ½¨Ä£¡£¼¸ºõËùÓÐµÄÊý
¾Ý¶¼¿ÉÒÔÊ¹ÓÃÕâ¸öÊý¾ÝÄ£ÐÍ½øÐÐ½¨Ä£,KeyºÍValue²¿·Ö¿ÉÒÔ¸ù¾ÝÐèÒª±£´æ²»Í¬µÄÊý¾Ý
ÀàÐÍ,°üÀ¨×Ö·û´®¡¢ÕûÊý»òÕß¸ü¼Ó¸´ÔÓµÄÀàÐÍ¡£
MapReduce²¢ÐÐ±à³ÌÄ£ÐÍ°Ñ¼ÆËã¹ý³Ì·Ö½âÎªÁ½¸öÖ÷Òª½×¶Î,¼´Map½×¶ÎºÍReduce 
½×¶Î¡£MapReduce³ÌÐòµÄ¼ÆËã¹ý³ÌÈçÍ¼3-7ËùÊ¾¡£Ê×ÏÈ,±£´æÔÚHDFSÀïµÄÎÄ¼þ¼´Êý¾Ý
Ô´,ÒÑ¾­½øÐÐ·Ö¿é¡£ÕâÐ©Êý¾Ý¿é½»¸ø¶à¸öMapÈÎÎñÖ´ÐÐ,MapÈÎÎñÖ´ÐÐMapº¯Êý,Map
º¯Êý¸ù¾ÝÌØ¶¨¹æÔò¶ÔÊý¾Ý½øÐÐ´¦Àí,Ð´Èë±¾µØÓ²ÅÌ¡£Map½×¶ÎÍê³Éºó,½øÈëReduce½×
¶Î,ReduceÈÎÎñÖ´ÐÐReduceº¯Êý,°Ñ¾ßÓÐÍ¬ÑùKeyÖµµÄÖÐ¼ä½á¹û,´Ó¶à¸öMapÈÎÎñËùÔÚ
µÄ½ÚµãÊÕ¼¯µ½Ò»Æð(Shuffle)½øÐÐÔ¼¼õ´¦Àí,²¢½«Êä³ö½á¹ûÐ´Èë±¾µØÓ²ÅÌ(HDFS )¡£³ÌÐò
µÄ×îÖÕ½á¹û,¿ÉÒÔÍ¨¹ýºÏ²¢ËùÓÐReduceÈÎÎñµÄÊä³öµÃµ½¡£ÐèÒª×¢ÒâµÄÊÇ,ÊäÈëÊý¾Ý¡¢ÖÐ
¼ä½á¹û¼°×îÖÕ½á¹û,¶¼ÊÇÒÔ<Key,Value>µÄ¸ñÊ½±£´æµ½HDFSÖÐ¡£
Í¼3-
7 
MapReduce³ÌÐòµÄ¼ÆËã¹ý³Ì

Mapº¯Êý´¦Àí¼ü-Öµ¶Ô,²úÉúÒ»ÏµÁÐµÄÖÐ¼ä¼ü-Öµ¶Ô¡£Reduceº¯ÊýºÏ²¢ËùÓÐ¾ßÓÐÏàÍ¬
KeyÖµµÄÖÐ¼ä¼ü-Öµ¶Ô,¼ÆËã×îÖÕ½á¹û¡£MapReduce¼ÆËãÄ£ÐÍ,¿ÉÒÔÐÎÊ½»¯µØ±í´ï³É
Map:<k1,v1>¡úlist<k2,v2>,Reduce:<k2,list(v2)>¡úlist<k3,v3>¡£

ÏÂÃæÍ¨¹ýWordCountÊµÀý,½âÊÍMapº¯ÊýºÍReduceº¯ÊýÈçºÎ¶ÔÊý¾Ý½øÐÐ²Ù×÷,ÒÔ
¼°MapReduce³ÌÐòÈçºÎ¶ÔÕû¸öÊý¾ÝÎÄ¼þ½øÐÐ´¦Àí¡£

WordCount³ÌÐò¶ÔÕû¸öÎÄ¼þÀï³öÏÖµÄ²»Í¬µ¥´Ê½øÐÐ¼ÆÊý¡£Mapº¯ÊýµÄ¹¦ÄÜÊÇ,¶ÔÎÄ
¼þ¿é³öÏÖµÄÃ¿¸öµ¥´Ê,Êä³ö<µ¥´Ê,1>µÄ¼ü-Öµ¶Ô,ÈçÍ¼3-8ËùÊ¾;¶øReduceº¯Êý,Ôò°Ñ¸÷
¸öMapº¯ÊýÊä³öµÄ½á¹û,°´ÕÕµ¥´Ê½øÐÐ·Ö×é,Í³¼ÆÆä³öÏÖµÄ´ÎÊý,ÈçÍ¼3-9ËùÊ¾¡£

MapReduceÖ´ÐÐÒýÇæÔÚÖ´ÐÐWordCount³ÌÐòÊ±,JobTracker½ÓÊÕÁËWordCount³Ì
ÐòÒÔºó,¸ù¾ÝÎÄ¼þµÄÊý¾Ý¿éËùÔÚµÄ½Úµã,ÔÚÕâÐ©½ÚµãÉÏÆô¶¯TaskTrackerºóÔËÐÐMapº¯
Êý,Mapº¯ÊýÖ´ÐÐÍê±Ïºó,°Ñ½á¹û´æ·ÅÔÚ¸÷¸ö½ÚµãµÄ±¾µØÎÄ¼þÀï¡£


38HadoopÓëSparkÈëÃÅ
Í¼3-8WordCountµÄMapº¯Êý¹¦ÄÜÍ¼3-9WordCountµÄReduceº¯Êý¹¦ÄÜ
½Ó×ÅJobTrackerÔÚ¸÷¸ö½ÚµãÉÏÆô¶¯TaskTrackerºóÔËÐÐReduceº¯Êý,ÕâÐ©ÈÎÎñ´Ó
¸÷¸öMapÈÎÎñÖ´ÐÐµÄ¸÷¸ö½ÚµãÉÏ,°Ñ¾ßÓÐÏàÍ¬KeyÖµ(¼´ÏàÍ¬µ¥´Ê)µÄÖÐ¼ä½á¹û,ÊÕ¼¯µ½
Ò»Æð,¾ÍÄÜ¹»»ã×Ü³ö¸÷¸öµ¥´ÊµÄ¼ÆÊý¡£WordCount³ÌÐòµÄÖ´ÐÐ¹ý³ÌÈçÍ¼3-10ËùÊ¾¡£
Í¼3-10 
WordCount³ÌÐòµÄÖ´ÐÐ¹ý³Ì

3.3Hd0µÄÓ¦ÓÃ
3.aop1.

e¼ÆËãÄ£ÐÍÊÇÓÉGoeÌá³öÀ´µÄ,Had0ÊÇ¶ÔMapRe¼ÆËãÄ£ÐÍ

MapReducogloop1.educ
µÄ¿ªÔ´ÊµÏÖ¡£¸ù¾ÝÉÏÊöÃèÊö,MapReduce¼ÆËãÄ£ÐÍ¿´ÆðÀ´ÌØ±ð¼òµ¥¡£Êµ¼ÊÉÏ,ÔÚÕâÖÖ¼ò
µ¥µÄ´¦ÀíÖ®ÉÏ¿ÉÒÔÊµÏÖ¸´ÔÓµÄÊý¾Ý´¦ÀíÈÎÎñ¡£

³ýÁË¼òµ¥µÄSQL»ã×ÜÖ®Íâ,ÑÐ¾¿ÈËÔ±ÒÑ¾­°ÑÁª»ú·ÖÎö´¦Àí¡¢Êý¾ÝÍÚ¾ò¡¢»úÆ÷Ñ§Ï°¡¢ÐÅ
Ï¢¼ìË÷¡¢¶àÃ½ÌåÊý¾Ý´¦Àí¡¢¿ÆÑ§Êý¾Ý´¦Àí¡¢Í¼Êý¾Ý´¦ÀíµÈ¸´ÔÓµÄÊý¾Ý´¦ÀíºÍ·ÖÎöËã·¨,ÒÆÖ²
µ½HadoopÆ½Ì¨ÉÏ(¼´MapReduceJob)¡£

Hadoop²»½öÊÇÒ»¸ö´¦Àí·Ç½á¹¹»¯Êý¾ÝµÄ¹¤¾ß,µ±Êý¾Ý°´ÕÕÒ»¶¨¸ñÊ½½øÐÐÊÊµ±×éÖ¯
ºó,HadoopÆ½Ì¨Ò²¿ÉÒÔ´¦Àí½á¹¹»¯Êý¾Ý¡£HadoopÆ½Ì¨ÒÔ¼°HadoopÉÏµÄ¸÷ÖÖ¹¤¾ß¹¹³É
ÁËÒ»¸öÉúÌ¬ÏµÍ³,Íê³É¸÷ÖÖ´óÊý¾Ý¼¯µÄ´¦ÀíÈÎÎñ¡£

..3.4 
HadoopÉúÌ¬ÏµÍ³

ÔÚHDFSºÍMapReduce¼ÆËãÄ£ÐÍÖ®ÉÏ,Èô¸É¹¤¾ßÒ»Æð¹¹³ÉÁËÕû¸öHadoopÉúÌ¬Ïµ
Í³,ÈçÍ¼3-11ËùÊ¾¡£ÏÂÃæ¶ÔÕâÐ©×é¼þ½øÐÐ¼òµ¥½éÉÜ¡£


µÚ3ÕÂHadoopÈëÃÅ39
Í¼3-11HadoopÉúÌ¬ÏµÍ³
HiveÊÇHadoopÆ½Ì¨ÉÏµÄÊý¾Ý²Ö¿â,ÓÃÓÚ¶ÔÊý¾Ý½øÐÐÀëÏß·ÖÎö¡£ËüÌá¹©ÁËÒ»ÖÖÀàËÆ
SQLµÄHive²éÑ¯ÓïÑÔ(HiveQueryLanguage,HQL )¡£Hive½«SQL×ª»¯ÎªMapReduce 
×÷Òµ²¢ÔÚHadoopÉÏÖ´ÐÐ¡£
HBaseÊÇGoogleBigTableÔÚHadoopÆ½Ì¨ÉÏµÄ¿ªÔ´ÊµÏÖ¡£ËüÊÇÒ»¸öÕë¶Ô½á¹¹»¯Êý
¾Ý´¦ÀíµÄ¡¢ÃæÏòÁÐ·Ö×éµÄ¡¢¿ÉÉìËõµÄ¡¢¸ß¶È¿É¿¿µÄ¡¢¸ßÐÔÄÜµÄ·Ö²¼Ê½Êý¾Ý¿â¡£Ò»°ãÓÃÓÚÊý¾Ý
·þÎñ(DataServing)Ó¦ÓÃ³¡ºÏ¡£
PigÊµÏÖÁËÊý¾Ý²éÑ¯½Å±¾ÓïÑÔPigLatin¡£ÓÃPigLatin½Å±¾ÓïÑÔ±àÐ´µÄÓ¦ÓÃ³ÌÐò,±»
·­ÒëÎªMapReduce×÷Òµ,ÔÚHadoopÉÏÔËÐÐ¡£ÔÚÊµ¼ÊÓ¦ÓÃ¿ª·¢ÖÐ,°´ÕÕMapReduce¼ÆËã
Ä£ÐÍ±àÐ´Ä³Ð©Êý¾Ý´¦ÀíÈÎÎñ,Èç±í¸ñÖ®¼äµÄÁ¬½Ó²Ù×÷,¹ýÓÚ·³Ëö¡£PigLatinÌá¹©ÁËÁ¬½Ó
²Ù×÷,»¹Ìá¹©ÁËÆäËûÔ­Óï²Ù×÷,·½±ã¿ª·¢ÈËÔ±±àÐ´Êý¾Ý²Ù×÷Ëã·¨¡£ÏñHiveÒ»Ñù,PigÒ»°ã
ÓÃÓÚÀëÏß·ÖÎö¡£¶þÕßµÄÖ÷ÒªÇø±ðÊÇ,HiveÊ¹ÓÃÉùÃ÷ÐÔ(Declarative)µÄÓïÑÔHQL,¶øPig
Ê¹ÓÃ¹ý³ÌÐÔ(Procedure)µÄÓïÑÔPigLatin¡£

FlumeÊÇÒ»¸ö¿ÉÀ©Õ¹µÄ¡¢¸ß¶È¿É¿¿µÄ¡¢¸ß¿ÉÓÃµÄ·Ö²¼Ê½º£Á¿ÈÕÖ¾ÊÕ¼¯ÏµÍ³,Ò»°ãÓÃÓÚ
°ÑÖÚ¶à·þÎñÆ÷ÉÏµÄ´óÁ¿ÈÕÖ¾¾ÛºÏµ½Ä³¸öÊý¾ÝÖÐÐÄ¡£FlumeÌá¹©¶ÔÈÕÖ¾Êý¾Ý½øÐÐ¼òµ¥´¦Àí
µÄÄÜÁ¦,Èç¹ýÂË¡¢¸ñÊ½×ª»»µÈ¡£Í¬Ê±,Flume¿ÉÒÔ½«ÈÕÖ¾Ð´Íù¸÷ÖÖÄ¿±ê(±¾µØÎÄ¼þ¡¢
HDFS )¡£

SqoopÊÇSQLtoHadoopµÄËõÐ´,Ö÷ÒªÓÃÓÚÔÚ¹ØÏµÊý¾Ý¿â»òÕßÆäËû½á¹¹»¯Êý¾ÝÔ´ºÍ
HadoopÖ®¼ä½»»»Êý¾Ý¡£ÀýÈç,Sqoop¿ÉÒÔ°ÑMySQLµÈÊý¾Ý¿âÊý¾Ýµ¼ÈëHadoopÀï, 
À¨HDFS ¡¢HBaseÒÔ¼°Hive;·´¹ýÀ´,ËüÒ²¿ÉÒÔ½«HadoopµÄÊý¾Ýµ¼³öµ½MySQLÊý¾Ý¿â(°ü) ÖÐ¡£Êý¾ÝµÄµ¼Èëµ¼³ö¶¼Í¨¹ýMapReduce×÷Òµ(Ó¦ÓÃ³ÌÐò)ÊµÏÖ,³ä·ÖÀûÓÃÁËMapReduce 
µÄ²¢ÐÐ»¯´¦ÀíÄÜÁ¦ºÍÈÝ´íÐÔÄÜ¡£

MahoutÊÇHadoopÆ½Ì¨ÉÏµÄ»úÆ÷Ñ§Ï°Èí¼þ°ü,ËüµÄÖ÷ÒªÄ¿±êÊÇÊµÏÖ¸ß¶È¿ÉÀ©Õ¹µÄ»ú
Æ÷Ñ§Ï°Ëã·¨,ÒÔ±ã°ïÖú¿ª·¢ÈËÔ±ÀûÓÃ´óÊý¾Ý½øÐÐ»úÆ÷Ñ§Ï°Ä£ÐÍÑµÁ·¡£MahoutÏÖÔÚÒÑ¾­
°üº¬¾ÛÀà¡¢·ÖÀà¡¢ÍÆ¼öÒýÇæ(Ð­Í¬¹ýÂË)¡¢Æµ·±¼¯ÍÚ¾òµÈ¾­µäÊý¾ÝÍÚ¾òºÍ»úÆ÷Ñ§Ï°Ëã·¨¡£

OozieÊÇÒ»¸ö¹¤×÷Á÷µ÷¶ÈÆ÷(Scheduler)¡£OozieÐ­µ÷ÔËÐÐµÄ×÷Òµ,ÊôÓÚÒ»´ÎÐÔ·ÇÑ­»·
µÄ×÷Òµ,ÈçMapReduce×÷Òµ¡¢Pig½Å±¾¡¢Hive²éÑ¯¡¢SqoopÊý¾Ýµ¼Èëµ¼³ö×÷ÒµµÈ¡£Oozie»ù


40HadoopÓëSparkÈëÃÅ
ÓÚÊ±¼äºÍÊý¾Ý¿ÉÓÃÐÔ½øÐÐ×÷Òµµ÷¶È,¸ù¾Ý×÷Òµ¼äµÄÒÀÀµ¹ØÏµÐ­µ÷×÷ÒµµÄÔËÐÐ¡£
ZookeeperÊÇÄ£·ÂGoogle¹«Ë¾ChubbyÏµÍ³µÄ¿ªÔ´ÊµÏÖ,ChubbyÊÇÒ»¸ö·Ö²¼Ê½µÄËø
(Lock)·þÎñ¡£´ó²¿·Ö·Ö²¼Ê½Ó¦ÓÃ¶¼ÐèÒªÕâÑùÒ»Ð©¹«¹²·þÎñ,°üÀ¨Ê÷×´½á¹¹µÄÍ³Ò»ÃüÃû·þ
Îñ¡¢×´Ì¬Í¬²½·þÎñ(Í¨¹ý·Ö²¼Ê½¹²ÏíËø)¡¢ÅäÖÃÊý¾ÝµÄ¼¯ÖÐ¹ÜÀí¡¢¼¯Èº¹ÜÀí(Èç¼¯ÈºÖÐ½ÚµãµÄ
×´Ì¬¹ÜÀí¼°×´Ì¬±ä¸üÍ¨Öª,½ÚµãÊý¾Ý±ä¸üµÄÏûÏ¢Í¨Öª)µÈ¡£ÕâÐ©·þÎñÄÑÒÔÊµÏÖ,Ò²ÄÑÒÔµ÷
ÊÔ¡£½èÖúZookeeper,ÈËÃÇ¾ÍÎÞÐëÎªÃ¿¸ö·Ö²¼Ê½Ó¦ÓÃÊµÏÖÕâÐ©¹¦ÄÜ,´Ó¶ø¼Ó¿ì·Ö²¼Ê½Ó¦ÓÃ
µÄ¿ª·¢ºÍ²¿Êð¡£
ÔÚÓÉÒ»¸öMaster½ÚµãºÍ¶à¸öSlave½Úµã×é³ÉµÄ·Ö²¼Ê½Èí¼þ¿ò¼ÜÖÐ,µ¥Ò»µÄMaster 
½ÚµãÓÐ¿ÉÄÜµ¼ÖÂµ¥µãÊ§°Ü,Ó°ÏìÕû¸öÏµÍ³µÄ¿É¿¿ÐÔ¡£ÓÃZookeeper¹ÜÀíµÄÈô¸ÉMaster½Ú
µã(ÆäÖÐÒ»¸ö½ÚµãÊÇActiveMaster)´úÌæMaster½Úµã,¾Í²»±Øµ£ÐÄµ¥µãÊ§°ÜÎÊÌâÁË¡£Èç
¹ûActiveMaster½ÚµãÊ§°ÜÁË,Zookeeper¿ÉÒÔÌôÑ¡ÆäËûMaster½ÚµãÀ´¶¥Ìæ¡£
´«Í³µÄRDBMS,ÉÃ³¤´¦Àí¹ØÏµÊý¾Ý,Ö§³Öµ¥Ò»µÄÓ¦ÓÃ,¼´µ¥Ò»Æ½Ì¨¡¢µ¥Ò»Ó¦ÓÃ;¶ø¸÷
ÀàNoSQLÊý¾Ý¿âÈí¼þ,Ê¹ÓÃ²»Í¬µÄÊý¾ÝÄ£ÐÍºÍ´æ´¢¸ñÊ½,Õë¶Ô²»Í¬µÄÓ¦ÓÃ³¡¾°,ÊôÓÚ¶à
Æ½Ì¨¡¢¶àÓ¦ÓÃ¡£Hadoop¼°ÆäÉúÌ¬ÏµÍ³ÔòÊµÏÖÁËµ¥Ò»Æ½Ì¨¡¢¶àÖÖÓ¦ÓÃ¡£HadoopÉúÌ¬ÏµÍ³, 
ÔÚµ×²ãÀûÓÃHDFSÊµÏÖ¸÷ÖÖÊý¾ÝµÄÍ³Ò»´æ´¢,ÔÚÉÏ²ãÓÉºÜ¶à×é¼þ/¹¤¾ßÊµÏÖ¸÷ÖÖÊý¾Ý¹Ü
ÀíºÍ·ÖÎö¹¦ÄÜ,Âú×ã¸÷ÖÖÓ¦ÓÃ³¡¾°µÄÒªÇó¡£
..3.5Hadoop2.0
0µÄÓÅÊÆºÍ¾ÖÏÞ

3.5.1 
Hadop1.
Hadop1.opÒÑ¾­±»²¿Êðµ½

o0×îÖØÒªµÄÓÅÊÆÊÇËüµÄ¿ÉÀ©Õ¹ÐÔ¡£ÔÚÊµ¼ÊÓ¦ÓÃÖÐ,Hado
³¬´ó¹æÄ£µÄ¼¯ÈºÉÏ(³¬¹ý3000¸ö½Úµã),¶ÔÓÚ´«Í³µÄRDBMS,ÕâÊÇÎÞ·¨ÏëÏóµÄ¡£
ÎªÊ²Ã´ÐèÒªÕâÃ´´ó¹æÄ£µÄ¼¯Èº¶ÔÊý¾Ý½øÐÐ´¦ÀíÄØ? ÒòÎªµ±Êý¾Ý¹æÄ£¼«´óÊ±,ÐèÒª¿¼
ÂÇÀ©Õ¹ÐÔµÄ´ú¼Û¼°I/OÆ¿¾±µÈÒòËØ¡£

µÚÒ»¸öÒòËØÊÇÊÇ·ñÄÜ¹»ºÜ·½±ãµØ¶ÔÏµÍ³½øÐÐÀ©Õ¹¡£ÓÉÓÚHadoopÄÜ¹»ÔËÐÐÔÚÓÉÆÕÍ¨
·þÎñÆ÷¹¹³ÉµÄ³¬´ó¹æÄ£¼¯ÈºÉÏ,ËùÒÔSQLonHadoopÏµÍ³±È´«Í³µÄMPPÊý¾Ý¿âÏµÍ³(Èç
Teradata¡¢Vertica¡¢NetezaµÈ)¾ßÓÐ¸üÇ¿µÄÀ©Õ¹ÄÜÁ¦¡£¶ø´«Í³µÄMPPÊý¾Ý¿âÏµÍ³,ÐèÒª
ÔËÐÐÔÚ¸ß¶Ë·þÎñÆ÷ÉÏ,¼Û¸ñ¸ß°º,¶øÇÒºÜÄÑÀ©Õ¹µ½ÉÏÇ§¸ö½Úµã¡£

µÚ¶þ¸öÒòËØÊÇ´¦Àí´óÊý¾ÝÊ±µÄI/OÆ¿¾±¡£µ±Êý¾ÝµÄ¹æÄ£×ã¹»´óÊ±,Ö»ÓÐÒ»²¿·ÖÊý¾Ý
¿ÉÒÔ×°ÔØµ½ÄÚ´æÖÐ,Ê£ÏÂµÄÊý¾Ý±ØÐë±£´æÔÚ´ÅÅÌÀï¡£²¢ÇÒÔÚ´¦Àí¹ý³ÌÖÐ,ÐèÒª´Ó´ÅÅÌÉÏ²»
¶Ï×°ÔØµ½ÄÚ´æÖÐ,½øÐÐºóÐø´¦Àí¡£Í¨¹ý°ÑI/O·ÖÉ¢µ½´ó¹æÄ£¼¯ÈºµÄ¸÷¸ö½ÚµãÉÏ,¿ÉÒÔ´ó
´óÌá¸ßÊý¾Ý×°ÔØµÄËÙ¶È,½ø¶ø¼Ó¿ìºóÐøµÄ´¦Àí¡£´ó¹æÄ£¼¯Èº°Ñ¸÷¸ö½ÚµãµÄI/O´ø¿í¾Û¼¯
ÆðÀ´,»ñµÃ±È¸ß¶Ë·þÎñÆ÷´ó¼¸Ê®±¶ÉõÖÁÉÏ°Ù±¶µÄI/O´ø¿í,ÕâÎÞÒÉÊÇÒ»¸öÁ®¼ÛÇÒÓÐÐ§µÄ
´óÊý¾Ý´¦Àí·½°¸¡£

ÔÚ2008Äê,Yahoo¹«Ë¾Ê¹ÓÃÒ»¸öÓµÓÐ910¸ö½ÚµãµÄHadoop¼¯Èº,ÔÚ209sÄÚÍê³ÉÁË
1TBÊý¾ÝµÄÅÅÐò,´òÆÆÁËTerabyteSortÆÀ²â»ù×¼µÄ¼ÍÂ¼(297s)¡£Õâ¸öÊÂ¼þµÄÖØÒªÒâÒåÔÚ
ÓÚ,ÕâÊÇÓÃJava±àÐ´µÄ¿ªÔ´³ÌÐòÊ×´ÎÓ®µÃTerabyteSortÆÀ²â»ù×¼¡£


µÚ3ÕÂHadoopÈëÃÅ41
ÔÚ2011Äê3ÔÂ,MediaGuardianÃ½Ìå¼¯ÍÅ,°ÑÄê¶È´´ÐÂ½±(InnovationAwardsofthe 
Year)°ä·¢¸øÁËHadoopÏîÄ¿¡£ÆÀÉóÎ¯Ô±»áÈÏÎª,HadoopÏîÄ¿ÊÇ21ÊÀ¼ÍµÄÈðÊ¿¾üµ¶
(SwissArmyKnifeofthe21stCentury)¡£HadoopÆ½Ì¨ÒÑ¾­³ÉÎª´óÊý¾Ý´¦ÀíµÄ±ê×¼¹¤
¾ß,ËüµÄÖØÒª×÷ÓÃ±»Ô½À´Ô½¶àµÄÈËÈÏÊ¶µ½¡£
ËäÈ»HadoopÒÑ¾­ÔÚ´¦Àí´óÊý¾Ý·½Ãæ»ñµÃÁË¾Þ´óµÄ³É¹¦,µ«ÊÇËüÒ²ÓÐÒ»Ð©ÖØÒªµÄÈ±
µã¡£Hadoop1.0µÄÖ÷Òª¾ÖÏÞÈçÏÂ¡£
(1)Hadoop1.0½öÖ§³ÖÒ»ÖÖ¼ÆËãÄ£ÐÍ,¼´MapReduce¡£MapReduce¼ÆËãÄ£ÐÍµÄ±í´ï
ÄÜÁ¦ÓÐÏÞ¡£¸´ÔÓµÄÊý¾Ý´¦ÀíÈÎÎñ,Èç»úÆ÷Ñ§Ï°Ëã·¨ºÍSQLÁ¬½Ó²éÑ¯µÈ,ºÜÄÑ±í´ïÎªÒ»¸ö
MapReduce×÷Òµ,¶øÊÇÐèÒª·­Òë³ÉÒ»ÏµÁÐµÄMapReduce×÷Òµ,ÕâÐ©×÷ÒµÒ»¸ö½ÓÒ»¸öµØ
Ö´ÐÐ¡£
(2)ÓÉÓÚMapReduce×÷ÒµÔÚMap½×¶ÎºÍReduce½×¶ÎÖ´ÐÐ¹ý³ÌÖÐ,ÐèÒª°ÑÖÐ¼ä½á¹û
´æÅÌ,¶øÇÒÔÚMapReduce×÷Òµ¼ä,Ò²ÐèÒªÍ¨¹ý´ÅÅÌÊµÏÖMapReduce×÷ÒµÖ®¼äµÄÊý¾Ý½»
»»¡£Í¨¹ý´ÅÅÌ½øÐÐÊý¾Ý½»»»Ð§ÂÊµÍÏÂ,Ó°Ïì²éÑ¯µÄÖ´ÐÐÐ§ÂÊ¡£ÔÚÕâ¸ö¼ÆËãÄ£ÐÍÉÏ,ºÜÄÑÔÙ
¼ÌÐø¼õÐ¡²éÑ¯µÄÏìÓ¦Ê±¼ä¡£
(3)Hadoop1.0µÄÈÎÎñµ÷¶È·½·¨Ô¶Î´´ïµ½ÓÅ»¯×ÊÔ´ÀûÓÃÂÊµÄÐ§¹û¡£ÔÚHadoop1.0 
ÖÐ,¶ÔÈÎÎñµÄµ÷¶È·½·¨,¼´ÈçºÎ¸øTaskTracker·ÖÅäÈÎÎñµÄ¹ý³Ì±È½Ï¼òµ¥¡£Ã¿¸ö
TaskTrackerÓµÓÐÒ»¶¨ÊýÁ¿µÄÈÎÎñ²Û,Ã¿¸ö»î¶¯µÄMapÈÎÎñ»òÕßReduceÈÎÎñÕ¼ÓÃÆäÖÐ
Ò»¸öÈÎÎñ²Û¡£JobTracker°Ñ¹¤×÷·ÖÅä¸ø×î¿¿½üÊý¾ÝµÄTaskTracker,Õâ¸öTaskTracker 
ÕýºÃÓÐ¿ÉÓÃµÄÈÎÎñ²Û¡£ÔÚÕâ¸öµ÷¶È·½·¨ÏÂ,²¢Î´¿¼ÂÇ½«Òª±»·ÖÅäÈÎÎñµÄ»úÆ÷µ±Ç°µÄÏµÍ³
¸ºÔØÊÇ·ñ¹ý¸ß¡£Èç¹ûÄ³¸öTaskTrackerÖ´ÐÐ·Ç³£Âý,Ëü½«»áÓ°ÏìÕû¸öMapReduce×÷ÒµµÄ
Ö´ÐÐ,Õû¸öMapReduce×÷ÒµµÈ´ý×îÂýµÄÈÎÎñÍê³É²ÅÄÜ½áÊø¡£µ±È»,¿ÉÒÔÍ¨¹ý²Â²âÖ´ÐÐ
(SpeculativeExecution)Ä£Ê½,ÔÚ¶à¸öSlave½ÚµãÉÏÆô¶¯Í¬Ò»¸öÈÎÎñ(Task),Ö»ÒªÓÐÆäÖÐ
Ò»¸öÈÎÎñÍê³É¼´¿É¡£

3.5.2 
´ÓHd0µ½Hadop2.
aop1.0 

HadoopÔÚ´óÊý¾Ý´¦ÀíÁìÓòÕ¹ÏÖÁËÇ¿´óµÄÄÜÁ¦¡£ÈËÃÇ×ÔÈ»Ï£Íû°Ñ²»Í¬À´Ô´µÄÊý¾Ý, 
²»¹ÜËüÊÇ½á¹¹»¯µÄ»¹ÊÇ·Ç½á¹¹»¯µÄ,¶¼±£´æµ½HadoopÖÐ,ÔÚÕâÐ©Êý¾ÝÉÏÃæÖ´ÐÐ¸÷ÖÖ¸÷Ñù
µÄ·ÖÎö¡£

Hadoop×î³õÊÇÎª´óÊý¾ÝµÄÅú´¦ÀíÉè¼ÆµÄ,ËüµÄ¹Ø×¢µãÔÚÓÚ,ÒÔ¾¡Á¿¸ßµÄÍÌÍÂÁ¿´¦Àí
ÕâÐ©Êý¾Ý¡£µ«ÊÇ,ÈËÃÇÏ£ÍûHadoop»¹ÄÜ¹»Ö§³Ö½»»¥Ê½²éÑ¯¡¢Êý¾ÝµÄµü´úÊ½´¦Àí¡¢Á÷Êý¾Ý
´¦Àí¼°Í¼Êý¾Ý´¦ÀíµÈ¡£ÆäÖÐ,Êý¾ÝµÄµü´úÊ½´¦ÀíÊÇ»úÆ÷Ñ§Ï°Ëã·¨Ëù±ØÐèµÄ,¼´»úÆ÷Ñ§Ï°Ëã
·¨Ò»°ãÐèÒª¶ÔÊý¾Ý½øÐÐ¶à±éÉ¨ÃèºÍ´¦Àí¡£

ÔÚÕâÖÖÐÎÊÆÏÂ,Hadop2.op2.ÊÇÔÚÕû¸öÈí¼þ¼Ü¹¹

o0Ó¦ÔË¶øÉú¡£Hado0µÄÖ÷Òª¸Ä±ä, 
Àï»®·Ö³öÁË×ÊÔ´¹ÜÀí¿ò¼ÜYARN ¡£ÓÉÓÚYARNÊÇHadop2.ËùÒÔÓÐ

oop2.
o0µÄÖØÒª×é³É²¿·Ö, 
Ê±°ÑYARNºÍHad0»¥»»Ê¹ÓÃ¡£

3.3 
YARN 
Ô­Àí
5.
YARN°Ñ×ÊÔ´¹ÜÀí(ResourceManagement)ºÍ×÷Òµµ÷¶È/¼à¿Ø(JobScheduling/ 


42 
HadopÓëSparkÈëÃÅ

g)Ä£¿é·Ö¿ª¡£ÔÚHad0ÖÐ,ÕâÁ½¸ö¹¦ÄÜ¶¼ÓÉJr¸ºÔð¡£
ÔÚHadoo0ÖÐ,ÏµÍ³½öÄÜ¹»Ö§³ÖÒ»ÖÖ¼ÆËãÄ£ÐÍ,¼´MapReue¡£ÔÚHadop2.

Monitorinoop1.obTracke

p1.dco0 
ÖÐ,ÏµÍ³¿ÉÒÔÖ§³Ö¸ü¶àµÄ¼ÆËãÄ£ÐÍ,°üÀ¨Á÷Êý¾Ý´¦Àí¡¢Í¼Êý¾Ý´¦Àí¡¢Åú´¦Àí¡¢½»»¥Ê½´¦ÀíµÈ, 
-oop2.educ

ÈçÍ¼312ËùÊ¾¡£ÔÚHad0ÖÐ,Ó¦ÓÃ³ÌÐò¿ÉÒÔÊÇ´«Í³µÄMapRe×÷Òµ,Ò²¿ÉÒÔÊÇ
ÓÉÒ»ÏµÁÐÈÎÎñ¹¹³ÉµÄÒ»¸öÓÐÏòÎÞ»·Í¼(DirectedAcyclicGraph,DAG)±í´ïµÄ×÷Òµ,ÆäÖÐ
DAGÄÜ¹»±í´ï¸ü¼Ó¸´ÔÓµÄÊý¾Ý´¦ÀíÁ÷³Ì¡£


Í¼30´óÊý¾Ý´¦Àí¿ò¼ÜÀïµÄMa

-12 
Hadop2.pReduce 

Í¨¹ý°Ñ×ÊÔ´¹ÜÀí¹¦ÄÜµ¥¶À»®·Ö³öÀ´,ÓÉResourceManager½øÐÐ¹ÜÀí,MapReduceÔÚ
0ÖÐ½öÐèÒªÍê³ÉÆäÉÃ³¤µÄ¹¤×÷,¼´ÅúÁ¿Êý¾Ý´¦Àí¡£ÓÚÊÇ,ÔÚHad0Ö®ÉÏ¿É

Hadoop2.oop2.
ÒÔÔËÐÐÆäËûÀàÐÍµÄÓ¦ÓÃ,ËüÃÇÊ¹ÓÃµÄÊÇÍ¬Ò»¸ö×ÊÔ´¹ÜÀíÄ£¿é¡£

Í¼3-13Õ¹Ê¾ÁËHadop20µÄÖ÷Òª×é¼þ¼°Æä¹ØÏµ¡£ÔÚÐÂµÄ¼Ü¹¹Àï,°üº¬ResourceManager 
ºÍNodeManagerÁ½¸öÖØÒª(.) µÄ×é¼þ¡£ResourceManagerÔËÐÐÔÚMaster½ÚµãÉÏ, 
NodeManagerÔËÐÐÔÚSlave½ÚµãÉÏ,Ò»Æð¸ºÔð·Ö²¼Ê½Ó¦ÓÃ³ÌÐòµÄµ÷¶ÈºÍÔËÐÐ¡£ÔÚHadoop

0Æ½Ì¨ÉÏ,Ó¦ÓÃ³ÌÐò°üÀ¨MapRe×÷Òµ¡¢Hie²éÑ¯¡¢g½Å±¾¼°Giph²éÑ¯µÈ¡£2.educvPira


Í¼30×é¼þ¼°Æä¹ØÏµ

-13 
Hadop2.


µÚ3ÕÂHadoopÈëÃÅ43ResourceManagerÊÇÎªÓ¦ÓÃ³ÌÐò·ÖÅä×ÊÔ´µÄ×î¸ßÈ¨Íþ¡£ResourceManager°üº¬Á½¸ö
×é¼þ,¼´SchedulerºÍApplicationManager¡£
Scheduler¸ºÔðÎªÓ¦ÓÃ³ÌÐò·ÖÅä×ÊÔ´,Ëü¸ù¾ÝÓ¦ÓÃ³ÌÐòµÄ×ÊÔ´ÐèÇó¼°Ò»Ð©ÏÞÖÆÌõ¼þ, 
°üÀ¨¸÷¸öÓÃ»§µÄÏÞ¶îµÈ,Íê³É×ÊÔ´µÄ·ÖÅäºÍµ÷¶È¡£SchedulerÊ¹ÓÃ×ÊÔ´ÈÝÆ÷(Container) 
µÄ¸ÅÄî,°ÑCPU¡¢ÄÚ´æ¡¢´ÅÅÌ¡¢ÍøÂç´ø¿íµÈ×ÊÔ´ÕûºÏÆðÀ´¡£
ApplicationManager½ÓÊÕ¿Í»§¶ËÓ¦ÓÃ³ÌÐòÌá½»µÄ×÷Òµ,ÏòSchedulerÎª¸ÃÓ¦ÓÃ³ÌÐò
ÉêÇëµÚÒ»¸öÈÝÆ÷,ÔËÐÐÕë¶ÔÕâ¸öÓ¦ÓÃ³ÌÐòµÄApplicationMaster,ÓÃÓÚÖ´ÐÐÌá½»µÄ×÷Òµ(Ó¦
ÓÃ³ÌÐò),²¢ÇÒÔÚ·¢ÉúÊ§°ÜµÄÇé¿öÏÂ,ÖØÐÂÆô¶¯Õâ¸öÓ¦ÓÃ³ÌÐòµÄApplicationMaster¡£
ApplicationMaster´ÓSchedulerÎªÓ¦ÓÃ³ÌÐòÉêÇë×ÊÔ´,ºÍNodeManagerÒ»µÀ,ÔÚ·Ö²¼Ê½
»·¾³ÏÂÖ´ÐÐÓ¦ÓÃ³ÌÐò,²¢×·×ÙÆä×´Ì¬¡¢¼à¿Ø×÷ÒµµÄ½øÕ¹Çé¿ö¡£Ö´ÐÐÓ¦ÓÃ³ÌÐòÊ±, 
ApplicationMaster¼àÊÓÈÝÆ÷Ö±µ½ÆäÍê³É¡£µ±Ó¦ÓÃ³ÌÐòÍê³ÉÊ±,ApplicationMaster´Ó
ResourceManager×¢ÏúÆäÈÝÆ÷,Ö´ÐÐÖÜÆÚÍê³É¡£
NodeManagerÔËÐÐÔÚSlave½ÚµãÉÏ,ËüÎªÓ¦ÓÃ³ÌÐòÆô¶¯ÈÝÆ÷,¼à¿ØÆä×ÊÔ´Ê¹ÓÃÇé¿ö(°üÀ¨
CPU¡¢ÄÚ´æ¡¢´ÅÅÌ¡¢ÍøÂç´ø¿íµÄÊ¹ÓÃÇé¿ö),²¢ÇÒ°ÑÕâÐ©ÐÅÏ¢±¨¸æ¸øResourceManager¡£
×÷ÒµµÄµ÷¶È¹ý³ÌÈçÍ¼3-14ËùÊ¾¡£
Í¼30µÄ×÷Òµµ÷¶È

-14 
Hadop2.

3.4 
YARN 
µÄÓÅÊÆ
5.
Ïà¶ÔÓÚHadoo0,Hado0(YARN)¾ßÓÐÈçÏÂÖ÷ÒªÓÅÊÆ¡£

p1.op2.

(1)À©Õ¹ÐÔ:ResourceManagerµÄÖ÷Òª¹¦ÄÜÊÇ×ÊÔ´µÄµ÷¶È¹¤×÷¡£ËùÒÔËüÄÜ¹»ÇáËÉµØ
¹ÜÀí¸ü´ó¹æÄ£µÄ¼¯ÈºÏµÍ³,ÊÊÓ¦ÁËÊý¾ÝÁ¿Ôö³¤¶ÔÊý¾ÝÖÐÐÄµÄÀ©Õ¹ÐÔÌá³öµÄÌôÕ½¡£
(2)¸ü¸ßµÄ¼¯ÈºÊ¹ÓÃÐ§ÂÊ:ResourceManagerÊÇÒ»¸öµ¥´¿µÄ×ÊÔ´¹ÜÀíÆ÷,Ëü¸ù¾Ý×ÊÔ´

44HadoopÓëSparkÈëÃÅ
Ô¤ÁôÒªÇó¡¢¹«Æ½ÐÔ¡¢·þÎñµÈ¼¶Ð­¶¨(ServiceLevelAgreement,SLA)µÈ±ê×¼,ÓÅ»¯Õû¸ö¼¯Èº
µÄ×ÊÔ´,Ê¹Ö®µÃµ½ºÜºÃµÄÀûÓÃ¡£
(3)¼æÈÝHadoop1.0:ÔÚHadoop1.0Æ½Ì¨ÉÏ¿ª·¢µÄMapReduceÓ¦ÓÃ³ÌÐò,ÎÞÐëÐÞ
¸Ä,¿ÉÒÔÖ±½ÓÔÚYARNÉÏÔËÐÐ¡£
(4)Ö§³Ö¸ü¶àµÄ¸ºÔØÀàÐÍ:µ±Êý¾Ý´æ´¢µ½HDFSÒÔºó,ÓÃ»§Ï£ÍûÄÜ¹»¶ÔÊý¾ÝÒÔ²»Í¬
µÄ·½Ê½½øÐÐ´¦Àí¡£³ýÁËMapReduceÓ¦ÓÃ³ÌÐò(Ö÷Òª¶ÔÊý¾Ý½øÐÐÅú´¦Àí),YARNÖ§³Ö¸ü
¶àµÄ±à³ÌÄ£ÐÍ(Ó¦ÓÃÀàÐÍ),°üÀ¨Í¼Êý¾Ý´¦Àí¡¢µü´úÊ½´¦Àí¡¢Á÷Êý¾Ý´¦Àí¡¢½»»¥Ê½²éÑ¯µÈ,Èç
Í¼3-15ËùÊ¾¡£Ò»°ãÀ´½²,»úÆ÷Ñ§Ï°Ëã·¨ÐèÒªÔÚÊý¾Ý¼¯ÉÏ¾­¹ý¶à´Îµü´ú²ÅÄÜ»ñµÃ×îÖÕµÄ¼Æ
Ëã½á¹û¡£
Í¼3-15Hadoop2.0Ö§³Ö¸ü¶àµÄ±à³ÌÄ£ÐÍ
(5)Áé»îÐÔ:MapReduceµÈ¼ÆËãÄ£ÐÍ¿ÉÒÔ¶ÀÁ¢ÓÚ×ÊÔ´¹ÜÀí²ã,µ¥¶ÀÑÝ»¯ºÍ¸Ä½ø¡£Ê¹
µÃÏµÍ³¸÷¸ö²¿¼þµÄÑÝ½øºÍÅäºÏ¸ü¼Ó¾ßÓÐÁé»îÐÔ¡£
..3.6 
Ë¼¿¼Ìâ

1.¼òÊöHDFSµÄÔ­Àí¼°Æä¶ÁÐ´¹ý³Ì¡£
2.¼òÊöMapReduceÖ´ÐÐÒýÇæJobTrackerÓëTaskTrackerµÄ¹¦ÄÜ¡£
3.¼òÊöMapReduce¼ÆËãÄ£ÐÍÓëÊµÀý¡£
4.¼òÊöHadoopµÄÓ¦ÓÃ¡£
5.¼òÊöHadoopµÄÉúÌ¬ÏµÍ³
¡£
6.Hadoop1.oop2.YARN)
0µÄ¾ÖÏÞÓëHad0(µÄÔ­ÀíÊÇÊ²Ã´
?
7.Hadoop2.


0µÄÖ÷ÒªÓÅÊÆÓÐÄÄÐ©?