¡¶´ó¹æÄ£ÓïÑÔÄ£ÐÍ£º´ÓÀíÂÛµ½Êµ¼ù¡·-LLM¼¯ÈºÑµÁ·ÔÄ¶Á·ÖÏí

ljg2np ·¢±íÓÚ 2025-1-4 23:38

<div class='showpostmsg'><div>        ±¾ÎÄ·ÖÏí¶ÔÊéÖÐµÚ4ÕÂ“·Ö²¼Ê½ÑµÁ·”µÄÔÄ¶ÁÀí½â£¬½éÉÜLLM¼¯ÈºÑµÁ·µÄÏà¹ØÀíÂÛºÍÊµ¼ùÄÚÈÝ¡£</div>

<div>Ò»¡¢ÒýÑÔ</div>

<div>        LLMµÄÖ÷Òª³É¹ûºÍ¼¼ÊõºËÐÄÊÇÔ¤ÑµÁ·Ä£ÐÍ£¬ËüÊÇLLM·¢Õ¹µÄÆ½Ì¨ºÍÖ§³Å¡£Ô¤ÑµÁ·Ä£ÐÍµÄÊµÏÖ£¬Ö÷Òª°üÀ¨Ô¤ÑµÁ·Êý¾Ý¼¯ºÍ¼¯ÈºÑµÁ·Á½²¿·Ö£¬Ç°ÎÄ½éÉÜÁËÔ¤ÑµÁ·Êý¾Ý¼¯£¬ÏÂÃæ½éÉÜ¼¯ÈºÑµÁ·µÄÏà¹ØÄÚÈÝ¡£</div>

<div>¶þ¡¢¼¯ÈºÑµÁ·</div>

<div>        LLMÔ¤ÑµÁ·¶ÔËãÁ¦ºÍÄÚ´æ×ÊÔ´ÐèÇóÅÓ´ó£¬Ä¿Ç°Ö÷ÒªÍ¨¹ýÉè¼Æ·Ö²¼Ê½ÑµÁ·ÏµÍ³À´ÊµÏÖ£¬Éæ¼°¼¯Èº¼Ü¹¹¡¢²¢ÐÐ²ßÂÔ¡¢Ä£ÐÍ¼Ü¹¹¡¢ÄÚ´æÓÅ»¯¡¢¼ÆËãÓÅ»¯µÈ¼¼Êõ¡£</div>

<div>1¡¢·Ö²¼Ê½ÑµÁ·</div>

<div>        ·Ö²¼Ê½ÑµÁ·£¨Distributed Training£©Ö¸½«»úÆ÷Ñ§Ï°»òÉî¶ÈÑ§Ï°Ä£ÐÍÑµÁ·ÈÎÎñ·Ö½â³É¶à¸ö×ÓÈÎÎñ£¬²¢ÔÚ¶à¸ö¼ÆËãÉè±¸ÉÏ²¢ÐÐµØ½øÐÐÑµÁ·¡£</div>

<div>        ÓÉÓÚÍ¬Ò»¸ö·þÎñÆ÷ÄÚ²¿µÄ¶à¸ö¼ÆËãÉè±¸Ö®¼äÄÚ´æÒ²¿ÉÄÜ²¢²»¹²Ïí£¬Òò´ËÎÞÂÛÕâÐ©¼ÆËãÉè±¸ÊÇ·ñ´¦ÓÚÒ»¸ö·þÎñÆ÷»¹ÊÇ¶à¸ö·þÎñÆ÷ÖÐ£¬ÆäÏµÍ³¼Ü¹¹¶¼ÊôÓÚ·Ö²¼Ê½ÏµÍ³·¶³ë¡£</div>

<div>        </div>

<div>        ÉÏÍ¼¸ø³öÁËµ¥¸ö¼ÆËãÉè±¸ºÍ¶à¸ö¼ÆËãÉè±¸µÄÊ¾Àý£¬ÕâÀï¼ÆËãÉè±¸¿ÉÒÔÊÇÖÐÑë´¦ÀíÆ÷£¨CPU£©¡¢Í¼ÐÎ´¦ÀíÆ÷£¨GPU£©¡¢ÕÅÁ¿´¦ÀíÆ÷£¨TPU£©»òÉñ¾ÍøÂç´¦ÀíÆ÷£¨NPU£©¡£</div>

<div>        ·Ö²¼Ê½ÑµÁ·µÄ×ÜÌåÄ¿±êÊÇÌáÉý×ÜµÄÑµÁ·ËÙ¶È£¬¼õÉÙÄ£ÐÍÑµÁ·µÄ×ÜÌåÊ±¼ä¡£×ÜÑµÁ·ËÙ¶È°´ÏÂÊ½¹À¼Æ£º</div>

<div>        </div>

<div>        µ¥Éè±¸¼ÆËãËÙ¶ÈÓÉµ¥¿é¼ÆËã¼ÓËÙÐ¾Æ¬µÄÔËËãËÙ¶ÈºÍÊý¾ÝI/OÄÜÁ¦¾ö¶¨¡£</div>

<div>2¡¢²¢ÐÐ²ßÂÔ</div>

<div>        µ¥¸ö¼ÆËãÉè±¸Ä£ÐÍÑµÁ·ÏµÍ³µÄÁ÷³ÌÈçÏÂÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>        ´ÓÊý¾ÝºÍÄ£ÐÍÁ½·½Ãæ×ÅÊÖ¿¼ÂÇ²¢ÐÐ¼ÓËÙ²ßÂÔ£¬°üÀ¨Êý¾Ý²¢ÐÐ¡¢Ä£ÐÍ²¢ÐÐ¡¢»ìºÏ²¢ÐÐ£¬Éè±¸ÄÚ´æÓÅ»¯¡£</div>

<div>        £¨1£©Êý¾Ý²¢ÐÐ</div>

<div>        ¶ÔÊý¾Ý½øÐÐÇÐ·Ö£¬½«Í¬Ò»Ä£ÐÍ¸´ÖÆµ½¶à¸öÉè±¸ÉÏ£¬²¢ÐÐÖ´ÐÐ²»Í¬µÄÊý¾Ý·ÖÆ¬¡£</div>

<div>        </div>

<div>        £¨2£©Ä£ÐÍ²¢ÐÐ</div>

<div>        ¶ÔÄ£ÐÍ»®·Ö£¬½«Ä£ÐÍÖÐµÄËã×Ó·Ö·¢µ½¶à¸öÉè±¸ÉÏ·Ö±ðÍê³É´¦Àí¡£</div>

<div>        </div>

<div>        Ä£ÐÍ²¢ÐÐ°´ÕÕ²ã¼äÔËÐÐºÍ²ãÄÚÔËÐÐ·½Ê½µÄ²»Í¬·ÖÎªÁ÷Ë®Ïß²¢ÐÐºÍÕÅÁ¿²¢ÐÐ¡£</div>

<div>        Á÷Ë®Ïß²¢ÐÐ£º</div>

<div>        Á÷Ë®Ïß²¢ÐÐ½«Ä£ÐÍµÄ¸÷¸ö²ã·Ö¶Î´¦Àí£¬½«Ã¿¸ö¶Î·Ö²¼ÔÚ²»Í¬µÄ¼ÆËãÉè±¸ÉÏ£¬Ê¹Ç°ºó¶ÎÄÜ¹»Á÷Ë®Ê½¡¢·ÖÅú¹¤×÷¡£ÕâÖÖ²¢ÐÐ¼ÆËã²ßÂÔÒª×¢ÒâÔÚÉè¼ÆÊ±¾¡Á¿±ÜÃâÁ÷Ë®ÏßÆøÅÝµ¼ÖÂ×ÊÔ´ÀûÓÃÂÊ½µµÍµÄÇé¿ö·¢Éú¡£</div>

<div>        GPipe·½·¨²ÉÓÃÁ÷Ë®Ïß²¢ÐÐ²ßÂÔÀ´ÓÐÐ§¼õÉÙ²¢ÐÐÆøÅÝ£¬ÈçÏÂÍ¼ËùÊ¾¡£</div>

<div>        </div>

<div>        Megatron-LM²ÉÓÃ1F1BÁ÷Ë®Ïß²ßÂÔ£¬Í¨¹ýÒýÈëÈÎÎñµ÷¶È»úÖÆÀ´¼õÉÙÁ÷Ë®ÏßÆøÅÝ¡£1F1B ½»´íÊ½µ÷¶ÈÄ£Ê½ÒªÇóÎ¢Åú´Î£¨Micro-batch£©µÄÊýÁ¿ÊÇÁ÷Ë®Ïß½×¶ÎµÄÕûÊý±¶¡£Ã¿¸öÉè±¸²»½ö¸ºÔðÁ¬Ðø¶à¸ö²ãµÄ¼ÆËã£¬»¹¿ÉÒÔ´¦Àí¶à¸ö²ãµÄ×Ó¼¯£¬ÕâÐ©×Ó¼¯±»³ÆÎªÄ£ÐÍ¿é¡£ÈçÏÂÍ¼ËùÊ¾£¬Éè±¸1 ¿ÉÒÔ´¦Àí²ã1¡¢2¡¢9¡¢10£¬Éè±¸2 ´¦Àí²ã3¡¢4¡¢11¡¢12£¬ÒÀ´ËÀàÍÆ¡£ÔÚÕâÖÖÄ£Ê½ÏÂ£¬Ã¿¸öÉè±¸ÔÚÁ÷Ë®ÏßÖÐ±»·ÖÅäµ½¶à¸ö½×¶Î£¬²»½öÔÚÄÚ´æÏûºÄ·½Ãæ±íÏÖ³öÉ«£¬»¹ÄÜÌá¸ß¼ÆËãÐ§ÂÊ¡£</div>

<div>        </div>

<div>        ÕÅÁ¿²¢ÐÐ£º</div>

<div>        ÕÅÁ¿²¢ÐÐÐèÒª¸ù¾ÝÄ£ÐÍµÄ¾ßÌå½á¹¹ºÍËã×ÓÀàÐÍ£¬½â¾öÈçºÎ½«²ÎÊýÇÐ·Öµ½²»Í¬Éè±¸£¬ÒÔ¼°ÈçºÎ±£Ö¤ÇÐ·ÖºóÊýÑ§Ò»ÖÂÐÔÕâÁ½¸öÎÊÌâ¡£</div>

<div>        ´óÓïÑÔÄ£ÐÍ¶¼ÊÇÒÔTransformer ½á¹¹Îª»ù´¡£¬Transformer ½á¹¹Ö÷ÒªÓÉÇ¶ÈëÊ½±íÊ¾£¨Embedding£©¡¢¾ØÕó³Ë£¨MatMul£©ºÍ½»²æìØËðÊ§£¨Cross Entropy Loss£©¼ÆËã¹¹³É¡£</div>

<div>        ÕâÈýÖÖÀàÐÍµÄËã×ÓÓÐ½Ï´óµÄ²îÒì£¬¶¼ÐèÒªÉè¼Æ¶ÔÓ¦µÄÕÅÁ¿²¢ÐÐ²ßÂÔ²Å¿ÉÒÔÊµÏÖ½«²ÎÊýÇÐ·Öµ½²»Í¬µÄÉè±¸¡£</div>

<p>        ¢ÙÇ¶Èë²ã£º¶ÔÓÚÇ¶Èë±íÊ¾²ãµÄ²ÎÊý£¬°´ÕÕ´ÊÎ¬¶ÈÇÐ·Ö£¬Ã¿¸öÉè±¸´æ´¢²¿·Ö´ÊÏòÁ¿£¬×îºóÍ¨¹ý»ã×ÜµÃµ½ÍêÕû´ÊÏòÁ¿£¬ÈçÍ¼ËùÊ¾£º</p>

<div>        </div>

<div>        ¢Ú¾ØÕó³Ë£º°´ÕÕÐÐ¡¢ÁÐÇÐ·Ö·½Ê½²»Í¬£¬Ö´ÐÐÏàÓ¦µÄ´¦ÀíÀ´±£Ö¤ÊýÑ§µÈ¼Û£¬ÈçÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>       </div>

<div>        ÆäÔÚÇ°ÏòÍøÂç²ãµÄÓ¦ÓÃ£¬ÈçÏÂÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>        ÔÚ¶àÍ·×¢ÒâÁ¦¼ÆËãÖÐµÄÓ¦ÓÃ£¬ÈçÏÂÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>        ¢Û½»²æìØËðÊ§£º</div>

<div>        ·ÖÀàÍøÂç×îºóÒ»²ãÒ»°ã»áÑ¡ÓÃSoftmax ºÍCross_entropy Ëã×ÓÀ´¼ÆËã½»²æìØËðÊ§£¨Cross Entropy Loss£©¡£Èç¹ûÀà±ðÊýÁ¿·Ç³£´ó£¬Ôò»áµ¼ÖÂµ¥¼ÆËãÉè±¸ÄÚ´æÎÞ·¨´æ´¢ºÍ¼ÆËãlogit ¾ØÕó¡£Õë¶ÔÕâÒ»ÀàËã×Ó£¬¿ÉÒÔ°´ÕÕÀà±ðÎ¬¶ÈÇÐ·Ö£¬Í¬Ê±Í¨¹ýÖÐ¼ä½á¹ûÍ¨ÐÅ£¬µÃµ½×îÖÕµÄÈ«¾Ö½»²æìØËðÊ§¡£</div>

<div>        ¼ÆËãSoftmaxÖµ£¬¹«Ê½ÈçÏÂ£º</div>

<div>        </div>

<div>ÆäÖÐ£¬p±íÊ¾ÕÅÁ¿²¢ÐÐµÄÉè±¸ºÅ¡£</div>

<div>        µÃµ½Softmax¼ÆËã½á¹ûºó£¬¶Ô±êÇ©Target°´Àà±ðÇÐ·Ö£¬Ã¿¸öÉè±¸µÃµ½²¿·ÖËðÊ§£¬×îºóÒ»´ÎÍ¨ÐÅ£¬µÃµ½ËùÓÐÀà±ðµÄËðÊ§¡£Õû¸ö¹ý³ÌÐèÒªÈý´ÎÐ¡Á¿µÄÍ¨ÐÅ£¬¾Í¿ÉÒÔÍê³É½»²æìØµÄ¼ÆËã¡£</div>

<div>        £¨3£©»ìºÏ²¢ÐÐ</div>

<div>        ¶ÔÊý¾ÝºÍÄ£ÐÍÍ¬Ê±½øÐÐÇÐ·ÖÊµÏÖ¸ü¸ß³Ì¶ÈµÄ²¢ÐÐ£¬¼´½«¶àÖÖ²¢ÐÐ²ßÂÔÈçÊý¾Ý²¢ÐÐ¡¢Á÷Ë®Ïß²¢ÐÐºÍÕÅÁ¿²¢ÐÐµÈ»ìºÏÊ¹ÓÃ¡£</div>

<div>        Í¨¹ý½áºÏ²»Í¬µÄ²¢ÐÐ²ßÂÔ£¬»ìºÏ²¢ÐÐ¿ÉÒÔ³ä·Ö·¢»Ó¸÷ÖÖ²¢ÐÐ²ßÂÔµÄÓÅµã£¬×î´ó³Ì¶ÈµØÌá¸ß¼ÆËãÐÔÄÜºÍÐ§ÂÊ¡£</div>

<div>        BLOOM Ä£ÐÍÊ¹ÓÃMegatron-DeepSpeed¿ò¼Ü½øÐÐÑµÁ·£¬Ö÷Òª°üº¬Á½¸ö²¿·Ö£ºMegatron-LMÌá¹©ÕÅÁ¿²¢ÐÐÄÜÁ¦ºÍÊý¾Ý¼ÓÔØÔÓï£»DeepSpeedÌá¹©ZeRO ÓÅ»¯Æ÷¡¢Ä£ÐÍÁ÷Ë®Ïß¼°³£¹æµÄ·Ö²¼Ê½ÑµÁ·×é¼þ¡£Í¨¹ýÕâÖÖ·½Ê½¿ÉÒÔÊµÏÖÊý¾Ý¡¢ÕÅÁ¿ºÍÁ÷Ë®ÏßÈýÎ¬²¢ÐÐ¡£ÏÂÍ¼ÊÇBLOOMÄ£ÐÍÑµÁ·Ê±²ÉÓÃµÄ²¢ÐÐ¼ÆËã½á¹¹£º</div>

<div>        </div>

<div>        £¨4£©¼ÆËãÉè±¸ÄÚ´æÓÅ»¯</div>

<div>        ´óÓïÑÔÄ£ÐÍÑµÁ·Í¨³£²ÉÓÃAdamÓÅ»¯Ëã·¨£¬³ýÁËÐèÒªÃ¿¸ö²ÎÊýÌÝ¶È£¬»¹ÐèÒªÒ»½×¶¯Á¿£¨Momentum£©ºÍ¶þ½×¶¯Á¿£¨Variance£©¡£ËäÈ»Adam ÓÅ»¯Ëã·¨Ïà½ÏSGD Ëã·¨Ð§¹û¸üºÃÒ²¸üÎÈ¶¨£¬µ«ÊÇ¶Ô¼ÆËãÉè±¸ÄÚ´æµÄÕ¼ÓÃÏÔÖøÔö´ó¡£ÎªÁË½µµÍÄÚ´æÕ¼ÓÃ£¬´ó¶àÊýÏµÍ³²ÉÓÃÁË»ìºÏ¾«¶ÈÑµÁ··½Ê½£¬¼´Í¬Ê±´æÔÚFP16£¨16 Î»¸¡µãÊý£©»òÕß BF16£¨Bfloat16£©ºÍFP32£¨32 Î»¸¡µãÊý£©Á½ÖÖ¸ñÊ½µÄÊýÖµ¡£</div>

<div>        </div>

<div>        »ìºÏ¾«¶ÈÓÅ»¯µÄ¹ý³ÌÈçÏÂÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>3¡¢¼¯Èº¼Ü¹¹</div>

<div>        °üÀ¨²ÎÊý·þÎñÆ÷¼Ü¹¹ºÍÈ¥ÖÐÐÄ»¯¼Ü¹¹¡£</div>

<div>        £¨1£©²ÎÊý·þÎñÆ÷£¨Parameter Server£¬PS£©¼Ü¹¹µÄ·Ö²¼Ê½ÑµÁ·ÏµÍ³ÖÐÓÐÁ½ÖÖ·þÎñÆ÷½ÇÉ«£ºÑµÁ··þÎñÆ÷ºÍ²ÎÊý·þÎñÆ÷¡£</div>

<div>        £¨2£©È¥ÖÐÐÄ»¯£¨Decentralized Network£©¼Ü¹¹²ÉÓÃ¼¯ºÏÍ¨ÐÅÊµÏÖ·Ö²¼Ê½ÑµÁ·ÏµÍ³¡£</div>

<div>        ÔÚÈ¥ÖÐÐÄ»¯¼Ü¹¹ÖÐ£¬Ã»ÓÐÖÐÑë·þÎñÆ÷»ò¿ØÖÆ½Úµã£¬¶øÊÇÓÉ½ÚµãÖ®¼ä½øÐÐÖ±½ÓÍ¨ÐÅºÍÐµ÷¡£ÕâÖÖ¼Ü¹¹µÄºÃ´¦ÊÇ¿ÉÒÔ¼õÉÙÍ¨ÐÅÆ¿¾±£¬Ìá¸ßÏµÍ³µÄ¿ÉÀ©Õ¹ÐÔ¡£</div>

<div>        ÊéÖÐ½éÉÜµÄ´óÓïÑÔÄ£ÐÍÑµÁ·ËùÊ¹ÓÃµÄ·Ö²¼Ê½ÑµÁ·²¢ÐÐ²ßÂÔ£¬´ó¶¼ÊÇÊ¹ÓÃÈ¥ÖÐÐÄ»¯¼Ü¹¹£¬²¢ÀûÓÃ¼¯ºÏÍ¨ÐÅ½øÐÐÊµÏÖ¡£</div>

<div>        ÔÚ·Ö²¼Ê½ÑµÁ·¹ý³ÌÖÐ£¬½ÚµãÖ®¼äÐèÒªÖÜÆÚÐÔµØ½»»»²ÎÊý¸üÐÂºÍÌÝ¶ÈÐÅÏ¢¡£¿ÉÒÔÍ¨¹ý¼¯ºÏÍ¨ÐÅ£¨Collective Communication£¬CC£©¼¼ÊõÊµÏÖ£¬³£ÓÃÍ¨ÐÅÔÓï°üÀ¨Broadcast¡¢Scatter¡¢Reduce¡¢All Reduce¡¢Gather¡¢All Gather¡¢Reduce Scatter¡¢All to All µÈ¡£</div>

<div>Èý¡¢DeepSpeedÊµ¼ù</div>

<div>        ·Ö²¼Ê½¿ò¼ÜDeepSpeed¡¢Megatron-LM¡¢Colossal-AI¶¼¿ÉÒÔÆ¥ÅäÖ§³ÖHuggingFace transformers£¬ÊéÖÐÒÔDeepSpeedÎªÀý½øÐÐÁËÊµ¼ù½²½â¡£</div>

<div>        DeepSpeedÊÇMicrosoft ¹«Ë¾¿ª·¢µÄ¿ªÔ´Éî¶ÈÑ§Ï°ÓÅ»¯¿â£¬Ö¼ÔÚÌá¸ß´óÓïÑÔÄ£ÐÍÑµÁ·µÄÐ§ÂÊºÍ¿ÉÀ©Õ¹ÐÔ£¬Ê¹ÑÐ¾¿ÈËÔ±ºÍ¹¤³ÌÊ¦ÄÜ¹»¸ü¿ìµØµü´úºÍÌ½Ë÷ÐÂµÄÉî¶ÈÑ§Ï°Ä£ÐÍºÍËã·¨¡£Ëü²ÉÓÃÁË¶àÖÖ¼¼ÊõÊÖ¶ÎÀ´¼ÓËÙÑµÁ·£¬°üÀ¨Ä£ÐÍ²¢ÐÐ»¯¡¢ÌÝ¶ÈÀÛ»ý¡¢¶¯Ì¬¾«¶ÈËõ·Å¡¢±¾µØÄ£Ê½»ìºÏ¾«¶ÈµÈ¡£</div>

<div>        ´ËÍâ£¬DeepSpeed »¹Ìá¹©ÁËÒ»Ð©¸¨Öú¹¤¾ß£¬ÀýÈç·Ö²¼Ê½ÑµÁ·¹ÜÀí¡¢ÄÚ´æÓÅ»¯ºÍÄ£ÐÍÑ¹Ëõ£¬ÒÔ°ïÖú¿ª·¢Õß¸üºÃµØ¹ÜÀíºÍÓÅ»¯´ó¹æÄ£Éî¶ÈÑ§Ï°ÑµÁ·ÈÎÎñ¡£</div>

<div>        DeepSpeed¿ÉÒÔÊµÏÖÈýÖÖ²¢ÐÐ·½·¨£¨ZeROÖ§³ÖµÄÊý¾Ý²¢ÐÐ¡¢Á÷Ë®Ïß²¢ÐÐºÍÕÅÁ¿²¢ÐÐ£©µÄÁé»î×éºÏÀ´Ó¦¶Ô²»Í¬¹¤×÷¸ºÔØµÄÐèÇó¡£</div>

<div>        DeepSpeed »ùÓÚPyTorch ¹¹½¨£¬½«PyTorch ÑµÁ·´úÂëÇ¨ÒÆµ½DeepSpeed ÉÏÍ¨³£½öÐè¼òµ¥ÐÞ¸Ä£¬ÕâÊ¹¿ª·¢Õß¿ÉÒÔ¿ìËÙÀûÓÃDeepSpeed µÄÓÅ»¯¹¦ÄÜÀ´¼ÓËÙÑµÁ·ÈÎÎñ¡£</div>

<div>        DeepSpeed µÄ·Ö²¼Ê½¼ÆËã¿ò¼Ü£¬Ö÷Òª°üÀ¨API½Ó¿Ú¡¢RunTimeÔËÐÐ¿Õ¼äºÍOpsÄÚºËÈý¸ö²¿·Ö£¬ÈçÏÂÍ¼ËùÊ¾£º</div>

<div>        </div>

<div>        ¼¸¸öÖØÒªµÄ»ù´¡¸ÅÄî£º</div>

<div>        £¨1£©Ö÷½Úµã£¨master_ip+master_port£©¸ºÔðÐµ÷ËùÓÐÆäËû½ÚµãºÍ½ø³ÌµÄ¹¤×÷£¬ÓÉÖ÷½ÚµãËùÔÚ·þÎñÆ÷µÄIP µØÖ·ºÍÖ÷½Úµã½ø³ÌµÄ¶Ë¿ÚºÅÀ´È·¶¨Ö÷½Úµã¡£Ö÷½Úµã»¹¸ºÔð¼à¿ØÏµÍ³×´Ì¬¡¢´¦ÀíÈÎÎñ·ÖÅä¡¢½á¹û»ã×ÜµÈÈÎÎñ£¬Òò´ËÊÇÕû¸öÏµÍ³µÄ¹Ø¼ü²¿·Ö¡£</div>

<div>        £¨2£©½Úµã±àºÅ£¨node_rank£©ÊÇÏµÍ³ÖÐÃ¿¸ö½ÚµãµÄÎ¨Ò»±êÊ¶·û£¬ÓÃÓÚÇø·Ö²»Í¬¼ÆËã»úÖ®¼äµÄÍ¨ÐÅ¡£</div>

<div>        £¨3£©È«¾Ö½ø³Ì±àºÅ£¨rank£©ÊÇÕû¸öÏµÍ³ÖÐµÄÃ¿¸ö½ø³ÌµÄÎ¨Ò»±êÊ¶·û£¬ÓÃÓÚÇø·Ö²»Í¬½ø³ÌÖ®¼äµÄÍ¨ÐÅ¡£</div>

<div>        £¨4£©¾Ö²¿½ø³Ì±àºÅ£¨local_rank£©ÊÇµ¥¸ö½ÚµãÄÚµÄÃ¿¸ö½ø³ÌµÄÎ¨Ò»±êÊ¶·û£¬ÓÃÓÚÇø·ÖÍ¬Ò»½ÚµãÄÚµÄ²»Í¬½ø³ÌÖ®¼äµÄÍ¨ÐÅ¡£</div>

<div>        £¨5£©È«¾Ö×Ü½ø³ÌÊý£¨world_size£©ÊÇÕû¸öÏµÍ³ÖÐÔËÐÐµÄËùÓÐ½ø³ÌµÄ×ÜÊý£¬ÓÃÓÚÈ·¶¨¿ÉÒÔ²¢ÐÐÍê³É¶àÉÙ¹¤×÷¼°Íê³ÉÈÎÎñËùÐèµÄ×ÊÔ´ÊýÁ¿¡£</div>

<div>        ÔÚÍøÂçÍ¨ÐÅ²ßÂÔ·½Ãæ£¬DeepSpeed Ìá¹©ÁËMPI¡¢GLOO¡¢NCCL µÈÑ¡Ïî£¬¿ÉÒÔ¸ù¾Ý¾ßÌåÇé¿ö½øÐÐÑ¡ÔñºÍÅäÖÃ¡£</div>

<div>        DeepSpeed Ö§³Ö¶àÖÖÀàÐÍZeRO µÄ·ÖÆ¬»úÖÆ£¬°üÀ¨ZeRO-0¡¢ZeRO-1¡¢ZeRO-2¡¢ZeRO-3ÒÔ¼°ZeRO-Infinity£¬ÆäÖÐZeRO-InfinityÔÊÐíÍ¨¹ýÊ¹ÓÃNVMe¹ÌÌ¬Ó²ÅÌÀ©Õ¹GPUºÍCPUÄÚ´æÀ´ÑµÁ·LLM£¬¼«´ó³Ì¶ÈÉÏ½µµÍÁËÑµÁ·ÃÅ¼÷¡£</div>

<div>        Í¨ÐÅ²ßÂÔºÍ·ÖÆ¬»úÖÆÔÚDeepSpeedÅäÖÃÎÄ¼þÖÐµÄoptimizer²¿·Ö½øÐÐÅäÖÃ¡£</div>

<div>        ÊéÖÐ½²½âÁËÊ¹ÓÃDeepSpeed¿ò¼ÜÑµÁ·LLaMAÄ£ÐÍµÄ»ù±¾¹ý³Ì£¨¸½ÓÐ´úÂë£©£º</div>

<p>        £¨1£©ÑµÁ·Êý¾ÝÅäÖÃ<br />
        Ê¹ÓÃPyTorch ºÍtransformers ¿âÀ´ÉèÖÃÔ¤ÑµÁ·Ä£ÐÍµÄÊý¾Ý¼ÓÔØÆ÷£¬ÒÔÊµÏÖÔÚµ¥»ú»ò¶à»ú·Ö²¼Ê½ÑµÁ·»·¾³ÖÐ¶ÔÊý¾ÝµÄ¼ÓÔØºÍ²ÉÑù¡£<br />
        args.local_rankÎª-1Ê±£¬½øÐÐµ¥»ú²ÉÑù£»ÆäËüÖµ£¬Ôò½øÐÐ·Ö²¼Ê½²ÉÑù¡£</p>

<p>        £¨2£©Ä£ÐÍÔØÈë<br />
        Ê¹ÓÃtransformers ¿â¼ÓÔØºÍÅäÖÃLLaMA Ä£ÐÍ¼°ÆäÏà¹ØµÄ·Ö´ÊÆ÷¡£´Ótransformers ¿âÖÐµ¼ÈëLLaMAÄ£ÐÍ¡¢ÏàÓ¦µÄ·Ö´ÊÆ÷ºÍÄ£ÐÍÅäÖÃºó£¬Ê¹ÓÃfrom_pretrained ·½·¨¼ÓÔØÔ¤ÑµÁ·µÄLLaMA Ä£ÐÍ¡¢·Ö´ÊÆ÷ºÍÅäÖÃ¡£</p>

<p>        £¨3£©ÓÅ»¯Æ÷ÉèÖÃ<br />
        DeepSpeed ¿âÌá¹©ÁË¸ßÐ§µÄÓÅ»¯Æ÷Ëã·¨£¬ÈçDeepSpeedCPUAdam ºÍFusedAdam£¬ÕâÐ©Ëã·¨¾¹ýÌØÊâÓÅ»¯ÒÔÌá¸ßÔÚ´ó¹æÄ£Êý¾ÝºÍÄ£ÐÍÉÏµÄÑµÁ·ËÙ¶È¡£</p>

<p>        £¨4£©DeepSpeed ÉèÖÃ<br />
        ÑµÁ·ÅäÖÃº¯Êýget_train_ds_config Ö÷Òª°üÀ¨£ºZeROÓÅ»¯ÅäÖÃ¡¢»ìºÏ¾«¶ÈÑµÁ·¡¢ÌÝ¶È²Ã¼ô¡¢»ìºÏÒýÇæÅäÖÃ¡¢TensorBoardÅäÖÃ¡¢ÑéÖ¤¼¯ÅäÖÃº¯Êý¡£</p>

<p>        £¨5£©DeepSpeed³õÊ¼»¯<br />
        °´ÕÕ³õÊ¼»¯Á÷³Ì½øÐÐÄ£ÐÍÑµÁ·µÄ³õÊ¼»¯¡£</p>

<p>        £¨6£©Ä£ÐÍÑµÁ·</p>

<div>        ½èÖúDeepSpeed ¿ò¼ÜÊµÏÖ¶ÔÄ£ÐÍµÄÑµÁ·£¬ÑµÁ·²½Öè·ÖÎªÒÔÏÂ¼¸¸ö½×¶Î£º</div>

<div>        ¢ÙÑµÁ·Ç°×¼±¸£ºÊ¹ÓÃprint_rank_0 º¯ÊýÊä³öµ±Ç°µÄÑµÁ·×´Ì¬£¬ÔÚÑµÁ·Ç°¶ÔÄ£ÐÍ½øÐÐÒ»´ÎÆÀ¹À£¬¼ÆËãÄ£ÐÍµÄÀ§»ó¶È¡£</div>

<div>        ¢ÚÑµÁ·Ñ»·£ºÃ¿¸öÖÜÆÚµÄ¿ªÊ¼£¬´òÓ¡µ±Ç°ÖÜÆÚºÍ×ÜÖÜÆÚÊý¡£ÔÚÃ¿´Îµü´úÖÐ£¬Êý¾ÝÅú´Î±»ÒÆ¶¯µ½ÏàÓ¦µÄGPU Éè±¸£¬È»ºó¶ÔÕâ¸öÅú´Î½øÐÐÇ°Ïò´«²¥¼ÆËãËðÊ§¡£Ê¹ÓÃmodel.backward(loss)¼ÆËãÌÝ¶È£¬²¢Ê¹ÓÃmodel.step() ¸üÐÂÄ£ÐÍ²ÎÊý¡£¶ÔÓÚÖ÷½ø³Ì£¬Ê¹ÓÃprint_throughput º¯Êý´òÓ¡ÍÌÍÂÁ¿£¬ÒÔÁË½âÄ£ÐÍµÄÑµÁ·ËÙ¶ÈºÍÐ§ÂÊ¡£</div>

<div>        ¢Û±£´æÄ£ÐÍ£ºÈç¹ûÖ¸¶¨ÁËÊä³öÄ¿Â¼£¬Ä£ÐÍµÄ×´Ì¬ºÍÅäÖÃ½«»á±»±£´æ¡£Ä£ÐÍ¿ÉÒÔ±£´æÎª²»Í¬µÄ¸ñÊ½£¬ÀýÈçHuggingFace ¸ñÊ½»òDeepSpeed µÄZero Stage 3 ÌØ¶¨¸ñÊ½¡£</div>

<div>        ÏÂÃæÊÇ²¿·ÖµÄÑµÁ·´úÂë£º</div>

<div>
<pre>
<code class="language-python">#Ä£ÐÍÑµÁ·²¿·Ö
print_rank_0(¡°***** Running training *****¡±, args.global_rank)
print_rank_0(
f¡°***** Evaluating perplexity , \
Epoch {0}/{args.num_train_epochs} *****¡±,
args.global_rank)
perplexity=evaluation(model, eval_dataloader)
print_rank_0(f¡°ppl: {perplexity}¡±,args.global_rank)

for epoch in range(args.num_train_epochs):
print_rank_0(
f¡°Beginning of Epoch {epoch+1}/{args.num_train_epochs},\
Total Micro Batches {len(train_dataloader)}¡±,
args.global_rank)
model.train()
import time
for step,batch in enumerate(train_dataloader):
start=time.time ()
batch=to_device(batch,device)
outputs=model(**batch,use_cache=False)
loss=outputs.loss
if args.print_loss:
print(
f¡°Epoch: {epoch}, Step: {step}, \
Rank: {torch.distributed.get_rank()}, loss={loss}¡±
)
model.backward(loss)
model.step()
end=time.time()
if torch.distributed.get_rank()==0:
print_throughput(model.model, args, end-start, args.global_rank)

if args.output_dir is not None:
print_rank_0(¡®saving the final model ¡¡¯, args.global_rank)
model=convert_lora_to_linear_layer(model)

if args.global_rank==0:
save_hf_format(model,tokenizer,args)

if args.zero_stage==3:
save_zero_three_model(model,args.global_rank,args.output_dir,zero_stage=args.zero_stage)

def print_rank_0(msg,rank=0):
if rank<=0:
print(msg)

def print_throughput(hf_model,args,e2e_time,rank=0):
¡¡
def save_hf_format(model,tokenizer,args,sub_folder=¡±¡±):
¡¡
def save_zero_three_model(model_ema,global_rank,save_dir,zero_stage=0):
¡¡</code></pre>

<p>ËÄ¡¢½áÓï</p>
</div>

<div>        ·Ö²¼Ê½ÑµÁ·ÕâÒ»ÕÂÖ÷Òª½éÉÜÁË²¢ÐÐ²ßÂÔ¡¢¼¯Èº¼Ü¹¹µÈ»ù´¡ÀíÂÛ£¬Ìá³ö·Ö²¼Ê½ÑµÁ·µÄ×ÜÌåÄ¿±ê¾ÍÊÇÌáÉý×ÜµÄÑµÁ·ËÙ¶È£¬¼õÉÙÄ£ÐÍÑµÁ·µÄ×ÜÌåÊ±¼ä£¬Õë¶ÔÕâÒ»Ä¿±êÔÚÑµÁ·Éè¼ÆµÄ¸÷¸ö»·½Ú½øÐÐÇÐ·Ö¡¢Í¨ÐÅºÍ²¢ÐÐÓÅ»¯´¦Àí£¬×îºóÊ¹ÓÃDeepSpeed¶ÔLLaMAÄ£ÐÍ½øÐÐÁË·Ö²¼Ê½ÑµÁ·µÄ´úÂëÊµ¼ù¡£</div>

<p></p>
</div><script> var loginstr = '<div class="locked">²é¿´±¾ÌûÈ«²¿ÄÚÈÝ£¬Çë<a href="javascript:;" style="color:#e60000" class="loginf">µÇÂ¼</a>»òÕß<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">×¢²á</a></div>';

if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

·ç³¾Á÷É³ ·¢±íÓÚ 2025-1-6 09:40

<p>ÒÑÏÂÔØ°Ý¶ÁÁË£¬Ð»Ð»Â¥Ö÷µÄ½éÉÜºÍÍÆ¼ö¡£<img height="48" src="https://bbs.eeworld.com.cn/static/editor/plugins/hkemoji/sticker/facebook/congra.gif" width="48" /></p>

ljg2np ·¢±íÓÚ 2025-1-6 10:16

·ç³¾Á÷É³ ·¢±íÓÚ 2025-1-6 09:40
ÒÑÏÂÔØ°Ý¶ÁÁË£¬Ð»Ð»Â¥Ö÷µÄ½éÉÜºÍÍÆ¼ö¡£

<p>¹²Í¬Ñ§Ï°£¬¹²Í¬½ø²½:)</p>

heleijunjie72 ·¢±íÓÚ 2025-1-8 15:48

<p>×ÐÏ¸ÔÄ¶Á×ÊÁÏ£¬¶Ô´Ë¸Ðµ½Ê®·Ö¸ßÐË£¬ºÜÖµµÃ×ÐÏ¸ÔÄ¶Á£¬ÊÕ²ØÁË</p>

ljg2np ·¢±íÓÚ 2025-1-8 18:57

heleijunjie72 ·¢±íÓÚ 2025-1-8 15:48
×ÐÏ¸ÔÄ¶Á×ÊÁÏ£¬¶Ô´Ë¸Ðµ½Ê®·Ö¸ßÐË£¬ºÜÖµµÃ×ÐÏ¸ÔÄ¶Á£¬ÊÕ²ØÁË

<p>¿ª¾íÓÐÒæ£¬¼ÓÓÍ:)</p>

lospring ·¢±íÓÚ 2025-1-15 17:12

Ò³: [1]

µç×Ó¹¤³ÌÊÀ½ç-ÂÛÌ³'s Archiver

¡¶´ó¹æÄ£ÓïÑÔÄ£ÐÍ£º´ÓÀíÂÛµ½Êµ¼ù¡·-LLM¼¯ÈºÑµÁ·ÔÄ¶Á·ÖÏí