´ó¹æÄ£ÓïÑÔÄ£ÐÍ´ÓÀíÂÛµ½Êµ¼ùµÚÒ»ÕÂÐ÷ÂÛ

²Ë²ËÀ¯±Ê ·¢±íÓÚ 2025-1-21 00:33

#´ó¹æÄ£ÓïÑÔÄ£ÐÍ #»ù±¾¸ÅÄî #·¢Õ¹Àú³Ì #¹¹½¨Á÷³Ì #ÄÚÈÝ°²ÅÅ

´óÓïÑÔÄ£ÐÍÊÇÒ»ÖÖÓÉ°üº¬Êý°ÙÒÚ¸ö¼°ÒÔÉÏ²ÎÊýµÄÉî¶ÈÉñ¾ÍøÂç¹¹½¨µÄÓïÑÔÄ£ÐÍ£¬Í¨³£Ê¹ÓÃ×Ô   
¼à¶½Ñ§Ï°·½·¨Í¨¹ý´óÁ¿ÎÞ±ê×¢ÎÄ±¾½øÐÐÑµÁ·¡£2018ÄêÒÔÀ´, Google¡¢OpenAI¡¢Meta¡¢°Ù¶È¡¢»ª  ÎªµÈ¹«Ë¾ºÍÑÐ¾¿»ú¹¹Ïà¼Ì·¢²¼ÁËBERT¡¢GPTµÈ¶àÖÖÄ£ÐÍ£¬ÕâÐ©Ä£ÐÍÔÚ¼¸ºõËùÓÐ×ÔÈ»ÓïÑÔ´¦  ÀíÈÎÎñÖÐ¶¼±íÏÖ³öÉ«¡£2019Äê£¬´óÓïÑÔÄ£ÐÍ³ÊÏÖ±¬·¢Ê½µÄÔö³¤£¬ÌØ±ðÊÇ2022Äê11ÔÂChatGPT   
(ChatGenerativePre-trainedTransformer)µÄ·¢²¼,ÒýÆðÁËÈ«ÊÀ½çµÄ¹ã·º¹Ø×¢¡£ÓÃ»§¿ÉÒÔÊ¹ÓÃ   
×ÔÈ»ÓïÑÔÓëÏµÍ³½»»¥£¬ÊµÏÖÎÊ´ð¡¢·ÖÀà¡¢ÕªÒª¡¢·Òë¡¢ÁÄÌìµÈ´ÓÀí½âµ½Éú³ÉµÄ¸÷ÖÖÈÎÎñ¡£´óÓïÑÔÄ£ÐÍÕ¹ÏÖ³öÁËÇ¿´óµÄ¶ÔÊÀ½çÖªÊ¶µÄÕÆÎÕºÍ¶ÔÓïÑÔµÄÀí½âÄÜÁ¦¡£   
±¾ÕÂÖ÷Òª½éÉÜ´óÓïÑÔÄ£ÐÍµÄ»ù±¾¸ÅÄî¡¢·¢Õ¹Àú³ÌºÍ¹¹½¨Á÷³Ì¡£   
##  1.1 ´óÓïÑÔÄ£ÐÍµÄ»ù±¾¸ÅÄî   
Ê¹ÓÃÓïÑÔÊÇÈËÀàÓëÆäËû¶¯Îï×îÖØÒªµÄÇø±ðÖ®Ò»£¬¶øÈËÀàµÄ¶àÖÖÖÇÄÜÒ²Óë´ËÃÜÇÐÏà¹Ø£¬Âß¼Ë¼   
Î¬ÒÔÓïÑÔµÄÐÎÊ½±í´ï£¬´óÁ¿µÄÖªÊ¶Ò²ÒÔÎÄ×ÖµÄÐÎÊ½¼ÇÂ¼ºÍ´«²¥¡£Èç½ñ£¬»¥ÁªÍøÉÏÒÑ¾ÓµÓÐÊýÍòÒÚ¸öÍøÒ³µÄ×ÊÔ´£¬ÆäÖÐ´ó²¿·ÖÐÅÏ¢¶¼ÊÇÓÃ×ÔÈ»ÓïÑÔÃèÊöµÄ¡£Òò´Ë£¬Èç¹ûÈË¹¤ÖÇÄÜËã·¨ÏëÒª»ñÈ¡ÖªÊ¶£¬¾Í±ØÐë¶®µÃÈçºÎÀí½âÈËÀàËùÊ¹ÓÃµÄ²»Ì«¾«È·¡¢¿ÉÄÜÓÐÆçÒåÉõÖÁÓÐÐ©»ìÂÒµÄÓïÑÔ¡£ÓïÑÔÄ£ÐÍ (LanguageModel£¬LM)µÄÄ¿±ê¾ÍÊÇ¶Ô×ÔÈ»ÓïÑÔµÄ¸ÅÂÊ·Ö²¼½¨Ä£¡£´Ê»ã±íVÉÏµÄÓïÑÔÄ£ÐÍ£¬ÓÉº¯ÊýP(ω₁ω₂…w ₘ)±íÊ¾£¬¿ÉÒÔÐÎÊ½»¯µØ¹¹½¨Îª´ÊÐòÁÐw₁w₂…w  ₘµÄ¸ÅÂÊ·Ö²¼£¬±íÊ¾´ÊÐòÁÐw₁w₂⋅⋅⋅wm×÷ÎªÒ»¸ö¾ä×Ó³öÏÖµÄ¿ÉÄÜÐÔµÄ´óÐ¡¡£ÓÉÓÚÁªºÏ¸ÅÂÊP(w₁w₂⋅⋅⋅wm)µÄ²ÎÊýÁ¿¾Þ´ó£¬Òò´ËÖ±½Ó¼ÆËãP(ω₁ω₂⋯wm)·Ç³£À§ÄÑ¡£¡¶ÏÖ´úººÓï´Êµä¡·(µÚ7°æ)°üº¬Ô¼7Íò´Ê£¬¾ä×Ó³¤¶È°´ÕÕ20¸ö´Ê¼ÆËã£¬ÓïÑÔÄ£ÐÍµÄ²ÎÊýÁ¿´ïµ½7.9792×1096µÄÌìÎÄÊý×Ö¡£ÔÚÖÐÎÄµÄÊéÃæÓïÖÐ£¬³¬¹ý100¸ö´ÊµÄ¾ä×Ó²¢²»º±¼û£¬Èç¹ûÒª½«ËùÓÐ¿ÉÄÜÐÔ¶¼ÄÉÈë¿¼ÂÇ£¬ÔòÓïÑÔÄ£ÐÍµÄ¸´ÔÓ¶È»á½øÒ»²½Ôö¼Ó£¬ÒÔÄ¿Ç°µÄ¼ÆËãÊÖ¶ÎÎÞ·¨½øÐÐ´æ´¢ºÍÔËËãÎªÁË¼õÐ¡P(ω₁ω₂…wm)Ä£ÐÍµÄ²ÎÊý¿Õ¼ä£¬¿ÉÒÔÀûÓÃ¾ä×ÓÐòÁÐ(Í¨³£ÊÇ´Ó×óÖÁÓÒ)µÄÉú³É¹ý   
³Ì½«Æä½øÐÐ·Ö½â£¬Ê¹ÓÃÁ´Ê½·¨Ôò¿ÉÒÔµÃµ½ 
![[$LZYDKN%3%UUC4QUI5E%UTY_tmb.jpg|400]] 
nÔªÓïÑÔÄ£ÐÍ´ÓÕûÌåÉÏ¿´ÓëÑµÁ·Êý¾Ý¹æÄ£ºÍÄ£ÐÍµÄ½×ÊýÓÐ½Ï´óµÄ¹ØÏµ£¬²»Í¬µÄÆ½»¬Ëã·¨ÔÚ²»   
Í¬Çé¿öÏÂµÄ±íÏÖÓÐ½Ï´óµÄ²î¾à¡£ËäÈ»Æ½»¬Ëã·¨½ÏºÃµØ½â¾öÁËÁã¸ÅÂÊÎÊÌâ£¬µ«ÊÇ»ùÓÚÏ¡Êè±íÊ¾µÄn   
==ÔªÓïÑÔÄ£ÐÍÈÔÈ»ÓÐÒÔÏÂÈý¸ö½ÏÎªÃ÷ÏÔµÄÈ±µã==¡£   
(1)ÎÞ·¨¶Ô³¤¶È³¬¹ýnµÄÉÏÏÂÎÄ½¨Ä£¡£   
(2)ÒÀÀµÈË¹¤Éè¼Æ¹æÔòµÄÆ½»¬¼¼Êõ¡£   
(3)µ±nÔö´óÊ±£¬Êý¾ÝµÄÏ¡ÊèÐÔËæÖ®Ôö´ó£¬Ä£ÐÍµÄ²ÎÊýÁ¿¸üÊÇ³ÊÖ¸Êý¼¶Ôö¼Ó£¬ÊÜÊý¾ÝÏ¡ÊèÎÊ   
ÌâµÄÓ°Ïì£¬Æä²ÎÊýÄÑÒÔ±»×¼È·Ñ§Ï°¡£   
´ËÍâ£¬nÔªÎÄ·¨ÖÐµ¥´ÊµÄÀëÉ¢±íÊ¾Ò²ºöÂÔÁËµ¥´ÊÖ®¼äµÄÏàËÆÐÔ¡£ 
BengioµÈÈËÔÚ2000ÄêÌá³öÁËÊ¹ÓÃÇ°À¡Éñ¾ÍøÂç¶Ô     ![]                      ½øÐÐ¹À¼ÆµÄÓïÑÔÄ£ÐÍ¡£ 
´ÊµÄ¶ÀÈÈ±àÂë±»Ó³ÉäÎªÒ»¸öµÍÎ¬³íÃÜµÄÊµÊýÏòÁ¿£¬³ÆÎª´ÊÏòÁ¿£¨Word Embedding£©¡£ 
Ñ»·Éñ¾ÍøÂç¡¢¾í»ýÉñ¾ÍøÂç¡¢¶Ëµ½¶Ë¼ÇÒäÍøÂçµÈÉñ¾ÍøÂç·½·¨¶¼³É¹¦Ó¦ÓÃÓÚÓïÑÔÄ£ÐÍ½¨Ä£¡£ 
Ïà½ÏÓÚnÔªÓïÑÔÄ£ÐÍ£¬Éñ¾ÍøÂç·½·¨¿ÉÒÔÔÚÒ»¶¨³Ì¶ÈÉÏ±ÜÃâÊý¾ÝÏ¡ÊèÎÊÌâ£¬ÓÐÐ©Ä£ÐÍ»¹¿ÉÒÔ±ÜÃâ¶ÔÀúÊ·³¤¶ÈµÄÏÞÖÆ£¬´Ó¶ø¸üºÃ½¨Ä£³¤¾àÀëÒÀÀµ¹ØÏµ¡£ÕâÀà·½·¨Í¨³£³ÆÎªÉñ¾ÓïÑÔÄ£ÐÍ£¨Neural Language Models£¬NLM£© 
Ñ»·Éñ¾ÍøÂçÓïÑÔÄ£ÐÍÓÉÈý²¿·Ö×é³É£ºÊäÈë²ã¡¢Òþ²Ø²ãºÍÊä³ö²ã 
![]

![] 
![]![] 
Éî¶ÈÉñ¾ÍøÂçÐèÒª²ÉÓÃÓÐ¼à¶½·½·¨£¬Ê¹ÓÃ±ê×¢Êý¾Ý½øÐÐÑµÁ·£¬Òò´Ë£¬ÓïÑÔÄ£ÐÍµÄÑµÁ·¹ý³ÌÒ²²»  ¿É±ÜÃâµØÐèÒª¹¹ÔìÑµÁ·Êý¾Ý¡£ÓÉÓÚÑµÁ·Ä¿±ê¿ÉÒÔÍ¨¹ýÎÞ±ê×¢ÎÄ±¾Ö±½Ó»ñµÃ£¬Òò´ËÄ£ÐÍµÄÑµÁ·½öÐèÒª  ´ó¹æÄ£ÎÞ±ê×¢ÎÄ±¾¡£ÓïÑÔÄ£ÐÍÒ²³ÉÁËµäÐÍµÄ×Ô¼à¶½Ñ§Ï°(Self-supervisedLearning)ÈÎÎñ¡£»¥ÁªÍø  µÄ·¢Õ¹£¬Ê¹µÃ´ó¹æÄ£ÎÄ±¾·Ç³£ÈÝÒ×»ñÈ¡£¬Òò´ËÑµÁ·³¬´ó¹æÄ£µÄ»ùÓÚÉñ¾ÍøÂçµÄÓïÑÔÄ£ÐÍ³ÉÎª¿ÉÄÜ¡£  ÊÜ¼ÆËã»úÊÓ¾õÁìÓò²ÉÓÃImageNet¶ÔÄ£ÐÍ½øÐÐÒ»´ÎÔ¤ÑµÁ·£¬Ê¹Ä£ÐÍ¿ÉÒÔÍ¨¹ýº£Á¿Í¼Ïñ³ä·Ö  Ñ§Ï°ÈçºÎÌáÈ¡ÌØÕ÷£¬ÔÙ¸ù¾ÝÈÎÎñÄ¿±ê½øÐÐÄ£ÐÍ¾«µ÷µÄÔ¤ÑµÁ··¶Ê½Ó°Ïì£¬×ÔÈ»ÓïÑÔ´¦ÀíÁìÓò»ùÓÚÔ¤  ÑµÁ·ÓïÑÔÄ£ÐÍµÄ·½·¨Öð½¥³ÉÎªÖ÷Á÷¡£ÒÔELMolÎª´ú±íµÄ¶¯Ì¬´ÊÏòÁ¿Ä£ÐÍ¿ªÆôÁËÓïÑÔÄ£ÐÍÔ¤ÑµÁ·   
µÄ´óÃÅ¡£´Ëºó,ÒÔGPTºÍBERTÎª´ú±íµÄ»ùÓÚTransformer½á¹¹µÄ´ó¹æÄ£Ô¤ÑµÁ·ÓïÑÔÄ£ÐÍ   
µÄ³öÏÖ£¬Ê¹×ÔÈ»ÓïÑÔ´¦ÀíÈ«Ãæ½øÈëÔ¤ÑµÁ·Î¢µ÷·¶Ê½ÐÂÊ±´ú¡£½«Ô¤ÑµÁ·Ä£ÐÍÓ¦ÓÃÓÚÏÂÓÎÈÎÎñÊ±£¬²»ÐèÒªÁË½âÌ«¶àµÄÈÎÎñÏ¸½Ú£¬²»ÐèÒªÉè¼ÆÌØ¶¨µÄÉñ¾ÍøÂç½á¹¹£¬Ö»ÐèÒª“Î¢µ÷”Ô¤ÑµÁ·Ä£ÐÍ£¬Ê¹ÓÃ¾ßÌåÈÎÎñµÄ±ê×¢Êý¾ÝÔÚÔ¤ÑµÁ·ÓïÑÔÄ£ÐÍÉÏ½øÐÐ¼à¶½ÑµÁ·£¬¾Í¿ÉÒÔÈ¡µÃÏÔÖøµÄÐÔÄÜÌáÉý¡£ÕâÀà·½·¨Í¨³£±»³ÆÎªÔ¤ÑµÁ·ÓïÑÔÄ£ÐÍ(Pre-trainedLanguageModels,PLM)   
![] 
2020Äê£¬OpenAI·¢²¼ÁËÓÉ°üº¬1750ÒÚ¸ö²ÎÊýµÄÉñ¾ÍøÂç¹¹³ÉµÄÉú³ÉÊ½´ó¹æÄ£Ô¤ÑµÁ·ÓïÑÔ   
Ä£ÐÍGPT-3(GenerativePre-trainedTransformer3),¿ªÆôÁË´óÓïÑÔÄ£ÐÍµÄÐÂÊ±´ú¡£ÓÉÓÚ´óÓï   
ÑÔÄ£ÐÍµÄ²ÎÊýÁ¿¾Þ´ó£¬ÔÚ²»Í¬ÈÎÎñÉÏ¶¼½øÐÐÎ¢µ÷ÐèÒªÏûºÄ´óÁ¿µÄ¼ÆËã×ÊÔ´£¬Òò´ËÔ¤ÑµÁ·Î¢µ÷·¶Ê½  ²»ÔÙÊÊÓÃÓÚ´óÓïÑÔÄ£ÐÍ¡£ÑÐ¾¿ÈËÔ±·¢ÏÖ,Í¨¹ýÓï¾³Ñ§Ï°(In-ContextLearning,ICL)µÈ·½·¨,Ö±  ½ÓÊ¹ÓÃ´óÓïÑÔÄ£ÐÍ£¬¾Í¿ÉÒÔÔÚºÜ¶àÈÎÎñµÄÉÙÑù±¾³¡¾°ÖÐÈ¡µÃºÜºÃµÄÐ§¹û¡£´Ëºó£¬ÑÐ¾¿ÈËÔ±Ìá³öÁËÃæ Ïò´óÓïÑÔÄ£ÐÍµÄÌáÊ¾´Ê(Prompt)Ñ§Ï°·½·¨,ÒÔ¼°Ä£ÐÍ¼´·þÎñ·¶Ê½(ModelasaService,MaaS)¡¢   
Ö¸ÁîÎ¢µ÷(InstructionTuning)µÈ·½·¨,ÔÚ²»Í¬ÈÎÎñÖÐ¶¼È¡µÃÁËºÜºÃµÄÐ§¹û¡£Óë´ËÍ¬Ê±,Google¡¢   
Meta¡¢BigScience¡¢°Ù¶È¡¢»ªÎªµÈ¹«Ë¾ºÍÑÐ¾¿»ú¹¹·×·×·¢²¼ÁËPaLM¡¢LaMDA¡¢T0µÈ²»   
Í¬´óÓïÑÔÄ£ÐÍ¡£2022ÄêÄêµ×ChatGPTµÄ³öÏÖ£¬½«´óÓïÑÔÄ£ÐÍµÄÄÜÁ¦½øÐÐÁË³ä·ÖµÄÕ¹ÏÖ£¬Ò²Òý·¢ÁË´óÓïÑÔÄ£ÐÍÑÐ¾¿µÄÈÈ³±¡£   
KaplanµÈÈËÔÚÎÄÏ×ÖÐÌá³öÁËËõ·Å·¨Ôò(ScalingLaws)£¬Ö¸³öÄ£ÐÍµÄÐÔÄÜÒÀÀµÓÚÄ£ÐÍµÄ   
¹æÄ££¬°üÀ¨²ÎÊýÁ¿¡¢Êý¾Ý¼¯´óÐ¡ºÍ¼ÆËãÁ¿£¬Ä£ÐÍµÄÐ§¹û»áËæ×ÅÈýÕßµÄÖ¸ÊýÔö¼Ó¶øÆ½ÎÈÌáÉý¡£ÈçÍ¼ËùÊ¾£¬Ä£ÐÍµÄËðÊ§(Loss)ÖµËæ×ÅÄ£ÐÍ¹æÄ£µÄÖ¸ÊýÔö¼Ó¶øÏßÐÔ½µµÍ¡£ÕâÒâÎ¶×ÅÄ£ÐÍµÄÄÜÁ¦¿ÉÒÔ¸ù¾ÝÕâÈý¸ö±äÁ¿¹À¼Æ£¬Ôö¼ÓÄ£ÐÍ²ÎÊýÁ¿£¬À©´óÊý¾Ý¼¯¹æÄ£¶¼¿ÉÒÔÊ¹Ä£ÐÍµÄÐÔÄÜ¿ÉÔ¤²âµØÌáÉý¡£ÕâÎª¼ÌÐøÀ©´ó´óÓïÑÔÄ£ÐÍµÄ¹æÄ£¸ø³öÁË¶¨Á¿·ÖÎöÒÀ¾Ý¡£ 
![] 
## 1.2´ó¹æÄ£ÓïÑÔÄ£ÐÍ·¢Õ¹Àú³Ì 
![] 
´óÓïÑÔÄ£ÐÍµÄ·¢Õ¹¿ÉÒÔ´ÖÂÔµØ·ÖÎªÈçÏÂÈý¸ö½×¶Î£º**»ù´¡Ä£ÐÍ½×¶Î¡¢ÄÜÁ¦Ì½Ë÷½×¶ÎºÍÍ»ÆÆ·¢Õ¹½×¶Î** 
**»ù´¡Ä£ÐÍ½×¶Î**Ö÷Òª¼¯ÖÐÓÚ2018 ÄêÖÁ2021 Äê£º 
2017 Äê£¬Vaswani µÈÈËÌá³öÁËTransformer¼Ü¹¹£¬ÔÚ»úÆ÷·ÒëÈÎÎñÉÏÈ¡µÃÁËÍ»ÆÆÐÔ½øÕ¹¡£ 
2018 Äê£¬Google ºÍOpenAI ·Ö±ðÌá³öÁËBERT ºÍ GPT-1Ä£ÐÍ£¬¿ªÆôÁËÔ¤ÑµÁ·ÓïÑÔÄ£ÐÍÊ±´ú¡£ 
2019 Äê£¬OpenAI ·¢²¼ÁËGPT-2£¬²ÎÊýÁ¿15 ÒÚ¡£Google ·¢²¼ÁË²ÎÊý¹æÄ£Îª110 ÒÚµÄT5Ä£ÐÍ¡£ 
2020 Äê£¬OpenAI ½øÒ»²½½«ÓïÑÔÄ£ÐÍ²ÎÊýÁ¿À©Õ¹µ½1750 ÒÚ£¬·¢²¼ÁËGPT-3¡£ 
´Ë½×¶ÎµÄÑÐ¾¿Ö÷Òª¼¯ÖÐÔÚÓïÑÔÄ£ÐÍ±¾Éí£¬°üÀ¨¶Ô½ö±àÂëÆ÷£¨Encoder Only£©¡¢±àÂëÆ÷-½âÂëÆ÷£¨Encoder-Decoder£©¡¢½ö½âÂëÆ÷£¨Decoder Only£©µÈ¸÷ÖÖÀàÐÍµÄÄ£ÐÍ½á¹¹¶¼ÓÐÏàÓ¦µÄÑÐ¾¿¡£Ä£ÐÍ´óÐ¡ÓëBERT ÏàÀàËÆµÄËã·¨£¬Í¨³£²ÉÓÃÔ¤ÑµÁ·Î¢µ÷·¶Ê½£¬Õë¶Ô²»Í¬ÏÂÓÎÈÎÎñ½øÐÐÎ¢µ÷¡£µ«ÊÇÄ£ÐÍ²ÎÊýÁ¿ÔÚ10 ÒÚÒÔÉÏÊ±£¬ÓÉÓÚÎ¢µ÷µÄ¼ÆËãÁ¿ºÜ¸ß£¬ÕâÀàÄ£ÐÍµÄÓ°ÏìÁ¦ÔÚµ±Ê±Ïà½ÏBERT ÀàÄ£ÐÍÓÐ²»Ð¡µÄ²î¾à¡£

**ÄÜÁ¦Ì½Ë÷½×¶Î**¼¯ÖÐÓÚ2019 ÄêÖÁ2022 Äê 
ÓÉÓÚ´óÓïÑÔÄ£ÐÍºÜÄÑÕë¶ÔÌØ¶¨ÈÎÎñ½øÐÐÎ¢µ÷£¬ÑÐ¾¿ÈËÔ±¿ªÊ¼Ì½Ë÷ÔÚ²»Õë¶Ôµ¥Ò»ÈÎÎñ½øÐÐÎ¢µ÷µÄÇé¿öÏÂÈçºÎ·¢»Ó´óÓïÑÔÄ£ÐÍµÄÄÜÁ¦ 
2019 Äê£¬RadfordµÈÈËÊ¹ÓÃGPT-2 Ä£ÐÍÑÐ¾¿ÁË´óÓïÑÔÄ£ÐÍÔÚÁãÑù±¾Çé¿öÏÂµÄÈÎÎñ´¦ÀíÄÜÁ¦ 
Brown µÈÈËÔÚGPT-3Ä£ÐÍÉÏÑÐ¾¿ÁËÍ¨¹ýÓï¾³Ñ§Ï°½øÐÐÉÙÑù±¾Ñ§Ï°µÄ·½·¨ 
Ö¸ÁîÎ¢µ÷½«´óÁ¿¸÷ÀàÐÍÈÎÎñ£¬Í³Ò»ÎªÉú³ÉÊ½×ÔÈ»ÓïÑÔÀí½â¿ò¼Ü£¬²¢¹¹ÔìÑµÁ·ÓïÁÏ½øÐÐÎ¢µ÷ 
2022 Äê£¬Ouyang µÈÈËÌá³öÁËÊ¹ÓÃ“ÓÐ¼à¶½Î¢µ÷+ Ç¿»¯Ñ§Ï°”µÄInstructGPT Ëã·¨ 
ÕâÐ©·½·¨ÔÚÖ±½ÓÀûÓÃ´óÓïÑÔÄ£ÐÍ½øÐÐÁãÑù±¾ºÍÉÙÑù±¾Ñ§Ï°µÄ»ù´¡ÉÏ£¬Öð½¥À©Õ¹µ½ÀûÓÃÉú³ÉÊ½¿ò¼ÜÕë¶Ô´óÁ¿ÈÎÎñ½øÐÐÓÐ¼à¶½Î¢µ÷µÄ·½·¨£¬ÓÐÐ§ÌáÉýÁËÄ£ÐÍµÄÐÔÄÜ¡£

**Í»ÆÆ·¢Õ¹½×¶Î**ÒÔ2022 Äê11 ÔÂChatGPT µÄ·¢²¼ÎªÆðµã 
ChatGPT Í¨¹ýÒ»¸ö¼òµ¥µÄ¶Ô»°¿ò£¬ÀûÓÃÒ»¸ö´óÓïÑÔÄ£ÐÍ¾Í¿ÉÒÔÊµÏÖÎÊÌâ»Ø´ð¡¢ÎÄ¸å×«Ð´¡¢´úÂëÉú³É¡¢ÊýÑ§½âÌâµÈ¹ýÈ¥×ÔÈ»ÓïÑÔ´¦ÀíÏµÍ³ÐèÒª´óÁ¿¶¨ÖÆ¿ª·¢²ÅÄÜ·Ö±ðÊµÏÖµÄÄÜÁ¦ 
2023 Äê3 ÔÂGPT-4 ·¢²¼£¬Ïà½ÏÓÚChatGPT ÓÖÓÐÁË·Ç³£Ã÷ÏÔµÄ½ø²½£¬²¢¾ß±¸ÁË¶àÄ£Ì¬Àí½âÄÜÁ¦¡£GPT-4 ÔÚ¶àÖÖ»ù×¼¿¼ÊÔ²âÊÔÉÏµÄµÃ·Ö¸ßÓÚ88% µÄÓ¦ÊÔÕß

¸÷´ó¹«Ë¾ºÍÑÐ¾¿»ú¹¹Ïà¼Ì·¢²¼ÁË´ËÀàÏµÍ³£¬°üÀ¨Google ÍÆ³öµÄBard¡¢°Ù¶ÈµÄÎÄÐÄÒ»ÑÔ¡¢¿Æ´óÑ¶·ÉµÄÐÇ»ð´óÄ£ÐÍ¡¢ÖÇÆ×ChatGLM¡¢¸´µ©´óÑ§MOSS µÈ

![]

![]

![] 
![] 
## 1.3´ó¹æÄ£ÓïÑÔÄ£ÐÍ¹¹½¨Á÷³Ì

Ê¹ÓÃµÄ´óÓïÑÔÄ£ÐÍ¹¹½¨Á÷³ÌÈçÍ¼1.3ËùÊ¾£¬Ö÷Òª°üº¬ËÄ¸ö½×¶Î£º==Ô¤ÑµÁ·¡¢ÓÐ¼à¶½Î¢µ÷¡¢½±Àø½¨Ä£ºÍÇ¿»¯Ñ§Ï°==¡£ÕâËÄ¸ö½×¶Î¶¼ÐèÒª²»Í¬¹æÄ£µÄÊý¾Ý¼¯¼°²»Í¬ÀàÐÍµÄËã·¨£¬»á²ú³ö²»Í¬ÀàÐÍµÄÄ£ÐÍ£¬ËùÐèÒªµÄ×ÊÔ´Ò²ÓÐ·Ç³£´óµÄ²î±ð¡£ 
![]

 
![] 
**Ô¤ÑµÁ·(Pretraining)½×¶Î**ÐèÒªÀûÓÃº£Á¿µÄÑµÁ·Êý¾Ý(Êý¾ÝÀ´×Ô»¥ÁªÍøÍøÒ³¡¢Î¬»ù°Ù¿Æ¡¢Êé   
¼®¡¢GitHub¡¢ÂÛÎÄ¡¢ÎÊ´ðÍøÕ¾µÈ)£¬¹¹½¨°üº¬ÊýÇ§ÒÚÉõÖÁÊýÍòÒÚµ¥´ÊµÄ¾ßÓÐ¶àÑùÐÔµÄÄÚÈÝ¡£ÀûÓÃÓÉÊýÇ§¿é¸ßÐÔÄÜGPUºÍ¸ßËÙÍøÂç×é³ÉµÄ³¬¼¶¼ÆËã»ú£¬»¨·ÑÊýÊ®ÌìÍê³ÉÉî¶ÈÉñ¾ÍøÂç²ÎÊýÑµÁ·£¬¹¹½¨»ù´¡Ä£ÐÍ(BaseModel)¡£»ù´¡Ä£ÐÍ¶Ô³¤ÎÄ±¾½øÐÐ½¨Ä£.Ê¹Ä£ÐÍ¾ßÓÐÓïÑÔÉú³ÉÄÜÁ¦.¸ù¾ÝÊäÈëµÄÌáÊ¾´Ê£¬Ä£ÐÍ¿ÉÒÔÉú³ÉÎÄ±¾²¹È«¾ä×Ó¡£ÓÐÒ»²¿·ÖÑÐ¾¿ÈËÔ±ÈÏÎª.ÓïÑÔÄ£ÐÍ½¨Ä£¹ý³ÌÖÐÒþº¬µØ¹¹½¨ÁË°üÀ¨ÊÂÊµÐÔÖªÊ¶(FactualKnowledge)ºÍ³£Ê¶ÐÔÖªÊ¶(Commonsense)ÔÚÄÚµÄÊÀ½çÖªÊ¶(World Knowledge)¡£¸ù¾ÝÎÄÏ×ÖÐµÄ½éÉÜ,GPT-3Íê³ÉÒ»´ÎÑµÁ·µÄ×Ü¼ÆËãÁ¿ÊÇ3640PFLOPS.°´ÕÕNVIDIAA10080GBGPUºÍÆ½¾ùÀûÓÃÂÊ´ïµ½50%¼ÆËã.ÐèÒª»¨·Ñ½üÒ»¸öÔÂµÄÊ±¼äÊ¹ÓÃ1000¿é   
GPUÍê³É¡£ÓÉÓÚGPT-3µÄÑµÁ·²ÉÓÃNVIDIAV10032GBGPU.ÆäÊµ¼Ê¼ÆËã³É±¾Ô¶¸ßÓÚÉÏÊö¼Æ   
Ëã¡£ÎÄÏ×½éÉÜÁË²ÎÊýÁ¿Í¬ÑùÊÇ1750ÒÚ¸öµÄOPTÄ£ÐÍ.¸ÃÄ£ÐÍÑµÁ·Ê¹ÓÃ992¿éNVID1A   
A10080GBGPU,ÕûÌåÑµÁ·Ê±¼ä½«½ü2¸öÔÂBLOOMÄ£ÐÍµÄ²ÎÊýÁ¿Ò²ÊÇ1750ÒÚ¸ö.¸ÃÄ£ÐÍ   
ÑµÁ·Ò»¹²»¨·Ñ3.5¸öÔÂ,Ê¹ÓÃ°üº¬384¿éNVIDIAA10080GBGPU¼¯ÈºÍê³É¡£¿ÉÒÔ¿´µ½,´óÓï   
ÑÔÄ£ÐÍµÄÑµÁ·ÐèÒª»¨·Ñ´óÁ¿µÄ¼ÆËã×ÊÔ´ºÍÊ±¼ä¡£LLaMA¡¢Falcon¡¢°Ù´¨(Baichun)µÈÄ£ÐÍ¶¼Êô   
ÓÚ»ù´¡ÓïÑÔÄ£ÐÍ¡£ÓÉÓÚÑµÁ·¹ý³ÌÐèÒªÏûºÄ´óÁ¿µÄ¼ÆËã×ÊÔ´.²¢ºÜÈÝÒ×ÊÜµ½³¬²ÎÊýÓ°Ïì¡£==ÈçºÎÌáÉý·Ö²¼Ê½¼ÆËãÐ§ÂÊ²¢Ê¹Ä£ÐÍÑµÁ·ÎÈ¶¨ÊÕÁ²==ÊÇ±¾½×¶ÎµÄÑÐ¾¿ÖØµã¡£  

BLOOMÊ¹ÓÃMegatron-DeepSpeed¿ò¼Ü½øÐÐÑµÁ·£¬Ö÷Òª°üº¬Á½¸ö²¿·Ö£ºMegatron-LMÌá¹©ÕÅÁ¿²¢ÐÐÄÜÁ¦ºÍÊý¾Ý¼ÓÔØÔÓï£»DeepSpeedÌá¹©ZeROÓÅ»¯Æ÷¡¢Ä£ÐÍÁ÷Ë®ÏßÒÔ¼°³£¹æµÄ·Ö²¼Ê½ÑµÁ·×é¼þ¡£Í¨¹ýÕâÖÖ·½Ê½¿ÉÒÔÊµÏÖÊý¾Ý¡¢ÕÅÁ¿ºÍÁ÷Ë®ÏßÈýÎ¬²¢ÐÐ¡£

![] 
**ÓÐ¼à¶½Î¢µ÷(SupervisedFineTuning)**.Ò²³ÆÎªÖ¸ÁîÎ¢µ÷,ÀûÓÃÉÙÁ¿¸ßÖÊÁ¿Êý¾Ý¼¯,Í¨¹ýÓÐ   
¼à¶½ÑµÁ·Ê¹Ä£ÐÍ¾ß±¸ÎÊÌâ»Ø´ð¡¢·Òë¡¢Ð´×÷µÈÄÜÁ¦  ÓÐ¼à¶½Î¢µ÷µÄÊý¾Ý°üº¬ÓÃ»§ÊäÈëµÄÌáÊ¾´ÊºÍ¶ÔÓ¦µÄÀíÏëÊä³ö½á¹û¡£ÓÃ»§ÊäÈë°üÀ¨ÎÊÌâ¡¢²ûÎú¶Ô»°¡¢ÈÎÎñÖ¸ÁîµÈ¶àÖÖÐÎÊ½ºÍÈÎÎñ¡£   
ÀýÈç£ºÌáÊ¾´Ê£º¸´µ©´óÑ§ÓÐ¼¸¸öÐ£Çø? ÀíÏëÊä³ö£º¸´µ©´óÑ§ÏÖÓÐ4¸öÐ£Çø£¬·Ö±ðÊÇ¶õ°îÁêÇø¡¢ÐÂ½ÍåÐ£Çø¡¢·ãÁÖÐ£ÇøºÍÕÅ½Ð£Çø¡£ÆäÖÐºªµ¦Ð£ÇøÊÇ¸´µ©´óÑ§µÄÖ÷Ð£Çø£¬¶õ¹ùÐ£ÇøÓëÐÂ½ÍåÐ£Çø¶¼Î»ÓÚÑîÆÖÇø£¬·ãÁÖÐ£ÇøÎ»ÓÚÐì»ãÇø£¬ÕÅ½Ð£ÇøÎ»ÓÚÆÖ¶«ÐÂÇø¡£ÀûÓÃÕâÐ©ÓÐ¼à¶½Êý¾Ý¡¢Ê¹ÓÃÓëÔ¤ÑµÁ·½×¶ÎÏàÍ¬µÄÓïÑÔÄ£ÐÍÑµÁ·Ëã·¨£¬ÔÚ»ù´¡Ä£ÐÍµÄ»ù´¡ÉÏ½øÐÐÑµÁ·£¬µÃµ½ÓÐ¼à¶½Î¢µ÷Ä£ÐÍ(SFTÄ£ÐÍ)¡£¾¹ýÑµÁ·µÄSFTÄ£ÐÍ¾ß±¸³õ²½µÄÖ¸ÁîÀí½âÄÜÁ¦ºÍÉÏÏÂÎÄ   
Àí½âÄÜÁ¦£¬ÄÜ¹»Íê³É¿ª·ÅÁìÓòÎÊ´ð¡¢ÔÄ¶ÁÀí½â¡¢·Òë¡¢Éú³É´úÂëµÈÈÎÎñ£¬Ò²¾ß±¸ÁËÒ»¶¨µÄ¶ÔÎ´ÖªÈÎÎñµÄ·º»¯ÄÜÁ¦¡£ÓÉÓÚÓÐ¼à¶½Î¢µ÷½×¶ÎËùÐèµÄÑµÁ·Êý¾ÝÁ¿½ÏÉÙ£¬SFTÄ£ÐÍµÄÑµÁ·¹ý³Ì²¢²»ÐèÒªÏûºÄ´óÁ¿µÄ¼ÆËã×ÊÔ´¡£¸ù¾ÝÄ£ÐÍµÄ´óÐ¡ºÍÑµÁ·Êý¾ÝÁ¿.Í¨³£ÐèÒªÊýÊ®¿éGPU£¬»¨·ÑÊýÌìÊ±¼äÍê³ÉÑµÁ·¡£SFTÄ£ÐÍ¾ß±¸ÁË³õ²½µÄÈÎÎñÍê³ÉÄÜÁ¦.¿ÉÒÔ¿ª·Å¸øÓÃ»§Ê¹ÓÃ£¬ºÜ¶àÀàChatGPTµÄÄ£ÐÍ¶¼ÊôÓÚ¸ÃÀàÐÍ,°üÀ¨Alpaca¡¢Vicuna¡¢MOSS¡¢ChatGLM-6BµÈ¡£ºÜ¶àÕâÀàÄ£ÐÍµÄÐ§¹û·Ç³£ºÃ, ÉõÖÁÔÚÒ»Ð©ÆÀ²âÖÐ´ïµ½ÁËChatGPTµÄ90%µÄÐ§¹û¡£µ±Ç°µÄÒ»Ð©ÑÐ¾¿±íÃ÷£¬ÓÐ¼à¶½Î¢µ÷½×¶ÎµÄÊý¾ÝÑ¡Ôñ¶ÔSFTÄ£ÐÍÐ§¹ûÓÐ·Ç³£´óµÄÓ°Ïì¡£==¹¹ÔìÉÙÁ¿²¢ÇÒ¸ßÖÊÁ¿µÄÑµÁ·Êý¾ÝÊÇ±¾½×¶ÎµÄÑÐ¾¿ÖØµã¡£==

**½±Àø½¨Ä£(RewardModeling)** ½×¶ÎµÄÄ¿±êÊÇ¹¹½¨Ò»¸öÎÄ±¾ÖÊÁ¿¶Ô±ÈÄ£ÐÍ¡£¶ÔÓÚÍ¬Ò»¸öÌáÊ¾   
´Ê£¬SFTÄ£ÐÍ¶Ô¸ø³öµÄ¶à¸ö²»Í¬Êä³ö½á¹ûµÄÖÊÁ¿½øÐÐÅÅÐò¡£½±ÀøÄ£ÐÍ¿ÉÒÔÍ¨¹ý¶þ·ÖÀàÄ£ÐÍ£¬¶ÔÊäÈëµÄÁ½¸ö½á¹ûÖ®¼äµÄÓÅÁÓ½øÐÐÅÐ¶Ï¡£½±ÀøÄ£ÐÍÓë»ù´¡Ä£ÐÍºÍSFTÄ£ÐÍ²»Í¬£¬½±ÀøÄ£ÐÍ±¾Éí²¢²»ÄÜµ¥¶ÀÌá¹©¸øÓÃ»§Ê¹ÓÃ¡£½±ÀøÄ£ÐÍµÄÑµÁ·Í¨³£ºÍSFTÄ£ÐÍÒ»Ñù£¬Ê¹ÓÃÊýÊ®¿éGPU£¬Í¨¹ýÊýÌìÊ±¼äÍê³ÉÑµÁ·¡£ÓÉÓÚ½±ÀøÄ£ÐÍµÄ×¼È·ÂÊ¶ÔÇ¿»¯Ñ§Ï°½×¶ÎµÄÐ§¹ûÓÐÖÁ¹ØÖØÒªµÄÓ°Ïì£¬Òò´ËÍ¨³£ÐèÒª´óÄ£µÄÑµÁ·Êý¾Ý¶Ô¸ÃÄ£ÐÍ½øÐÐÑµÁ·¡£AndrejKarpathyÔÚ±¨¸æÖÐÖ¸³ö£¬¸Ã²¿·ÖÐèÒª°ÙÍòÁ¿¼¶µÄ¶ÔÊý¾Ý±ê×¢£¬¶øÇÒÆäÖÐºÜ¶à±ê×¢ÐèÒªºÜ³¤Ê±¼ä²ÅÄÜÍê³É¡£InstructGPTÏµÍ³ÖÐ½±Àø  ÐÍÑµÁ·Ñù±¾±ê×¢Ê¾Àý¡£Ê¾ÀýÖÐÎÄ±¾±í´ï¶¼½ÏÎªÁ÷³©£¬±ê×¢ÆäÖÊÁ¿ÅÅÐòÐèÒªÖÆ¶¨·Ç³£  ÏêÏ¸µÄ¹æ·¶£¬±ê×¢ÕßÒ²ÐèÒªÈÏÕæµØ»ùÓÚ±ê¹æ·¶½øÐÐ±ê×¢£¬ÐèÒªÏûºÄ´óÁ¿µÄÈËÁ¦¡£Í¬Ê±£¬±£³ÖÖÚ   
±ê×¢ÕßÖ®¼äµÄÒ»ÖÂÐÔ£¬Ò²ÊÇ½±Àø½¨Ä£½×¶ÎÐèÒª½â¾öµÄÄÑµãÎÊÌâÖ®Ò»¡£´ËÍâ£¬½±ÀøÄ£ÐÍµÄ·º»¯ÄÜ£»±ß½çÒ²ÊÇ±¾½×¶ÎÐèÒªÖØµãÑÐ¾¿µÄÒ»¸öÎÊÌâ¡£Èç¹û½±ÀøÄ£ÐÍµÄÄ¿±êÊÇÕë¶ÔÏµÍ³ËùÓÐµÄÊä³ö¶¼ÄÜ¹» ÖÊÁ¿µØ½øÐÐÅÐ¶Ï£¬ÄÇÃ´¸ÃÎÊÌâµÄÄÑ¶ÈÔÚÄ³ÖÖ³Ì¶ÈÉÏÓëÎÄ±¾Éú³ÉµÈ¼Û£¬Òò´ËÏÞ¶¨½±ÀøÄ£ÐÍÓ¦ÓÃµÄ»¯±ß½çÊÇ±¾½×¶ÎÐèÒª½â¾öµÄÎÊÌâ¡£   
**Ç¿»¯Ñ§Ï°(ReinforcementLearning,RL)** ½×¶Î¸ù¾ÝÊýÊ®ÍòÃûÓÃ»§¸ø³öµÄÌáÊ¾´Ê,ÀûÓÃÇ°Ò»   
½×¶ÎÑµÁ·µÄ½±ÀøÄ£ÐÍ£¬¸ø³öSFTÄ£ÐÍ¶ÔÓÃ»§ÌáÊ¾´Ê²¹È«½á¹ûµÄÖÊÁ¿ÆÀ¹À£¬²¢ÓëÓïÑÔÄ£ÐÍ½¨Ä£Ä¿±ê×ÛºÏµÃµ½¸üºÃµÄÐ§¹û¡£¸Ã½×¶ÎÊ¹ÓÃµÄÌáÊ¾´ÊÊýÁ¿ÓëÓÐ¼à¶½Î¢µ÷½×¶ÎÀàËÆ£¬ÊýÁ¿ÔÚÊ®Íò¸öÁ¿¼¶£¬²¢ÇÒ²»ÐèÒªÈË¹¤ÌáÇ°¸ø³ö¸ÃÌáÊ¾´ÊËù¶ÔÓ¦µÄÀíÏë»Ø¸´¡£Ê¹ÓÃÇ¿»¯Ñ§Ï°£¬ÔÚSFTÄ£ÐÍµÄ»ù´¡ÉÏµ÷Õû²ÎÊý£¬Ê¹×îÖÕÉú³ÉµÄÎÄ±¾¿ÉÒÔ»ñµÃ¸ü¸ßµÄ½±Àø(Reward)¡£¸Ã½×¶ÎÐèÒªµÄ¼ÆËãÁ¿½ÏÔ¤ÑµÁ·½×¶ÎÒ²ÉÙºÜ¶à£¬Í¨³£½öÐèÒªÊýÊ®¿éGPU£¬ÊýÌì¼´¿ÉÍê³ÉÑµÁ·¡£ÎÄÏ×¸ø³öÁËÇ¿»¯Ñ§Ï°ºÍÓÐ¼à¶½Î¢µ÷µÄ¶Ô±È£¬ÔÚÄ£ÐÍ²ÎÊýÁ¿ÏàÍ¬µÄÇé¿öÏÂ£¬Ç¿»¯Ñ§Ï°¿ÉÒÔµÃµ½Ïà½ÏÓÚÓÐ¼à¶½Î¢µ÷ºÃµÃ¶àµÄÐ§¹û¡£¹ØÓÚÎªÊ²Ã´Ç¿»¯Ñ§Ï°Ïà±ÈÓÐ¼à¶½Î¢µ÷¿ÉÒÔµÃµ½¸üºÃ½á¹ûµÄÎÊÌâ£¬½ØÖÁ2023Äê9ÔÂ»¹Ã»ÓÐÍêÕû»òµÃµ½ÆÕ±é¹²Ê¶µÄ½âÊÍ¡£AndrejKarpathyÒ²Ö¸³ö£¬Ç¿»¯Ñ§Ï°²¢²»ÊÇÃ»ÓÐÎÊÌâµÄ£¬Ëü»áÊ¹»ù´¡Ä£ÐÍµÄìØ½µµÍ£¬´Ó¶ø¼õÉÙÄ£ÐÍÊä³öµÄ¶àÑùÐÔ¡£¾¹ýÇ¿»¯Ñ§Ï°·½·¨ÑµÁ·ºóµÄRLÄ£ÐÍ£¬¾ÍÊÇ×îÖÕÌá¹©¸øÓÃ»§Ê¹ÓÃ¡¢¾ßÓÐÀí½âÓÃ»§Ö¸ÁîºÍÉÏÏÂÎÄµÄÀàChatGPTÏµÍ³¡£ÓÉÓÚÇ¿»¯Ñ§Ï°·½·¨ÎÈ¶¨ÐÔ²»¸ß£¬²¢ÇÒ³¬²ÎÊýÖÚ¶à£¬Ê¹µÃÄ£ÐÍÊÕÁ²ÄÑ¶È´ó£¬µþ¼Ó½±ÀøÄ£ÐÍµÄ×¼È·ÂÊÎÊÌâ£¬Ê¹µÃÔÚ´óÓïÑÔÄ£ÐÍÉÏÓÐÐ§Ó¦ÓÃÇ¿»¯Ñ§Ï°·Ç³£À§ÄÑ¡£   
## 1.4 ±¾ÊéµÄÄÚÈÝ°²ÅÅ  

±¾Êé¹²·ÖÎª8ÕÂ£¬Î§ÈÆ´óÓïÑÔÄ£ÐÍ==»ù´¡ÀíÂÛ¡¢Ô¤ÑµÁ·¡¢Ö¸ÁîÀí½âºÍÄ£ÐÍÓ¦ÓÃ==ËÄ¸ö²¿·ÖÕ¹¿ª£ºµÚ   
Ò»²¿·Ö½éÉÜ´óÓïÑÔÄ£ÐÍµÄ»ù´¡ÀíÂÛ£»µÚ¶þ²¿·Ö½éÉÜ´óÓïÑÔÄ£ÐÍµÄÔ¤ÑµÁ·£¬°üÀ¨´óÓïÑÔÄ£ÐÍÔ¤ÑµÁ·  Êý¾ÝºÍ·Ö²¼Ê½ÑµÁ·£»µÚÈý²¿·Ö½éÉÜ´óÓïÑÔÄ£ÐÍÈçºÎÀí½â²¢·þ´ÓÈËÀàÖ¸Áî£¬°üÀ¨ÓÐ¼à¶½Î¢µ÷ºÍÇ¿»¯Ñ§Ï°£»µÚËÄ²¿·Ö½éÉÜ´óÓïÑÔÄ£ÐÍÓ¦ÓÃºÍÆÀ¹À  ¡£

ÇØÌìqintian0303 ·¢±íÓÚ 2025-1-21 09:23

Ö÷ÒªÊÇÇåÎúµÄ¿É·Ö±æµÄÊý¾Ý²É¼¯±È½ÏÖØÒª

Ò³: [1]

µç×Ó¹¤³ÌÊÀ½ç-ÂÛÌ³'s Archiver

´ó¹æÄ£ÓïÑÔÄ£ÐÍ´ÓÀíÂÛµ½Êµ¼ùµÚÒ»ÕÂÐ÷ÂÛ