《大语言模型——原理与工程实践》第一章 什么是大语言模型(一)
<p><span style="font-size:22px;"><b>第一章 什么是大语言模型</b></span></p><p><span style="font-size:18px;"><b>一、什么是大语言模型</b></span></p>
<p ><b> 大语言模型(Large Language Model,LLM)</b></p>
<p > 大语言模型是人工智能领域的一项重要技术。</p>
<p > 大语言模型在自然语言处理(Natural Language Processing,NLP)领域中被广泛应用。</p>
<p > </p>
<p > 大语言模型作为一种强大的语言处理技术,正在推动人工智能和自然语言处理领域的发展。通过深度学习和大规模数据集的训练,大语言模型能够理解和生成自然语言文本,在问答系统、机器翻译、文本生成等领域有着巨大的应用潜力。随着技术的不断进步,大语言模型将在未来进一步为人机交互和语言处理带来更多的创新和突破。</p>
<p > </p>
<p ><span style="font-size:22px;"><strong>二、语言模型的发展</strong></span></p>
<p ><strong> 语言模型(Language Model,LM)</strong></p>
<p >语言模型师自然语言处理的核心组件,它能够学习和理解人类语言的统计规律。即可以预测一个词序列的概率。</p>
<table style="border-collapse:collapse; border:none;Times New Roman"">
<tbody>
<tr>
<td nowrap="nowrap" style="border-bottom:1px solid black; background-color:#b4c6e7; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >技术</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; background-color:#b4c6e7; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >优点</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; background-color:#b4c6e7; border-top:1px solid black; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >缺点</p>
</td>
</tr>
<tr>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >n-gram模型</p>
</td>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >最早的一种语言模型<br />
用于小规模数据</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >处置复杂任务和大数据环境时效果不佳</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >循环神经网络<br />
(Recurrent Neural Network,RNN)</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >处理短序列数据时效果为佳</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >处理长序列数据时效果不佳</p>
</td>
</tr>
<tr>
<td style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >长短时记忆网络<br />
(Long Short-Term Memory,LSTM)</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >能够捕获长距离的依赖关系,可以处理文本中长距离的依赖和复杂结构</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p > </p>
</td>
</tr>
<tr>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p align="center" >Transformer架构</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p >能够有效处理长序列,显著提升训练效率</p>
</td>
<td nowrap="nowrap" style="border-bottom:1px solid black; border-top:none; border-right:1px solid black; border-left:1px solid black" valign="center">
<p > </p>
</td>
</tr>
</tbody>
</table>
<p style="list-style-type:none"> </p>
<p style="list-style-type:none"><span style="font-size:18px;"><b>三、</b><b>GPT系列模型的发展</b></span></p>
<p ><b> 大语言模型的关键技术</b></p>
<p > ChatGPT是OpenAI基于GPT-3.5架构开发的大语言模型,它的训练过程分为三个部分:</p>
<p style="list-style-type:none"> <strong>(1)</strong><b>预训练阶段</b></p>
<p > 模型通过自监督学习的方式进行训练,即在没有人工标注的情况下学习语言的统计属性。</p>
<p > 预训练的目的是使模型能够理解和生成各种不同类型的文本。</p>
<p > <strong>(2)</strong><b>有监督微调阶段</b></p>
<p > 微调是一种有监督学习的过程,需要使用人工标注的数据集来对模型进行训练,可以使模型在生成的回复更加准确和具有针对性。</p>
<p ><strong> (3)强化学习阶段</strong></p>
<p > 通过与自己对话进行训练,不需要人工标注的数据集。</p>
<p > 使用近端策略优化(Proximal Policy Optimization,PPO)算法优化模型的生成策略。通过反复与模型进行对话,并根据生成回复的质量给予奖励或者惩罚,以调整模型的参数,使其生成更好的回复。</p>
页:
[1]