kit7828 发表于 2024-8-21 10:03

《大语言模型:原理与工程实践》-大模型概述

<p>感谢EEWorld提供了此次书籍阅读和分享的机会。<br />
一、《大语言模型:原理与工程实践》概览<br />
电子工业出版社的《大语言模型:原理与工程实践》包装精美,还是彩色印刷(说实话,除了数字媒体等领域的IT书籍,很少有彩色印刷的),24年3月第一版,蛮时新的。</p>

<div style="text-align: center;"> &nbsp;</div>

<p><br />
二、书籍目录<br />
本书分了10章,第1-2章介绍了大模型的概念和基础技术;第3-4章介绍了大模型的数据训练;第5章介绍了大模型的微调;第6章介绍了大模型的强化学习;第7章介绍了大模型的评测;第8章介绍了大模型的应用;第9章为工程实践;第10章手把手指导训练7B大模型。<br />
评测页面有详细的目录内容<a href="https://bbs.eeworld.com.cn/elecplay/content/0800acd0" target="_blank">https://bbs.eeworld.com.cn/elecplay/content/0800acd0</a><br />
拍的照片如下:</p>

<div style="text-align: center;">
<div style="text-align: center;">
<div style="text-align: center;">
<p> &nbsp;</p>
</div>
</div>
</div>

<p>三、大语言模型概述<br />
大语言模型LLM(Large Language Model)基于深度学习的Transformer框架(AI领域一统天下的模型),通过巨量的训练数据,优化了巨大的参数量,得到的人工智能模型,就是一个能够理解和生成自然语言的AI程序。严格说来,应该是机器智能的语言智能的其中一种,在自然语言处理,机器翻译,机器人问答以及文本生成,上下文语义理解等方面有着广泛的应用。<br />
大语言模型用早期的根据词频预测下个词开始,经历了深度学习的循环神经网络RNN,以及在长序列词语中更新依赖关系的长短记忆LSTM网络,再到后期采用了注意力机制进行编解码的Transfromer框架,从2018年的GPT-1,2019年的GPT-2,2020年的GPT-3,以及2022年的ChatGPT,到现在的GPT-4,GPT-4o;有基于编码器的BERT模型、基于解码器的GPT模型,以及编码解码器的BART、T5等模型。</p>

<p> &nbsp;<br />
四、语言模型的大小的核心要素<br />
决定语音模型大小的核心要素主要为模型大小、训练规模和计算规模;模型大小取决于参数规模及其类型,GPT-2约15亿参数,参数文件大小约1.6G;GPT-3约1750亿参数,参数文件大小约350G;训练规模按照1本书10万各个&ldquo;Token&rdquo;计算,1个图书架100本书,GPT-2约280亿Token,约2800个图书架;GPT-3约3万亿Token,约30万个图书架;就计算资源来讲,GPT-3的计算资源规模则类比成全球顶尖的超算中心,其参数数量相当于整个国家的图书馆藏书量,运行这样的模型,需要动员整个国家的计算资源,包括成千上万的计算机和服务器,持续不断地进行高强度的计算和数据处理;而参数量达到1.8万亿的GPT-4模型,训练规模约13万亿Token,一次训练的成本约为6300万美元,在中等配置的笔记本电脑(100GFLOPs)上训练需要7百万年。</p>

<p> &nbsp;</p>

<p> &nbsp;<br />
五、大语言模型的应用<br />
大语言模型不再一味追求超大规模,而趋向于能够同时处理文本、图像、语言等多种类型的数据,大模型的应用主要在文生图像,文生视频以及图生视频方面,基于扩散模型的图像识别也可以用于图像的理解,如地标识别等。多模态的LLM的高维互联、信息贯通是大语言模型的趋势,目前的主要应用在金融、计算机、教育、医疗、工业及艺术设计等领域,并在逐步垂直深入,密切影响我们的生活和工作的方方面面。</p>

<p> &nbsp;</p>
页: [1]
查看完整版本: 《大语言模型:原理与工程实践》-大模型概述