286|0

150

帖子

2

TA的资源

一粒金砂(高级)

楼主
 

《大语言模型开发:用开源模型开发本地系统》-开源大语言模型的架构、训练和推理过程 [复制链接]

     首先感谢EEWorld和清华大学出版社提供此次书籍阅读和分享的机会,对本书作者的辛勤付出也表示感谢。

     本文分享书中对“理解开源大语言模型的架构、训练和推理过程”的阅读理解。

一、引言

       本书共分十二章,书中主要讲解了LLM的一些关键技术,本书以开源模型Llama2为主要研究对象就关键技术进行了阐述和介绍。该书并不是一本开发LLM的专著,而是将注意力放在了LLM开发的关键技术和细节上,以开源模型的代表之一Llama2为着手点,就PyTorch库在Llama2的应用进行了解析,书中有代码讲解。

        通览此书,感觉书中内容详实,对LLM的发展脉络进行了整理,介绍了AI深度学习的一些基本知识,对一些基础内容进行了概述,如PyTorch应用等,对NLP的主要内容,通过一章的幅度进行了讲解,不失为一本学习NLP技术的比较难得的参考书。

二、模型架构

         书中讲到,LLM模型架构,比较成熟的,是基于transformers的架构,无论闭源的GPT,还是开源的Llama。

         transformer架构以自注意力机制技术得到广泛推广和应用,分为编码器、解码器和混合编解码器,它们因应用而有不同。

三、模型训练

        在LLM的模型训练中,主要是大模型的预训练和模型微调相结合。

        对于大模型的预训练,首先对数据集进行划分,分为训练集、验证集和预测集。由于模型的预训练,采用DNN的形式进行,通过训练得到的NN的权重参数和偏差参数的数量非常大,因此将这类模型称为大模型。

        LLM的训练是无监督学习模式,基于transformer架构,通过模型训练来提取模型的特征,这与CNN和RNN的架构有所不同。

四、模型推理过程

        模型推理过程,按书中的描述,主要分为两类:一类是逻辑自回归,按照之前的语料预测下一词元,典型代表是GPT;一类是自编码模型,这类模型通过上下文关系,来推理得到预测词元,典型的代表是BERT。

五、小结与讨论

        总体来说,对于入门级别的读者来说,书中提供的内容和资料还是比较详实和充分的,虽然在成书的当年Meta又推出了Llama3,但对于Llama2的解析,个人认为并不过时,毕竟架构和开源的大方向是不变的,有了这个基础,对于我们了解和应用Llama3也是有帮助的。

 

推荐阅读和参考资料:1、transformer架构。

2、Llama3技术论文。

 

点赞 关注

回复
举报
您需要登录后才可以回帖 登录 | 注册

查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
推荐帖子
示波器基本搞好了,走,收拾包包回家去过年了

期末没事情干,走,做示波器耍, 从最开始下定决心做,到写程序,买元件 做了差不多两个月,紧到起是期末考试、课程设计 来烦 ...

LPCXpresso LPC1114 SSP读写SD卡成功分享

通过多次,多天的不断努力终于把SSP总线方式下读写SD卡搞点,和大家一起分享一下。自带的程序部分不在叙述,只说明一下自己编写 ...

吃饱了,聊聊咱的红外遥控的编码和解码

红外线遥控是目前应用最广泛的一种通信和遥控手段。由于红外线遥控器具有体积小、功耗低、功能强、成本低等特点。因此在家电产品 ...

这是最后一篇了,五精华无悬念:STM32的IAP方案

STM32的IAP方案 几乎所有的同类书籍都介绍综合性的应用示例如“万年历 + 温度显示 + 闹钟响铃 + 计时表”这样的一个实时时钟 ...

有关环境搭建的一个小细节

拿到板子接近一个月了,可惜由于好多其他的事一直未能用那个板子做什么,都是一直看着OS的API感觉看懂了,但是过几天又没有什么 ...

用的是中颖的SH39F004 电池管理芯片!为什么第六节电池开始的滤波不是对GND滤波,...

用的是中颖的SH39F004 电池管理芯片!为什么第六节电池开始的滤波不是对GND滤波????而是VC6A。谁用过的?

哪家热风枪、焊台值得拥有。

最近想换热风枪、焊台,大家给点建议呀!预算2000左右。

【花雕动手做】有趣好玩的音乐可视化系列小项目(26)--LED 超立方体

本帖最后由 eagler8 于 2022-10-5 08:59 编辑 偶然心血来潮,想要做一个声音可视化的系列专题。这个专题的难度有点高,涉及面 ...

立插的Type-C母座,应该怎么布两对USB的差分线?

715826 如上图,是立插的Type-C母座,其中 6、7两组是USB的差分线。 B6与A6可以连接 ,但是A7与B7无法在插座部分连接,中 ...

【NUCLEO-U083RC】I2C总线设备的兼容性测试

测试介绍 为了测试STM32U083的I2C性能,本次安排的测试使用sht21作为测试设备。sht21是一款较为流行的空气温湿度传感器,sht2 ...

关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表