rtyu789 发表于 2024-10-10 23:12

《大语言模型:原理与工程实践》-评测+应用+工程实践

<div class='showpostmsg'># 一、大语言模型的评测

主要的测评维度:
1. 语言模型能力
2. 综合知识能力
   1. 常识推理,如PIAQ、SIQA、ARC等
   2. 阅读理解,如Natural Questions、TriviaQA等
   3. 世界知识,如MMLU,AGIEval等
3. 数学计算能力
4. 代码能力
5. 垂直领域

主要的测评任务:
1. 生活闲聊类
2. 方法论指导类
3. 语言理解类
4. 常识百科类
5. 数学计算类
6. 逻辑推理类
7. 摘要生成类
8. 文案创作类
9. 翻译类
10. 代码类
11. 多轮对话类

!(/data/attachment/forum/202410/10/230947jzkncrnvyv40vvrq.jpg.thumb.jpg?rand=992.6585322099935)

# 二、大语言模型的应用——提示词工程

提示词工程师弥补人类和大语言模型这两种思考方式之间差异的一项工作,让大语言模型的输出过程模仿人的思考过程

!(/data/attachment/forum/202410/10/230948ipe1p5fec1d9cgm7.jpg.thumb.jpg?rand=6410.109318548003)

提示词技术:
1. 零样本提示
2. 少样本提示
3. 思维链提示
4. 自我一致性提示
5. 思维树提示

检索增强交互技术,RAG技术

# 三、工程实践
## 3.1 数据并行
在训练过程中将数据集切分并装入各个计算节点,每个计算节点之间内容完全一致,将每个GPU中的数据进行梯度求导

!(/data/attachment/forum/202410/10/230948zedkdei3diizd8rl.jpg.thumb.jpg?rand=5610.468624230159)

## 3.2 模型并行

主要为了解决模型权重参数规模过大大问题,将一个模型的权重参数分割成多个小部分,每部分的权重参数足以被单个计算节点容纳。可分为张量并行和流水线并行

!(/data/attachment/forum/202410/10/230949i87qqz7gaq13qqg8.jpg.thumb.jpg?rand=2492.0357225770863)

!(/data/attachment/forum/202410/10/230950qmgtqght4yu2726g.jpg.thumb.jpg?rand=4894.4184796594855)


## 3.3 ZeRO并行
减少数据并行训练中的存储冗余,在多个计算节点之间切分这些数据,有效减少了每个设备上需要存储的数据量

!(/data/attachment/forum/202410/10/230950n8jseo4j0q25ss58.jpg.thumb.jpg?rand=2999.812431161426)

!(/data/attachment/forum/202410/10/230951yj0jbjtbl50eeit6.jpg.thumb.jpg?rand=9394.463011850065)
## 3.4 训练优化

1) IO优化
优化方案一:高可用的大容量存储服务+本地缓存。适用于训练TB级别的数据量

!(/data/attachment/forum/202410/10/230952h3rgwjgng7fd8dn7.jpg.thumb.jpg?rand=6308.319707358532)

优化方案二:高可用的大容量存储服务+高性能分布式缓存。适用于训练几十TB-几百TB级别的数据量

!(/data/attachment/forum/202410/10/230952alg2c2v207en727n.jpg.thumb.jpg?rand=593.9380741255928)


2) 通讯优化
在多机、多节点的通讯中,进行合理的通讯优化,单机内节点使用NVIDIA专有高速链接NVLikn,多机之间通过以太网或者RDMA网络通讯

!(/data/attachment/forum/202410/10/230953jv2nt5ehhwe6tebn.jpg.thumb.jpg?rand=5180.760821871213)

3) 稳定性优化
1. 问题排查和预防,容量监控,流量监控,小规模数据量的Demo测试
2. 故障及时发现:训练中断或训练异常卡住的情况
3. 快速恢复:故障发生时,采取有效手段快速恢复

# 参考资料
[大模型分布式训练并行技术(二)-数据并行](https://zhuanlan.zhihu.com/p/650002268)
[大模型分布式训练进阶之路:数据并行、管道并行、张量并行、3D并行](https://blog.csdn.net/python123456_/article/details/141557678)</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                               
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>
页: [1]
查看完整版本: 《大语言模型:原理与工程实践》-评测+应用+工程实践