《大语言模型开发:用开源模型开发本地系统》第5-8章心得之粗浅拆解Llama2架构与参...

a54137621 · 发表于2024-11-28 02:03

《大语言模型开发:用开源模型开发本地系统》第5-8章心得之粗浅拆解Llama2架构与参... [复制链接]

读过《大语言模型开发：用开源模型开发本地系统》第5-8章之后，深感收获丰富。

作者在第5章中深入剖析了Llama模型架构，独到之处在于通过计算公式揭示了7B模型中各个层的参数数量：token嵌入层占用4096×32000个参数，32个Transformer层中的注意力层各有4×4096×4096个参数，而feed-forward层更是达到了4×11008×4096个参数。这种精确到每个张量维度的剖析方式，让读者真正理解了大模型的参数构成。作者还创新性地提供了多种验证参数量的方法，既可以用transformers.Model.num_parameters()直接获取，也能通过解析safetensors文件手动统计 —— 这种多角度的验证思路令人耳目一新。

第6章讲解模型训练，别具匠心地展示了量化优化全流程。从经典的8位量化到前沿的4位NF4量化，作者不仅解释了原理，还通过实际代码展示了如何用BitsAndBytes实现量化推理。LoRA技术的实现尤为精彩：通过将d×k维的权重矩阵分解为d×r和r×k两个低秩矩阵(其中r远小于d和k)，显著降低了可训练参数量。书中展示了完整的LoRA训练代码，包括如何用PEFT库构建LoRA配置、如何将LoRA权重注入基座模型、如何设置adapter_name实现多个LoRA动态切换等关键细节。这些代码示例都经过精心设计，既照顾了工程实践，又不失理论深度。DeepSpeed的ZeRO优化、FairScale的完全分片并行(FSDP)等分布式训练技术的实现细节，为大规模模型训练提供了可落地的解决方案。

第7章——监督微调章节提供了扎实的工程实践指导。作者深入浅出地讲解了如何利用datasets库处理SQuAD等标准数据集，包括了从原始JSON到模型输入格式的完整转换流程。特别精彩的是OSSIST1数据集的处理案例，作者通过具体代码演示了如何处理问答对、如何添加系统提示、如何规范化数据格式。这种贴近实战的讲解方式，为读者构建私有训练集提供了清晰范本。Alpaca、Vicuna等知名微调模型的训练秘诀也得到了详细解读，包括数据清洗策略、训练参数设置等关键环节。

第8章是介绍RLHF的章节，这一章尤其值得深入研究。作者设计了三阶段训练流程：先是基础SFT训练，接着构建奖励模型，最后才是真正的PPO训练。每个阶段都有完整的代码示例，奖励模型的训练尤为精妙 - 通过人工标注的偏好数据构建排序损失，用双塔架构计算正负样本得分。PPO训练中的KL惩罚项计算、价值函数估计、策略梯度更新等核心步骤都配有详实的代码实现。这种层层递进的讲解方式，让读者能够完整理解RLHF的工作机制。人类反馈数据的处理也很有见地，作者展示了如何将主观评分转化为客观reward信号，如何通过advantage estimation来平衡探索与利用。

读罢这几章，不禁想起香农提出信息论时说过："在通往数学顶峰的途中，有许多小路可走，但最好的路往往蕴含着优雅的简单。"Meta能用如此优雅的方式开源Llama 2，为整个AI社区带来了曙光。这也启发我们：构建AI系统不能只追求规模和性能，更要在算法设计、工程实现中追求简约之美。作者对开源项目的深度解读，为我们搭建私有化LLM铺平了道路。

整体上来说，鉴于我过去一年到现在对于AI算法原理的深刻学习，以及动手实践做了数十个大小的项目，其中讲解的70-80%比例的内容我都打好了基础，整体阅读以上章节的内容都不算吃力，个别对于数学要求高的部分知识需要再额外加强。

未来一周要忙于各种繁重的事务，这次先快速读完，后面再集中精力投入到本书第三部分（第9-10章）的研读。