从零构建大模型：算法、训练与微调

作者：梁楠

2025.4.1 出版

可语音朗读

开通电子书VIP

67.32得到贝

主编推荐语

一本系统且实用的大模型构建指南。

内容简介

本书旨在引领读者从基础知识起步，逐步深入探索大模型的算法原理、训练方法及微调技术。全书共12章，涵盖了Transformer模型的基础理论，如Seq2Seq模型、分词、嵌入层和自注意力机制等关键概念；并深入剖析了GPT模型的核心实现与文本生成过程，以及BERT模型的预训练和微调技术。同时，也对ViT（视觉Transformer）模型的架构、训练方法，以及高阶微调策略如Adapter Tuning和P-Tuning进行了详尽讲解。此外，还系统地介绍了数据处理、数据增强、模型性能优化（包括混合精度训练和分布式训练）、对比学习、对抗训练、自适应优化器、动态学习率调度，以及模型蒸馏与剪枝技术等多个方面。最后，通过应用案例，展示了模型训练和微调的完整流程，助力读者将理论知识转化为实践技能。

出版方

清华大学出版社