编辑推荐
(1)作者背景资深:4位作者都是博士,现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。
(2)作者经验丰富:4位作者在大厂工作多年,在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。
(3)工程化视角:本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用,展示了这一系统性工程的复杂性与实现路径。
(4)从入门到进阶:从大模型的原理和基础构件入手,到大模型的分布式训练和各场景应用,再到大模型的优化,零基础入门,成为大模型高手。
(5)从当下到前沿:既详细讲解了当下主流的大模型技术和实操方法,又梳理和盘点了大模型前沿技术理论和实战应用。
内容简介
这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。
除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外,书中进一步介绍了大模型优化的高级话题和前沿技术,如模型小型化、推理能力和多模态大模型等。最后,本书讨论了大模型的局限性与安全性问题,展望了未来的发展方向,为读者提供了全面的理解与前瞻性的视角。
无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必 备指南。
作者简介
苏之阳,博士,毕业于香港科技大学,现任小冰公司研发总监,专注于自然语言处理产品的研发工作。他主导了小冰框架、小冰智能评论和XEva等项目的架构设计和开发,特别是在大语言模型的研发与应用方面具有丰富的经验。他曾任微软公司资深研发工程师,并在国际学术会议和期刊上发表多篇高水平学术论文。他的研究兴趣涵盖自然语言处理、深度学习以及云计算等领域。
王锦鹏,博士,致力于自然语言处理和推荐系统的研发,拥有在微软亚洲研究院等科技公司担任关键技术岗位的经验,参与了Office文档预训练、推荐大模型等多个重要项目的研发和优化工作。在国际会议和学术期刊上发表了逾30篇高质量论文,并在ACL、EMNLP、AAAI等顶级会议中担任审稿人。
姜迪,博士,拥有十余年工业界研发和管理经验,在雅虎、百度等知名互联网企业工作期间,为企业的多个关键业务研发了核心解决方案。在自然语言处理和数据挖掘领域的会议和期刊上发表了数十篇论文并出版了多部学术专著,获得了多个最佳论文奖和CCF奖项,还在IJCAI、WWW、AAAI、CIKM、COLING等多个会议担任委员会成员。
宋元峰,博士,曾就职于百度、腾讯等互联网公司,在人工智能产品开发领域拥有丰富的经验,研究涉及自然语言处理、数据挖掘与可视化等方向,并在KDD、ICDM等国际学术会议和期刊上发表多篇论文。