
内容简介
本书详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战,本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。
作者简介
彭勇 等著,”彭勇 国家公派留法博士,全球金融专业人士协会(GIFP协会)特聘专家,2020年欧耕互联网保险十大风云人物,《数据中台建设:从方法论到落地实战》作者。从事大数据和人工智能在金融行业的研究与应用工作约18年,负责相关的落地项目超过100个,在金融行业数据中台建设、数字化营销和运营体系建设、大数据和人工智能赋能、大模型研发和应用、风险管理、数智化转型等方面经验丰富。现就职于苏州数擎智技术有限公司和北京长正咨询有限公司,担任两个公司的总经理。 彭旋 本科和硕士毕业于中国石油大学(华东)数学与应用数学专业,从事多模态大模型、知识图谱、信息抽取、自然语言处理等方面的研发工作,具备丰富的多模态大模等经验。
主编推荐
(1)单模态大模型ChatGPT只是过渡产品,多模态大模型(类似于GPT-4)才是AI 的未来。掌握了多模态大模型技术就等于先人一步打开了通往AGI的大门。
(2)详述ChatGPT的核心技术,以及GPT的进化史和创新点,让你全面了解大模型技术的演化过程和未来的发展趋势。 (3)详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。
(4)多模态大模型的费用昂贵是很多公司的痛点。通过微调和量化压缩,让中小公司也能用得起多模态大模型。
目录
第1章OpenAI一鸣惊人带来的启示11.1OpenAI的成长并非一帆风顺2
1.2OpenAI的成功因素5
1.3OpenAI特殊的股权设计带来的启示7
1.4思考11
第2章自然语言处理的发展历程13
2.1自然语言处理的发展史14
2.1.1背景介绍14
2.1.2自然语言处理发展的7个阶段15
2.2从BERT模型到ChatGPT30
2.3BERT模型到底解决了哪些问题31
2.4BERT模型诞生之后行业持续摸索38
2.5ChatGPT的诞生41
2.5.1InstructGPT模型的构建流程42
2.5.2ChatGPT和InstructGPT的差异44
2.5.3ChatGPT和BERT模型在公开数据集上的测试45
2.5.4高质量的数据标注46
2.6思考48
第3章读懂ChatGPT的核心技术50
3.1基于Transformer的预训练语言模型50
3.2提示学习与指令微调55
3.3基于人工反馈的强化学习59
3.4思维链方法62
3.5集成学习
3.6思考67
第4章看清GPT的进化史和创新点68
4.1GPT技术的发展历程68
4.1.1GPT-1技术的发展历程68
4.1.2GPT-2技术的发展历程72
4.1.3GPT-3技术的发展历程73
4.2GPT的创新点总结75
4.3思考77
第5章大模型+多模态产生的“化学反应”78
5.1多模态模型的发展历史78
5.2单模态学习、多模态学习和跨模态学习的区别82
5.3多模态大模型发展的重大里程碑85
5.4大模型+多模态的3种实现方法94
5.5多模态大模型的效果评估99
5.6思考102
第6章多模态大模型的核心技术103
6.1文本多模态技术104
6.1.1基于模板的图像描述方法105
6.1.2基于检索的图像描述方法105
6.1.3基于深度学习的图像描述方法105
6.2图像多模态技术106
6.2.1基于对抗网络的文本生成图像方法107
6.2.2基于VAE的文本生成图像方法109
6.2.3基于扩散模型的文本生成图像方法110
6.3语音多模态技术111
6.3.1基于非深度学习的文本生成语音技术111
6.3.2基于深度学习的文本生成语音技术113
6.4多模态技术116
6.4.1非扩散模型的文本生成视频技术117
6.4.2基于扩散模型的文本生成视频技术118
6.5跨模态多重组合技术119
6.6多模态大模型高效的训练方法120
6.7GPT-4多模态大模型核心技术介绍121
6.8多模态技术的发展趋势122
第7章国内外多模态大模型对比124
7.1国内多模态大模型介绍125
7.1.1LLaMA-AdapterV2125
7.1.2VisualGLM-6B128
7.1.3mPLUG-Owl129
7.2国外多模态大模型介绍131
7.2.1VisualChatGPT131
7.2.2InstructBLIP132
7.2.3MiniGPT-4134
7.3多模态大模型评测数据集135
7.3.1国内评测数据集136
7.3.2国外评测数据集136
7.4多模态大模型的评测标准137
7.4.1国内评测标准137
7.4.2国外评测标准138
7.5多模态大模型对比139
7.5.1感知能力评测139
7.5.2认知能力评测141
7.6思考145
第8章中小公司的大模型构建之路146
8.1微调技术介绍147
8.1.1LoRA技术148
8.1.2AdaLoRA技术149
8.1.3QLoRA技术149
8.1.4微调加DeepSpeed的ZeRO-3150
8.2模型压缩技术介绍151
8.2.1剪枝151
8.2.2知识蒸馏153
8.2.3量化压缩154
8.3微调实战155
8.3.1部分参数微调实战156
8.3.2全参数微调实战157
8.4模型压缩实战159
8.4.18位量化压缩实战159
8.4.24位量化压缩实战160
8.5思考162
第9章从0到1部署多模态大模型163
9.1部署环境准备163
9.2部署流程165
9.3使用Flask框架进行API开发167
9.4使用Gradio框架进行Web页面开发171
9.5其他部署方法介绍176
9.6部署过程中常见的问题总结179
第10章多模态大模型的主要应用场景183
10.1多模态大模型的应用图谱183
10.1.1多模态大模型的30个基础应用183
10.1.2多模态大模型在六大领域中的应用189
10.2多模态大模型在金融领域中的应用193
10.2.1语音质检194
10.2.2智能顾问196
10.3多模态大模型在出行与物流领域中的应用201
10.4多模态大模型在电商领域中的应用203
10.4.1智能客服203
10.4.2智能试穿205
10.5多模态大模型在工业设计与生产领域中的应用207
10.6多模态大模型在医疗健康领域中的应用210
10.7多模态大模型在教育培训领域的应用215
10.8思考216
第11章用多模态大模型打造AI助理实战218
11.1应用背景218
11.2方法论介绍219
11.2.1思维链解决复杂的推理问题219
11.2.2思维树进一步提升推理能力220
11.2.3采用插值法解决长文本输入问题220
11.3工具和算法框架介绍222
11.3.1使用的工具222
11.3.2使用的算法框架222
11.4优化逻辑介绍224
11.4.1如何提高多轮对话能力225
11.4.2如何提高角色扮演能力225
11.4.3如何提高长文本阅读能力226
11.5多模态大模型的部署227
11.6多模态大模型的性能评估228
11.6.1综合性能评估228
11.6.2长文本阅读示例229
11.6.3多轮对话示例230
11.6.4角色扮演示例233
11.6.5LangChain框架赋能Ziya在限定域内的问答示例234
11.7思考235
第12章多模态大模型在情绪识别领域的应用236
12.1应用背景和待解决的问题236
12.2方法论介绍238
12.3工具和算法框架介绍243
12.3.1算法的输入和输出243
12.3.2算法框架的整体构建流程244
12.3.3文本预训练任务245
12.3.4图像预训练任务247
12.3.5多模态预训练任务248
12.3.6算法的求解249
12.3.7算法的应用250
12.4优化逻辑介绍251
12.5部署流程253
12.6效果评测254
12.6.1评测数据集254
12.6.2评测指标257
12.6.3评测结果257
12.7思考259
第13章大模型在软件研发领域的实战案例与前沿探索261
13.1LLM在软件研发过程中的单点提效262
13.1.1基于GitHubCopilot的代码片段智能生成262
13.1.2基于CopilotX实现增强的代码片段智能生成266
13.1.3基于GitHubCopilotX实现对选中代码的理解与解读268
13.1.4基于GitHubCopilotX的PullRequests提效269
13.1.5基于LLM实现的“代码刷”270
13.1.6使用CopilotVoice实现语音驱动的代码开发272
13.1.7使用CopilotCLI实现命令行的自动生成274
13.1.8使用TestPilot实现单元测试用例的自动生成275
13.1.9更多的应用277
13.2代码LLM为软件研发带来的机遇与挑战277
13.2.1对于软件研发来说,什么变了278
13.2.2对于软件研发来说,什么没有变278
13.3在LLM时代,对软件研发的更多思考283
13.3.1思考1:替代的是“码农”,共生的是工程师283
13.3.2思考2:有利于控制研发团队规模,保持小团队的效率优势284
13.3.3思考3:不可避免的“暗知识”284
13.3.4思考4:Prompt即代码,代码不再是代码285
13.3.5思考5:PrompttoExecutable软件研发范式的可能性286
13.4思考286
相关图书
《人工智能的边界》是张军平教授最新推出的一本关于AI的力作。
张军平,复旦大学计算与智能创新学院教授,中国自动化学会普及工作委员会主任。研究方向包括人工智能、图像处理等。连续四年入选全球前2%顶尖科学家榜单终身科学影响力排行榜。著有《人工智能极简史》《爱犯错的智能体》《人工智能会超越人类吗》等书。
《MCP极简入门》
这是一本能轻松带领读者快速理解并使用MCP,从而跨越“大模型调用”到“智能系统构建”之间鸿沟的著作。它以简洁明了、图文并茂、通俗易懂的方式,从基础知识、工作原理、服务架构和应用开发等多个角度对MCP进行了全方位的讲解。即便你没有任何AI基础,也能充分了解并简单使用MCP,从而达到更好地使用AI的目的
《人工智能简史》
《人工智能简史》是不容错过的佳作,本书由尼克精心撰写,2017 年 11 月由人民邮电出版社出版,自问世便备受瞩目,成为了解人工智能发展的经典读物。入选中华优秀出版物奖、文津图书奖,获 “中国智能科学技术最高奖” 吴文俊人工智能科学技术奖等,彰显在人工智能科普领域的重要地位与卓越品质。
《人工智能的底层逻辑》
《人工智能的底层逻辑》由清华大学出版社出版,是一本将复杂的人工智能知识以通俗易懂方式呈现的佳作。它能引领读者深入探索人工智能领域,无论是对专业人士夯实基础,还是普通读者了解前沿科技,都具有极高价值。
暂无评论...