本书是2023年不可错过的AIGC入门读物,是介绍大语言模型时代ChatGPT的重要资料,由人工智能独角兽企业硅基智能核心团队编纂而成,结合生动的比喻和有趣的案例,从大模型的一个典型场景切入,详细解读了AIGC的由来及发展历程,探讨大模型在图像视频生成,短视频、数字人制作,语音合成、克隆与变换等方面的应用。书中还涉及了一些经典商业案例的解读,不是单纯的纸上谈兵。这样一本理论与实践相结合的书,读起来饶有趣味。
前言
我们站在一个美丽新世界的入口。这是一个令人兴奋的,同时充满了不确定性的世界,而你们是先行者。
—霍金
每一次技术革新带来的冲击都是令人震撼的。还记得上一次人工智能让人们惊叹的时刻,是AlphaGo(谷歌的人工智能程序)出现的时候。之后,人们坚信人工智能一定会爆发。但究竟会在哪一天爆发,以怎样的形式爆发,人们无法预测。随着时间的流逝,人们对人工智能爆发的预期已经逐渐淡漠了。时光荏苒,转机出现在2022年。Stable Diffusion 模型与ChatGPT的横空出世,犹如惊雷炸响在人工智能领域。
2022年8月,英国开源人工智能公司(Stability AI)发布了 Stable Diffusion 模型。该模型可以根据用户输入的文字描述自动生成图像,生成的效果可达到专业画师水平。AI 绘画领域的“战争”一触即发。
2022年11月, 美国人工智能研究实验室(OpenAI)推出了其最新作品—ChatGPT。它是一款AI驱动的自然语言处理工具,能够通过学习和理解人类的语言与人进行对话,还能根据聊天的上下文与人进行互动,像人类一样聊天交流,甚至能完成撰写邮件、视频脚本、文案、代码等任务。ChatGPT的出现为AIGC这股热潮又添了一把新柴。
AI绘画与自然语言处理都属于人工智能领域的AIGC范畴。AIGC是Artificial Intelligence Generated Content 的缩写,即人工智能生成内容。它包含了利用人工智能生成内容的所有技术。AIGC被认为是继PGC (Professionally Generated Content,专业生成内容)和UGC (User Generated Content,用户生成内容)之后的新型内容生产方式。AIGC在2022年取得了惊人的进步,其迭代速度大大加快。特别是由ChatGPT掀起的蝴蝶效应,正在AIGC领域引发颠覆性变革。我们认为这是以下多种因素综合导致的:
第一,互联网的不断发展使信息量呈现爆炸式增长,社交媒体的崛起剧烈地挑战着传统的内容创作方式。越来越多的内容创作者意识到,通过AIGC的方式来提高工作效率已经成为大势所趋。
第二,在短视频行业中,内容创作者因效率、成本等问题,无法一直满足用户娱乐及消费的需求。他们渴望生产出大量优质的视频,以便在碎片化时间中为用户带来更多的乐趣或者知识。
第三,在现代商业模式中,驱动力是产品本身及流量。以短视频为例,优秀的内容创作者可以吸引更多的流量,为用户提供更好的互动体验,从而实现盈利。
第四,AI技术一直致力于解放人的生产力,因此,人们呼吁将AI技术与内容创作相结合。尽管AI技术在生成内容上有所进步,但无法完全解决内容创作者创作效率低等问题。为了突破技术瓶颈,满足各行各业大量生成内容的需求,大量资本涌入内容生成行业。随着算力的提高和人力资源的增加,AI技术在生成内容方面取得了革命性的进步,为内容创作者提高效率和进行商业化落地提供了巨大机遇。
AIGC展现了两方面的优势:一方面,它可以快速生成大量高质量的内容,有效地解决内容创作的效率问题;另一方面,它可以生成富有创造性的内容,为艺术家们提供灵感。在这一背景下,众多从业者纷纷表示:AIGC将是AI的下一波浪潮。第一代AI更多应用在分析、识别领域,而AIGC实现了重大突破,它让AI有创造内容的能力,是对AI进行的一次全新的革命,将创造巨大的经济效益。通俗地说,AI开始具备联想及创作等能力,进一步拟人化。2023 年,AI从学术研究逐渐走向产业化,其与商业的融合形成互为支点的发展格局,进入产业规模商用期。AI技术将不断地对 AI 数字商业的各个领域进行渗透。量子位预测,AIGC将在 2~5 年内实现规模化应用,2030 年 AIGC 市场规模有望超过万亿元。 AIGC 将促进资产服务快速跟进,通过对生成内容合规评估、资产管理、产权保护、交易服务等,构成 AIGC 完整生态链,并进行价值重塑,充分释放其商业潜力。根据《中国AI数字商业产业展望2021—2025》中的数据可知,到 2025 年,中国生成式 AI 商业应用规模可达2070 亿元。
在AI发展的历程中,让机器学会创作一直难以被攻克。“创造力”也因此被视为人类与机器最本质的区别之一。然而,随着深度学习模型的不断完善、开源模式的广泛应用以及大模型商业化的可能性加大,AIGC会把人类的创造力赋予机器,从而将世界带入智能创作的新时代。
在这个时代高速发展的当口,及时准确地给科技工作者及社会大众介绍和普及AIGC技术,就显得非常重要。本书结合有趣的案例与深入浅出的技术讲解,向关注未来科技的从业者、创业者、投资人以及其他从事与AIGC相关的工作者介绍AIGC的底层技术、行业应用案例及商业落地场景,让大家都能够享受技术进步带来的红利,并在各自岗位上取得更多、更好的成绩。
司马华鹏,80后连续创业者,毕业于南京航空航天大学,复旦青腾未来文创学堂在读,民革党员。任南京硅基智能科技有限公司创始人、董事长、CEO,中国青年企业家协会会员、南京市雨花台区政协常委、南京市工商联执委、南京市青年商会常务副会长、雨花台区青年商会会长、南京文化协会副理事长、南京市创新型企业家、南京市金梧桐年度贡献人物奖、南京市科技创新先锋人物、江苏省2020年度互联网十大新锐人物 。于2017年创立硅基智能,公司5年内成为国家级专精特新小巨人,获得腾讯投资、招银国际、国新央企、海松资本、红杉资本、奇虎中财等9轮融资,估值超过60亿,拥有授权发明专利80项,注册商标100多项。
第1章 AIGC的由来及发展历程
1.1 人工智能发展的历程 // 003
1.2 什么是AIGC // 009
1.3 AIGC的发展历程 // 011
1.4 AIGC涉及的技术 // 012
1.5 AIGC技术的优点 // 013
1.6 AIGC技术的应用 // 014
第2章 硅之手——图像视频生成
2.1 图像生成方向 // 020
2.1.1 发挥创造力 // 021
2.1.2 激发灵感 // 026
2.1.3 可控创作 // 032
2.1.4 编辑图像 // 040
2.1.5 微调模型 // 046
2.2 视频生成方向 // 049
2.2.1 AI换脸 // 049
2.2.2 构建数字人 // 052
2.2.3 用文本生成视频 // 053
2.2.4 可控编辑现有视频 // 054
2.2.5 视频超分 // 056
2.3 3D模型方向 // 058
2.3.1 文本生成人体模型 // 058
2.3.2 文本生成3D模型 // 060
2.3.3 图像生成3D模型 // 061
2.3.4 草图生成3D模型 // 062
2.3.5 文本生成人体动作 // 063
第3章 硅之身——短视频、数字人时代
3.1 揭示短视频走红的原因 // 068
3.2 探究短视频的商业价值 // 070
3.2.1 沉浸式的广告呈现 // 071
3.2.2 灵活隐式的内容植入 // 072
3.2.3 爆发增长的内容带货 // 072
3.2.4 异军突起的网红 // 073
3.2.5 繁荣发展的短视频生态 // 074
3.3 内容生产者的困境 // 075
3.3.1 需求与供给的矛盾 // 075
3.3.2 门槛阻碍了内容生产与创新 // 077
3.4 数字人产业 // 078
3.4.1 通过数字人实现AIGC // 079
3.4.2 数字人助力AIGC,将开拓更大的商业空间 // 081
3.4.3 AI互动,数字人24小时直播 // 082
3.4.4 为创作者定制的基于数字人的AI短视频生成
平台 // 082
第4章 硅之脑——大语言模型时代
4.1 自然语言处理技术的历史沿革 // 088
4.1.1 词袋模型 // 088
4.1.2 词嵌入 // 090
4.2 生成式预训练模型 // 095
4.2.1 什么是生成模型 // 095
4.2.2 什么是预训练模型 // 096
4.2.3 从ELMo模型到Transformer模型 // 098
4.2.4 后Transformer模型时代 // 105
4.2.5 基于 Transformer 的预训练语言模型 // 107
4.3 GPT系列比较 // 122
4.3.1 三代GPT对比 // 124
4.3.2 提示词学习 // 131
4.4 ChatGPT的由来 // 139
4.4.1 从GPT-3到ChatGPT的发展历程 // 139
4.4.2 思维链提示—引出复杂推理能力 // 141
4.4.3 InstructGPT—与人类对齐,引出ChatGPT // 142
4.4.4 ChatGPT的出现 // 147
4.5 注释 // 147
第5章 硅之声——语音合成、克隆与变换
5.1 语音合成系统与模型 // 153
5.1.1 声学模型 // 155
5.1.2 声码器 // 158
5.2 语音合成相关技术 // 159
5.2.1 声音克隆 // 160
5.2.2 声音变换 // 166
5.3 注释 // 168
第6章 底层核心技术
6.1 扩散模型 // 173
6.1.1 去噪扩散概率模型 // 175
6.1.2 扩散模型改进 // 184
6.1.3 扩散模型应用 // 200
6.2 生成对抗网络 // 214
6.2.1 什么是GAN // 215
6.2.2 GAN的发展及应用 // 217
6.2.3 GAN训练 // 226
6.3 注释 // 231
第7章 经典商业案例
7.1 AIGC+影视传媒:拓展空间,提升质量 // 237
7.1.1 新闻采集 // 238
7.1.2 新闻生成 // 238
7.1.3 视频编辑 // 238
7.1.4 剧本生成 // 239
7.1.5 扩展影视角色和场景的创作空间 // 240
7.1.6 赋能影视剪辑 // 241
7.2 AIGC+电商:智能化电商,改变购物模式 // 242
7.2.1 商品3D建模 // 243
7.2.2 天猫家装城3D版 // 244
7.2.3 鹿班 // 245
7.2.4 虚拟主播 // 245
7.3 AIGC+教育:赋能教育,引领教育变革 // 246
7.3.1 个性化学习 // 246
7.3.2 智能化评估 // 247
7.3.3 教学辅助工具 // 247
7.4 AIGC+医疗:智能医疗,诊疗新势 // 248
7.4.1 疾病诊断和治疗 // 249
7.4.2 药物研发 // 249
7.4.3 精准医疗 // 250
7.5 AIGC+金融:大数据与人工智能革新 // 251
7.5.1 风险评估 // 252
7.5.2 投资组合管理 // 253
7.5.3 反欺诈 // 253
7.5.4 市场预测 // 254
7.6 AIGC+农业:革新农业,未来可期 // 255
7.6.1 农作物种植和管理 // 255
7.6.2 农业物流和供应链管理 // 256
7.6.3 农业机器人和自动化 // 256
7.7 OpenAI // 257
7.7.1 概述 // 257
7.7.2 技术与研究 // 258
7.7.3 商业应用 // 262
7.7.4 OpenAI的影响 // 263
7.8 注释 // 264
第8章 AIGC的风险与展望
8.1 AIGC的风险与不足 // 268
8.1.1 关键技术仍然不够成熟 // 268
8.1.2 监管难度加大 // 269
8.1.3 AIGC的其他负面影响 // 270
8.2 对AIGC的展望 // 271
8.2.1 AI技术的持续发展 // 271
8.2.2 AIGC产品的不断丰富 // 272
8.2.3 AIGC生态的逐步完善 // 273