AIGC&ChatGPT发展专题分析报告

2023-02-19 未来智库

(报告出品方/作者:华福证券,钱劲宇)

Part 1 AIGC行业介绍及发展趋势

AIGC产业生态迎来爆发期

AIGC最基本的能力是生成内容,包括文本、图像、**、代码、3D内容或者几种媒介类型转换组合 形成的“多模态内容”。生成算法、预训练模型、多模态等AI技术累积融合,以及深度模型方面的 技术创新,共同催生了AIGC的大爆发。 AIGC是相对于过去的PGC、UGC、AIUGC而提出的。过去的传统AI偏向于分析能力,基于已有内容 ;现在的AI基于训练数据和生成算法模型,可以自主生成各种形式的内容和数据。

2022年,AIGC(AI-Generated Content,人工智能生成内容)爆火出圈。  2022年10月,Stable Diffusion、DALL-E 2、Midjourney等可以生成图片的AIGC模型风行一时; 2022年12月,OpenAI发布能够回答问题、生成代码、构思剧本和小说的聊天机器人模型ChatGPT ,将人机对话推向新高度。

目前,从提供预训练模型的基础设施层公司到专注打造AIGC产品和应用工具的应用层公司,围绕 AIGC生长出繁荣的生态,技术创新引发的应用创新浪潮迭起,我国有望凭借领先的AIGC技术赋能各行 各业。

AIGC市场规模到2025有望达500亿元

在传统PGC和UGC模式下,内容生成领域存在产能约束 和质量约束,PGC受制于人力资源的供给侧**,UGC 虽然降低了PGC的生产门槛,但因用户创作能力和工具 功能的局限存在质量约束。AIGC突破内容生成产能和质 量约束,应用广泛,市场规模将会大幅扩大。 根据《我国AI数字商业产业展望2021-2025》报告,预 测AI数字商业内容的市场规模将从2020年的40亿元,增 加到2025年的495亿元。

AIGC产业生态体系呈现上中下三层架构

目前AIGC产业生态体系的雏形已现,呈现上中下三层架构。 第一层为上游基础层,是由预训练模型为基础搭建的AIGC技术基础设施层。 第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。在预训练的大模型基础上快速抽取生成 场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署。第三层为应用层,即面向C端用户的文字、图片、音**等内容生成服务。

AIGC将逐步革新数字内容的生产和艺术的创造

AIGC的社会价值体现为革新数字内容与艺术创造领域,并将辐射到其他领域和行业,孕育新的技术形 态和价值模式,甚至会成为通往AGI(通用人工智能Artificial general intelligence)的可能性路径。

AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求 丰富的行业取得重大创新发展,市场潜力逐渐显现。 在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的AIGC应用都在快速发展, 未来AIGC的应用领域将会进一步拓宽。

AIGC落地场景:AI绘画、AI建模、聊天机器人ChatGPT等

2022年被称为AIGC元年,多个AI领域迅速发展,绘画、音乐、新闻创作、主播等诸多行业被重新定义 。目前AIGC正在从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作 素材为代表)转移,文本-图像-**的跨模态/多模态内容生成正在进展中。 已有的落地场景包括AI绘画、AI建模、聊天机器人ChatGPT等。

Part 2 ChatGPT介绍及发展趋势

文本生成式AI:聊天机器人ChatGPT火热来袭

OpenAI:由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联 合创始人彼得·蒂尔等硅谷科技大亨于2015年12月创立,主要用于制造“通用”机器人和使用自然 语言的聊天机器人。

2020年5月, OpenAI 发布了以Transformer为基础的NLP(自然语言生成)预训练模型GPT-3,此 前已经历过GPT-1、 GPT-2。

2022年11月30日,OpenAI公司发布聊天机器人模型ChatGPT,ChatGPT对GPT-3模型进行微调, 并引入RLHF(基于人类反馈的强化学习)方法。只需向ChatGPT文字提出需求,即可让其完成回答 问题、书写代码、创作文本等指令,发布一周内用户量超过百万。

ChatGPT可能改变搜索引擎使用方式,挑战谷歌霸主地位

ChatGPT属于AIGC的范畴,能够回答连续性的问题、质疑不正确的假设,甚至拒绝不合理的要求,大幅提 高了AI在人机对话时的准确度和可控性,将有望改变人类使用搜索引擎的方式。Open AI的CEO称AIGC的最终目标是做一个类似于新时代的搜索引擎。目前ChatGPT展示出来的内容输出 质量和内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。 外媒The Information 报道显示,微软可能在2023年3月之前将ChatGPT引入自家的搜索引擎Bing,用人 工智能来回答一些搜索查询,此举或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。 StatCounter数据2020-2022谷歌全球市场份额超90%,ChatGPT出现将挑战谷歌搜索引擎的霸主地位。

微软追加投资,ChatGPT商业化进程加快

微软近日考虑宣布将向OpenAI进行近百亿美元的投资,此前微软分别于2019年和2021年对OpenAI进行投 资,若此次投资完成微软将拥有OpenAI 49%的股权。微软对单个100GPU的收费是3美元/时,按照 ChatGPT加载模型和文本的速度,生成一个单词的费用约为0.0003美元;而ChatGPT的回复通常至少有 30个单词,因此ChatGPT每回复一次,至少花OpenAI 1美分。微软既能提供钱,又能提供算力。 2023年1月,ChatGPT的活跃用户数或已达1亿,可能是史上增长最快的消费者应用。因访问量过大, OpenAI对ChatGPT进行了大规模限流,包括**每小时的提问数量,以及高峰时段排队等举措。 OpenAI于2023年2月正式推出ChatGPT Plus版本(率先对美国地区用户**),收费20美元/月,Plus版 ChatGPT全天可用,无需排队。

依托微软生态, ChatGPT不断拓展应用领域

ChatGPT作为文字模态的AIGC发展潜力大,可以与图形模态的AIGC相结合,打造从文字描述到图 片生成的AI辅助工具。 依托微软生态:依托于微软的*作**、office等产品在全球市场份额的优势地位和强大产品生态, ChatGPT更多应用场景有望快速推进。微软CEO表示,微软正迅速推进OpenAI工具的商业化, ChatGPT等工具将整合进微软旗下产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云 服务、Teams聊天程序等 。下游应用场景丰富:ChatGPT的下游应用场景包括代码机器人、小说衍生器、对话类搜索引擎、语 音工作助手、对话虚拟人(客服、外呼、营销)等。

星星之火可以燎原,ChatGPT有望进一步打开AIGC海量空间

ChatGPT爆火的背后是AIGC生态的逐渐繁荣,随着数字经济与实体经济融合程度不断加深,以及互联 网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为 新型的内容生产方式,已经在传媒、电商、影视、娱乐等行业取得重大创新进展。 2022年,AIGC发展速度惊人,迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续入局 ,未来随着国内政策环境的优化,虚拟人、人机交互等场景需求旺盛,有望推动AI技术在金融、政府、 医疗、工业等领域的加速落地。AIGC有望成为数字内容创新发展的新引擎,为数字经济发展注入全新 动能。

Part 3 从NLP到Transformer到GPT

NLP的最初发展:传统模型的改进

自然语言处理( Natural Language Processing, NLP)是 一种机器学习技术,使计算机能够解读、处理和理解人 类语言。 传统模型:循环神经网络(RNN)以及它的改良版本LSTM 。

注意力机制(Attention Mechani**s)的引入:针对 RNN语言模型中状态S作为上下文这一机制的改进。引 入Attention之后,计算第i个词后的状态从单纯的Si变成 了S0,S1...Si的组合,而具体“如何组合”,即哪个状态 比较重要,也是通过数据拟合出来的。在这样的情况下 ,模型的表达能力又得到了进一步的提高,它可以理解 一些距离较远但是又非常密切的词汇之间的关系,比如 说代词和被指代的名词之间的关系。

传统模型的弊端: 在RNN中计算当前词后的状态Si主要 是通过计算上一个词时的状态Si-1迭代出来的,因此它 假设了距离较近的词汇之间的关系更密切, 而在人类真 实的语言中这一假设并不一定成立。

NLP的跨越式发展: Transformer与GPT的提出

Transformer模型的提出: 在注意力机制提出后3年后,谷歌发表了著名的Attention Is All You Need,提出Transformer模型,对自然语言处理有巨 大的影响,使NLP的性能再次提升一个台阶。 Transformer与原始模型不同的是:Transformer模型中没有RNN,完全基于Attention。在大型数据集上的效果可以完全 碾压RNN模型(即使RNN中加入Attention机制)。Transformer的架构使得建立词与词之间的复杂关系成为了可能, 显著提 高了模型的表达能力。 以当前热门预训练模型为例,BERT(仅使用了Transformer的Encoder部分),GPT-2、GPT-3(使用的是Decoder部分)等, 都是基于Transformer模型而构建。

GPT模型的提出: 生成式预训练(Generative Pre-Training,GPT) 是一种新的训练范式,通过对海量数据的无监督学习来训练语言模型。 由于GPT底层借用了表达能力很强的Transformer,互联网经过长时间的发展,海量的无标记的自然语言数据也不再稀缺, 所以训练出来的模型对语言有了相当深入地理解。

ChatGPT的诞生:GPT迭代而来的当今最强版本

ChatGPT是由最初的GPT迭代而来:基于文本预训练的GPT-1, GPT-2,GPT-3都是采用的以Transformer为核心结构的模型。2018年发布GPT-1模型,其规模和数据量都比较小。 2019年发布GPT-2模型,使用了更多参数的模型和更多的训练数据 , 且使用zero-shot设定实现仅通过一次预训练的就能完成多种任务 ,减少了下游微调的频率。 2020年发布GPT-3模型,最显著改变的是把模型参数提升到了千亿 级,并在代码编写和数**算等方面也有上佳表现。 GPT3的**是存在预训练模型的偏见性,由于预训练模型都是通 过海量数据在超大参数量级的模型上训练出来的,其生成的内容无 法被保证,会存在包括种族歧视,**血腥等危险内容。因此推动 了InstructGPT和ChatGPT的诞生,即GPT3.5。

InstructGPT是基于GPT3的微调版本:通过激发模型的理解能力 ,可以根据人类反馈进行微调,使语言模型与用户对各种任务的 意图保持一致,使输出内容的真实性提高且危险性降低。 ChatGPT是InstructGPT的兄弟模型, 但在数据收集上提高了对 话类数据的占比,更多地将提示转换为Q&A,因此ChatGPT更 容易结合上下文,其连续对话能力会更好。

ChatGPT的特点与优势

InstructGPT和ChatGPT, 即GPT3.5, 采用了GPT-3的网络结构,通过指示学习构建训练样本来训练一个反应预测内容效果 的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。 训练任务分为3步: 1. 根据采集的SFT数据集对GPT-3进行有监督的微调(Supervised FineTune,SFT):了解如何回答查询。 2. 收集人工标注的对比数据,训练奖励模型(Reword Model,RM):构建用于对查询进行排名的模型。 3. 使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型 : 学习人类的说话方式。

GPT3.5的优势: 效果更加真实:ChatGPT在GPT-3之上进行根 据人类反馈的微调,引入了不同的labeler进行 提示编写和生成结果排序,这使得训练奖励模型 时对更加真实的数据会有更高的奖励。 无害性提升:由于指示微调的引入,使语言模型 与人类意图保持一致,大大降低危害内容生成的 概率。 具有更强的Coding能力:基于GPT-3制作的 API积累了更多的Coding代码,通过Coding相 关的大量数据以及人工标注训练出来的GPT3.5 模型具备更强大的Coding能力。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。「链接」


相关股票: 机器人 阿尔特 海量数据

崛起的中科系,被改变的我国芯片产业格局

当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下

芯片战场丨芯片领域三箭齐发 英特尔跑步突围

21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利

OPPO重启芯片业务?国产芯片或需告别“单打独斗”

财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与

600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快

我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯

最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?

近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺

韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果

据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助

我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点

我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果

没有他,我国芯片发展至少要**十年?

前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,

陈清泰:未来汽车颠覆传统,50%以上的零部件体系面临重构

【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链

「姿势」一辆汽车由多少个零件组成?保证你说不清...

投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个

全球最大的10家汽车零部件供应商 都是世界500强 无我国企业

【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),

汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详

文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件

汽车零部件行业现状及产业链

行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘

全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席

提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都

高清汽车各零部件构造图,看完你就是汽车专家!

2023世界移动通信大会即将举行,大批中企强势回归!

来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20

太空新赛道:6G时代的卫星通信,究竟是什么?

近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星

光纤#光纤通信

国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。

龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链

卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P

工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件

针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题

AD
更多相关文章