当前位置：首页 » 资讯 » 新科技 » 正文

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附下载）

IP属地北京 编辑：郑佳资产保值小助手 时间：2024-10-21 09:40:17

（精选报告报告研究所）
技术：大模型发展呈现“规模定律”，Transformer为技术基座
1.1 大模型“大力出奇迹”的背后：Scaling Law
大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。
与传统语言模型相比，大语言模型的构建过程涉及到更为复杂的训练方法，进而展现出了强大的自然语言理解能力和复杂任务求解能力。
大模型“大力出奇迹”的背后：Scaling Law
大模型发展普遍呈现“规模定律”（Scaling Law）特征，即：模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系，性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型，传统模型参数量通常在数万至数亿之间，大模型的参数量则至少在亿级，并已发展到过万亿级的规模。如OpenAI的GPT-1到GPT-3，参数量从1.1亿大幅提升至1746亿，GPT-4非官方估计达到万亿参数（根据Semianalysis消息，GPT-4包含1.8万亿参数），实现性能的突破。根据Google论文，这种大模型具有但小模型不具有的能力通常被称为“涌现能力”（Emergent Abilities）。
1.2 Transformer是LLM基座，核心优势在于Self-attention机制
当前主流大模型普遍是基于Transformer模型进行设计的。Transformer模型在Google团队2017年论文Attention Is All You Need中被首次提出，Transformer的核心优势在于具有独特的自注意力（Self-attention）机制，能够直接建模任意距离的词元之间的交互关系，解决了循环神经网络（RNN）、卷积神经网络（CNN）等传统神经网络存在的长序列依赖问题。
相较于RNN，Transformer具有两个显著的优势。1）处理长序列数据：RNN受限于循环结构，难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置，捕捉全局依赖关系，从而更准确地理解、表示文本含义。2）实现并行化计算：RNN作为时序结构，需要依次处理序列中的每个元素，计算速度受到较大限制，而Transformer则可以一次性处理整个序列，大大提高了计算效率。
Transformer组件：Encoder重理解，Decoder重生成
Transformer由两类组件构成：Encoder（编码器）和Decoder（解码器）。通常，Encoder结构擅长从文本中提取信息以执行分类、回归等任务，而Decoder结构则专用于生成文本。
实际上，两类组件可以独立使用，当前主流大模型中，诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。
1.3 GPT系列模型技术发展历程回顾
从技术角度来看，结合中国人民大学大语言模型的观点，GPT在众多大模型角逐中能够取得瞩目，有以下几点值得注意——1）可拓展的训练架构与学习范式：当谷歌2017年推出基于注意力机制的Transformer模型后，OpenAI团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性，最终将Transformer拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为通用学习范式。
2）对于数据质量与数据规模的重视：高质量数据、超大规模数据成为GPT成功的关键基础，比如，OpenAI将人类生成的对话数据和高质量的标注数据用于训练ChatGPT，使得ChatGPT在与人机对话测试中展现出了优秀能力。
1.3 GPT 1~3：采用Transformer架构，参数规模拓展至千亿级
GPT系列模型的技术演变（GPT 1~3）：2017年，Google推出Transformer后，OpenAI迅速着手并于2018年推出的第一个GPT模型，全称为Generative Pre-trained Transformer。GPT-1基于生成式、Decoder-only的Transformer架构开发，由于参数规模相对较小，模型尚缺乏通用任务求解能力，GPT-1采用Pre-training(预训练)+Fine-tuning(微调)的两阶段范式，先通过单向Transformer预训练一个通用的模型，然后在特定子任务上进行微调。
GPT-2沿用GPT-1类似架构，并将参数规模扩大至1.5B，并使用大规模网页数据集WebText进行预训练。与GPT-1不同的点在于，GPT-2旨在探索通过扩大模型参数规模来提升模型性能，并且试图使用无监督预训练的语言模型来解决各种下游任务。
OpenAI经过较为充分的实验探索，2020年，GPT-3将模型参数扩展到了175B，较GPT-2提升100余倍，验证了将神经网络扩展到超大规模可以带来大幅的模型性能提升。同时，GPT-3论文正式提出“上下文学习”，建立了以提示学习方法为基础技术路线的任务求解范式。
ChatGPT：一举成为现象级应用，引入RLHF算法改进训练数据
GPT系列模型的技术演变（ChatGPT）：在GPT-3的基础上，OpenAI又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级，推出了GPT-3.5系列模型。2022年11月，ChatGPT正式上线，实现以对话形式解决多种任务，使得用户能够通过网络API体验到语言模型的强大功能。ChatGPT 仅用5天时间注册用户达到100万，约2个月注册用户达到1亿，成为AIGC领域的现象级应用。
OpenAI在官网文章中介绍，ChatGPT主要是沿用了2022年1月推出的InstructGPT。InstructGPT的核心技术是基于人类反馈的强化学习算法，即RLHF算法（Reinforcement Learning from Human Feedback），旨在改进模型与人类对齐的能力。具体实现上，人类标注人员扮演用户和代理进行对话，产生对话样本并对回复进行排名打分，将更好的结果反馈给模型，让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略，对模型进行持续迭代式微调。
GPT-4系列：能力跃升，增加多模态能力，最新版4o突破性价比
GPT系列模型的技术演变（GPT-4~GPT-4o）：继ChatGPT后，OpenAI于2023年3月发布GPT-4，它首次将GPT系列模型的输入由单一文本模态扩展到了图文双模态。GPT-4在解决复杂任务方面的能力显著强于GPT-3.5，在一系列面向人类的考试中都获得了非常优异的结果。
基于GPT-4，OpenAI在2023年9月进一步发布了GPT-4V，重点关注GPT-4视觉能力的安全部署。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。2023年11月，OpenAI在开发者大会上发布GPT-4 Turbo，引入了一系列技术升级，如：将模型内部知识库更新至2023年4月，将上下文长度提升至128K，价格更便宜，引入若干新的功能（如函数调用、可重复输出等）。
今年5月14日，OpenAI春季发布会，发布了新版旗舰模型GPT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中，提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现，不仅在传统文本能力上与GPT-4 Turbo性能相当，还在API方面更快速，价格便宜50%。与GPT-4 Turbo相比，GPT-4o速度提高了2 倍，限制速率提高了5 倍，目前的上下文窗口为128k，模型知识截止日期为2023 年 10 月。
市场：全球大模型竞争白热化，国产大模型能力对标GPT-3.5Turbo
2.1 海外大模型：通用大模型竞争白热化，闭源LLM三足鼎立
（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

点亮你的视觉盛宴，当贝新品Smart1投影仪

法拉第未来来国内公司被限消：此前已被强制执行31万余元

多措并举备战“史上最长的双11”，极兔速递全面提质升级

靴子落地！5年期以上LPR再降25个基点存量房贷月供省多少

LPR迎来年内第三次调整！将会影响你的房贷

消息称 AMD 将再更 AM4 处理器，计划推 2 个 6 核锐龙 5000 新款

采埃孚电子驻车制动器产量突破 2.5 亿，在中国的产量已近 1 亿

盛色推出新款27寸显示器：4K/1080P双模首发仅1899元

人瑞人才荣获2024“金耳唛杯”评选卓越外包年度10强奖

联想携手Meta Llama模型共创AI Now，微美全息以AGI模型引擎驱动行业创新潮流

翻倍！15个交易日！北证50指数遥遥领先，鸿蒙概念龙头大涨超9倍！

北证50创历史新高，后续怎么走？最新解读！

一加 13 手机配置参数曝光：等深四微弧直屏、提供 24GB+1TB 版本

《黑神话：悟空》拿下泰国 TGA 2024 年度最佳游戏，斩获多项殊荣

零刻 SER8 迷你主机 8745HS 版发售，准系统首销 2099 元起

北京市新增12款生成式AI服务完成备案

西方媒体人嘴巴真毒！西方游戏作品被抵制，评论员嘴炮遭反噬

曝iPhone SE 4系列将推出双机型新增Plus 屏幕6.7英寸

曝华为nova 12 Pro手机线下将下架但不一定会停售

横店开启“竖店热”：276部短剧上榜，40家承制狂揽10亿热度

绚丽非凡的投影大师！当贝F7Pro投影仪！

点亮你的视觉盛宴，当贝新品Smart1投影仪

专注农业机械电动化、智能化、无人化，「知申禾行」获数千万级天使轮融资

快手电商双11首日GMV创历史新高，超1.6万位主播单场GMV超去年双11峰值

央国企竞逐大模型赛道，全国产化的讯飞星火成首选！

深耕沉淀，锐意创新！瓣鼎科技CEO史明荣获“元宇宙30人”2024赋能中国元宇宙创新人物奖

快领！京东服饰11.11又发服装5折券现在可领21日晚8点可用

全站最新

特斯拉40多城建直营钣喷、靠智驾降低90%出险率…事故车维修也要被颠覆了？

高瓴创投领投，太景科技完成数千万元A轮融资

夺取全球10%产量，自研芯片超英伟达？印度的芯片野心

比亚迪牵手《黑神话：悟空》！我同意这门亲事……

别被骗了，这才是正宗的斯堪尼亚！国内销售的斯堪尼亚560S牵引车实拍

奇瑞两个不客气：抓住80%市场新能源不客气技术创新智能化不客气|汽势封面

号称“更爱女人”的欧拉汽车，正在被女性抛弃

15项安全系统豪华大巴奔驰Tourismo Safety Coach安全豪华巴士

热门推荐

点亮你的视觉盛宴，当贝新品Smart1投影仪

法拉第未来来国内公司被限消：此前已被强制执行31万余元

多措并举备战“史上最长的双11”，极兔速递全面提质升级

靴子落地！5年期以上LPR再降25个基点存量房贷月供省多少

LPR迎来年内第三次调整！将会影响你的房贷

消息称 AMD 将再更 AM4 处理器，计划推 2 个 6 核锐龙 5000 新款

采埃孚电子驻车制动器产量突破 2.5 亿，在中国的产量已近 1 亿

华为取得一种资源调度相关专利

华为取得信息指示方法及装置专利

华为取得通信方法和设备专利

华为取得通信方法及装置专利

华为取得通信方法相关专利

盛色推出新款27寸显示器：4K/1080P双模首发仅1899元

人瑞人才荣获2024“金耳唛杯”评选卓越外包年度10强奖

联想携手Meta Llama模型共创AI Now，微美全息以AGI模型引擎驱动行业创新潮流