国内AI大模型产业发展深度分析 2024
伴随人工智能技术的加速演进,AI 大模型已成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。近年来,我国高度重视人工智能的发展,将其上升为国家战略,出台一系列扶持政策和规划,为 AI 大模型产业发展创造了良好的环境。
当前,通用大模型、行业大模型、端侧大模型如雨后春笋般涌现,大模型产业的应用落地将进一步提速。作为新一代人工智能产业的核心驱动力,AI 大模型广泛赋能我国经济社会的多个领域,打开迈向通用人工智能的大门,推动新一轮的科技革命与产业变革。在大模型盛行的时代,产业发展到何种阶段,遇到何种挑战,未来将走向何方,这些都是需要面对的问题,亟需社会各界共同努力。
2023 年人工智能大模型全面爆发,给科技创新、生产生活带来重大变革、机遇和挑战。全球大模型竞争日趋激烈,众多国产大模型脱颖而出。
大模型与电力、零售、出版等传统行业的成功融合,展现对传统产业改造提升的潜力。大模型赋能金融、医疗等行业提质增效,对推动新质生产力快速发展起到重要作用。
大模型持续健康发展,需要政策法规保驾护航,满足隐私保护、数据安全等多方面要求。期待未来大模型持续深耕技术创新并服务于各行各业,为全社会全方位地注入高质量发展的新动能。
AI 大模型的出现,使得利用人工智能技术来生成内容,从“可用”跨越到“好用”。生产内容是所有行业共有的需求,如今大模型已经在电商、影视、传媒等领域被规模应用。
大模型的商业化需要供需双方同时发力:供给侧来看,以Transformer 为代表的根技术存在显著成本问题,当前大模型还有进一步压缩成本、提高性价比的空间;需求侧来看,企业高效应用 AI 大模型的必然前提是,投入大量资金、人力、时间以提升企业自身数字化程度。未来,人工智能生成内容从“好用”到“高效”,也许会再经历一次或多次技术范式的颠覆。
2024 年,多重利好因素将推动大模型快速发展,首先是“人工智能+”行动等来自政府层面的有力支持,其次用户提升生活、工作效率的需求激增,再加上科技公司加大对 AI 领域投入资金、人力、技术研发,各环节协同支撑大模型发展。当前大模型产业也面临挑战,包括算力分散不足、Transformer 结构是否为最优的疑问、领域数据稀缺、缺少现象级应用的问题。就产业趋势而言,投入基础模型训练的公司未来可能会大幅减少,转而更多的公司会去寻找应用场景和爆款应用。vivo 结合自研大模型端侧化、矩阵化的技术优势并且会聚焦手机行业的应用经验,利用大模型重构手机各类功能,找到落地场景,普惠更多用户。
第一章 扬帆起航:中国 AI 大模型产业发展背景
1.1 中国 AI 大模型产业发展政策驱动力
近年来,我国始终高度重视人工智能发展机遇和顶层设计,发布多项人工智能支持政策,国务院于 2017 年发布《新一代人工智能发展规划》。科技部等六部门也于 2022 年印发《关于加快场景创新 以人工智能高水平应用促进经济高质量发展的指导意见》对规划进行落实。
2024 年《政府工作报告》中提出开展“人工智能+”行动。伴随人工智能领域中大模型技术的快速发展,我国各地方政府出台相关支持政策,加快大模型产业的持续发展。
当前,北京、深圳、杭州、成都、福建、安徽、上海、广东等地均发布了关于 AI 大模型的相关政策。具体来看:
北京着力推动大模型相关技术创新,构建高效协同的大模型技术产业生态;
上海强调打造具备国际竞争力的大模型;
深圳重点支持打造基于国内外芯片和算法的开源通用大模型,支持重点企业持续研发和迭代商用通用大模型;
安徽从资源方面着手吸引大模型企业入驻;
成都着力推动大模型相关技术创新,重点研发和迭代 CV 大模型、NLP 大模型、多模态大模型等领域大模型以及医疗、金融、商务、交通等行业大模型;
杭州支持头部企业开展多模态通用大模型关键技术攻关、中小企业深耕垂直领域做精专用模型。
2023 年以来我国各地出台的大模型产业相关政策
1.2 AI 大模型产业发展技术驱动力
近年来,AI 大模型得到快速发展,当前大模型热潮主要由语言大模型相关技术引领。语言大模型通过在海量无标注数据上进行大规模预训练,让模型学习大量知识并进行指令微调,从而获得面向多任务的通用求解能力。
2017年,Google提出基于自注意力机制的神经网络结构——Transformer 架构,奠定了大模型预训练算法架构的基础。2018 年,OpenAI 和 Google 分别发布了 GPT-1 与 BERT 大模型,预训练大模型成为自然语言处理领域的主流。
2022 年,OpenAI 推出 ChatGPT,其拥有强大的自然语言交互与生成能力。2023 年,OpenAI 多模态预训练大模型GPT-4 发布,其具备多模态理解与多类型内容生成能力。2024 年,OpenAI 发布视频生成大模型 Sora,提出时空碎片和扩散 Transformer 技术,大模型的多模态生成能力的进一步成熟。本部分将从经典 Transformer 架构出发,通过全面梳理基于人类反馈强化学习、指令微调、提示学习等相关大模型技术,体现技术对于产业发展的带动作用。
1.2.1 Transformer 架构
Transformer 架构是目前语言大模型采用的主流架构,于 2017 年由 Google提出,其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递,Transformer 架构的优势在于特征提取能力和并行计算效率。
Transformer 架构主要由输入部分、多层编码器、多层解码器以及输出部分组成。其中,输入部分包括源文本嵌入层、位置编码器;编码器部分由 N 个编码器层堆叠而成;解码器部分由 N 个解码器层堆叠而成;输出部分包括线性层和Softmax 层。
Transformer 架构图
自注意力机制作为 Transformer 模型的核心组件,其允许模型在处理序列数据时,对每个词位置的输入进行加权求和,得到一个全局的上下文表示。
在计算自注意力时,模型首先将输入序列进行线性变换,得到 Q(查询)、K(键)和 V(值)三个向量。
然后,通过计算 Q 和 K 的点积,并应用 Softmax 函数,得到每个位置的权重。最后,将权重与 V 向量相乘,得到自注意力的输出。
为提高模型的表达能力,Transformer 模型采用了多头自注意力机制,这意味着模型在同一时间关注来自不同表示子空间的注意力信息。多头自注意力的实现方法是将输入序列分成多个组,每个组使用一个独立的权重矩阵进行线性变换,并计算自注意力。最终,自注意力的输出被拼接起来,并通过一个线性层得到最终的输出表示。
在计算自注意力和多头自注意力之后,Transformer 模型使用前馈神经网络对输入序列进行变换。前馈神经网络由多个全连接层组成,每个全连接层都使用 ReLU激活函数。前馈神经网络的作用是对输入序列进行非线性变换,以捕捉更复杂的特征。
1.2.2 AI 语言大模型关键技术
AI 语言大模型关键技术主要涉及基于人类反馈强化学习、指令微调、模型提示等相关技术。
(1) 基于人类反馈强化学习
基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。
基于人类反馈强化学习具体包括以下几个步骤:
1)训练监督策略模型:使用监督学习或无监督学习的方法,对一个预训练的语言模型进行训练,通过给予特定奖励或惩罚引导 AI 模型的行为,使其能够根据给定的输入预测输出或行为。
2)训练奖励模型:让标记员参与提供有关模型输出结果的反馈,对模型生成的多个输出或行为的质量或正确性进行排名或评分,这些反馈被转换为奖励信号,用于后续的强化学习过程。
3)采用近端策略优化进行强化学习:先通过监督学习策略生成近端策略优化(PPO)模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代 PPO模型参数。具体而言,在 PPO 模型训练过程中,智能系统通过尝试不同的行为,并根据每个行为获得的奖励来评估其质量,智能系统逐步改进行为策略。
基于人类反馈强化学习示意图
(2) 指令微调
指令微调 (Instruction Tuning),是一种帮助语言大模型实现人类语言指令遵循的能力,在零样本设置中泛化到未知任务上的学习方法。指令微调是让语言大模型理解人类指令并按照指令要求完成任务,即在给定指令提示的情况下给出特定的回应。
指令微调可被视为有监督微调(Supervised Fine-Tuning,SFT)的一种特殊形式,但两者目标有所差别。SFT 是一种使用标记数据对预训练模型进行微调的过程,以便模型能够更好地执行特定任务,而指令微调是一种通过在(指令,输出)对的数据集上进一步训练大型语言模型(LLMs)的过程,以增强LLMs 的能力和可控性。指令微调的特殊之处在于其数据集的结构,即由人类指令和期望的输出组成的配对,这种结构使得指令微调专注于让模型理解和遵循人类指令。
(3) 模型提示
通过大规模文本数据预训练之后的语言大模型具备作为通用任务求解器的潜在能力,这些能力在执行特定任务时可能不会显式地展示出来,在大模型输入中设计合适的语言指令提示有助于激发这些能力,称为模型提示技术。典型的模型提示技术包括指令提示和思维链提示。
指令提示(Instruction Prompt)。OpenAI 在 GPT-3 中首次提出上下文提示,并发现 GPT-3 在特定领域少样本提示下能够达到人类水平,证明在低资源场景下非常有效。指令提示的核心思想是避免强制语言大模型适应下游任务,而通过提供“提示(Prompt)”来给数据嵌入额外的上下文以重新组织下游任务,使之看起来更像是在语言大模型预训练过程中解决的问题。
思维链提示(Chain of Thought, CoT)。推理的过程通常涉及多个推论步骤,通过多步推理允许产生可验证的输出,可以提高黑盒模型的可解释性。思维链是一种提示技术,已被广泛用于激发语言大模型的多步推理能力,被鼓励语言大模型生成解决问题的中间推理链,类似于人类使用深思熟虑的过程来执行复杂的任务。
在思维链提示中,中间自然语言推理步骤的例子取代少样本提示中的〈输入,输出〉对,形成〈输入,思维链,输出〉三元组结构。思维链被认为是语言大模型的“涌现能力”,通常只有模型参数规模增大到一定程度后才采用思维链能力。激活语言大模型的思维链能力方法,在提示中给出逐步的推理演示作为推理的条件,每个演示都包含一个问题和一个通向最终答案的推理链。
1.3 中国 AI 大模型产业发展市场驱动力
中国 AI 大模型产业发展源于多领域的广泛需求,例如来自办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等诉求。相关领域的创新和发展共同推动着中国 AI 大模型产业的蓬勃发展,预示着未来更广阔的市场前景。
1.3.1 办公场景
近年来,随着文字、语音、图像等处理能力跃迁,大模型摇身变为“助理”走入办公室和会议室,结合传统软件使得办公和会议智能化。
基于大模型的智能办公产品满足日常办公场景中文案生成、PPT 美化、数据分析等各种需求。仅通过自然语言交互,用户便可将繁琐的文字、演示、数据处理工作交给“助理”,用节约的时间做更有创意的事情。智能文档负责协助用户构建文章大纲、一键生成模板、生成内容、优化表达、处理和理解文档;智能演示承担自动排版美化、生成演讲备注、一键生成幻灯片等任务;智能表格通过对话即可生成公式、数据批量处理、自动生成表格。
智能会议方面,大模型可从会议策划、同声传译、会议记录等各环节赋能。会议策划场景大模型根据会议主题等提示词,自动生成会议环节、会议分论坛、会议时间、会议预算等完整策划内容;
在大模型能力加持下,同声传译的准确性、及时性和多语言能力得到显著提升;通过大模型处理后,结构清晰、要点明确的会议记录结果使得会后回顾更加高效。
1.3.2 制造场景
人工智能崛起引领制造行业的深刻变革,改变研发设计、生产制造、供应链管理等流程。大模型+EDA/CAE/CAD,将传统研发设计软件效率进一步提升。大模型助力数字孪生和机器人,获得强大的感知场景和执行任务能力。大模型融合供应链管理,实现工厂管理的智能化转型。
在研发设计阶段,以大模型+EDA 为例,利用云端扩展性实现设计自动化,并确保设计在电气方面准确无误,同时简化系统设计流程,缩短 PCB 设计周转时间。企业借此缩短研发周期、降低研发成本、提升行业竞争力;生产制造中,利用 AIGC 和数字孪生技术,可模拟真实生产环境派出虚拟人代替工人进行危险、故障排查,或是通过仿真设备操作场景,完成沉浸式作业教学。
拥有大模型功能的机器人凭借机器视觉技术,可执行路径规划、物体识别等任务;大模型集成于供应链管理系统中,能重构数字化办公流程,通过自然语言指令实现人机交互,推动企业进行更高效的管理决策、更便捷的数据分析与可视化,在需求端及时预测需求达到降本增效的目的,在仓库和物流端实现智能调度、智能跟踪和智能预警。
1.3.3 金融场景
金融行业存在前、中和后台的业务划分,在数字经济时代的浪潮中,相关业务已被大模型全局赋能提升效率。以银行为例,对话机器人、虚拟助理已经逐渐出现在个性化服务、电子营销、金融欺诈检测、信贷支持等服务场景中。个性化服务方面,银行大模型以客户数据为依据,为客户提供定制的财务和产品计划;电子营销方面,大模型根据客户行为偏好生成个性化电子邮件;金融欺诈检测方面,大模型赋能专业人员检索大量数据识别欺诈行为;信贷支持方面,大模型通过分析海量生产生活和信用数据,为信贷部门人员生成高质量的信贷方案建议,减少银行贷款收益损失。
1.3.4 医疗场景
得益于近年来医疗大模型的不断迭代,复杂的医疗数据分析任务得以解决。由于患者行为数据的独特性,大模型通过个性化设计,满足患者“千人千面”的医疗服务需求,应用于智慧影像、智慧手术、智慧健康等领域。智慧影像覆盖 CT、MR、DR、US、DSA、钼靶等医疗影像场景,为患者进行早期检测、诊断及健康风险评估;智慧手术功能大幅提高患者病情评价准确度,打牢术前风险评估、术中手术规划、术后预后估计的基础;智慧健康则作为一般患者的贴身健康助手,通过小程序等便捷方式为患者提供高质量导诊服务和个性化健康建议。
1.3.5 政务场景
在办公、制造、金融、医疗场景得到助力的同时,政务场景下的效率、信息参考范围、经验共享、规范性等常见痛点也获得大模型能力加持得以解决。为提升效率,大模型利用自动化的政策检索、政策比对解决海量政策参考、人工分析比对的耗时问题;为缩小信息参考范围,政策撰写助手结合政策数据权威白名单,并接入政策全量库,避免不可靠信息来源引发舆论风险;为提高政策管理经验共享,大模型引入政策经验知识库,提升政务业务理解和政策管理能力;为规范政策撰写,政务大模型凭借规范化生成、检查功能维护成果的规范性、权威性。
第二章 百舸争流:中国 AI 大模型产业现状及典型案例
2.1 AI 大模型主要特征
AI 大模型具有泛化性(知识迁移到新领域)、通用性(不局限于特定领域)以及涌现性(产生预料之外的新能力)特征。
以 ChatGPT 为代表的 AI 大模型因其具有巨量参数和深度网络结构,能学习并理解更多的特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。
AI 大模型的三大特征:泛化性、通用性、涌现性
2.2 AI 大模型主要类型
按照部署方式划分,AI 大模型主要分为云侧大模型和端侧大模型两类。云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;端侧大模型通常部署在手机、PC 等终端上,具有参数规模小、本地化运行、隐私保护强等特点。
具体而言,云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC 大模型。从云侧大模型来看,通用大模型具有适用性广泛的特征,其训练数据涵盖多个领域,能够处理各种类型的任务,普适性较强。
行业大模型具有专业性强的特点,针对特定行业(如金融、医疗、政务等)的需求进行模型训练,因而对特定领域具有更深的业务理解和场景应用能力。从端侧大模型来看,手机和 PC 大模型由于直接部署在设备终端,让用户体验到更加个性化和便捷的智能体验。
AI 大模型主要分为云侧大模型和端侧大模型两类
当前,我国 AI 大模型产业呈现蓬勃发展的态势。伴随多家科技厂商推出的AI 大模型落地商用,各类通用、行业以及端侧大模型已在多个领域取得了显著的成果,如在金融、医疗、政务等领域,AI 大模型已成为提升服务质量和效率的重要手段。
我国具有代表性的通用 AI 大模型主要包含科大讯飞的讯飞星火认知大模型、百度公司的文心一言大模型、阿里巴巴的通义千问大模型等;行业AI 大模型主要涵盖蜜度的文修大模型、容联云的赤兔大模型、用友的 YonGPT 大模型;同时具有云侧和端侧大模型的端云结合 AI 大模型主要有 vivo 的蓝心大模型;端侧 AI 大模型主要以蔚来的 NOMI GPT 大模型为代表。
2.3 中国 AI 通用大模型典型案例
案例一:科大讯飞—讯飞星火认知大模型
案例二:百度公司—文心一言大模型
案例三:阿里巴巴—通义千问大模型
案例五:蜜度—文修大模型
案例六:用友—YonGPT 大模型
案例七: “写易”智能创作引擎
第三章 大浪淘沙:中国 AI 大模型产业发展所面临的挑战
3.1 大模型产业遭遇算力瓶颈
随着 AI 大模型规模呈现指数级增长,训练大模型越发依赖高性能 AI 芯片。
AI 大模型的训练速度、产出质量,都和算力直接相关,对于 GPT 这种大语言模型(LLM)来说,算力的要求更高,也决定了模型的“智商”。目前主要以英伟达的 A100、H100 为代表的高性能 AI 芯片应用到主流 AI 大模型的训练过程。
以ChatGPT 为例,微软 Azure 云服务为其提供了 1 万枚英伟达 A100 GPU,这个算力也正是国内云计算技术人士共识的 AI 大模型门槛。
然而国内拥有 1 万枚 GPU 的企业很少,而且单枚 GPU 普遍弱于英伟达 A100。由于英伟达 A100 及以上性能 GPU被列入管制清单,目前中国企业能获取的替代品为英伟达 A800,然而 A800 也存在缺货和溢价的情况。
从我国自研 AI 芯片来看,中国本土的高性能芯片龙头以华为海思、寒武纪、地平线、昆仑芯等为代表。
我国正在高性能芯片领域加大投入并取得极大进展,部分解决方案正替代英伟达成为一些大厂的选择。
但国产芯片性能目前仍与国际顶尖水平存在一定差距。总体而言,国内 AI 高性能芯片市场受进口限制和国内技术瓶颈的双重影响,大模型产业发展受到算力层面的一些制约。
3.2 主流大模型架构仍存在诸多局限
当前,主流 AI 大模型所使用的 Transformer 架构存在消耗算力资源大、占用内存储量多等局限性。
首先,Transformer 架构消耗的算力资源普遍较大。传统 Transformer 架构由于算法特性,计算量会随着上下文长度的增加呈平方级上升。假如用户输入的上下文增加 32 倍,计算量可能会增加 1000 倍以上。
其次,基于 Transformer 架构的大模型对存储设备的要求也更高。在训练过程中需要在内存中存储参数的当前值、梯度以及其他优化器状态。模型的参数越多,所需的计算就越多,需要的存储空间就越大。如 1000 亿个参数的 Transformer模型,存储这些参数就需要 400GB 的空间。
3.3 高质量的训练数据集仍需扩展
国内的 AI 大模型数据主要来自互联网、电商、社交、搜索等渠道,存在数据类型不全面,信息可信度不高等问题。
整体来看,我国可用于大模型训练的中文数据库体量严重不足。如悟道语料库,其包括文本、图文和对话数据集,最大的仅 5TB,其中开源的文本部分仅为 200GB。另外一个开源的中文本数据集CLUECorps 为 100G。相比之下,GPT-3 的训练数据量,以英语为主,达到 45TB。
此外,国内大模型的数据还缺乏多数据源的调用,可供大模型训练的有效数据源呈现碎片化分散状态,如微信公众号的文章仅在搜狗引擎支持调用,而多数大模型如智谱清言在联网收集数据时无法直接调用微信公众号文章。
当前,政府部门的权威数据、大型企业掌握的行业或内部数据通常不对外公开。以阿里巴巴的“通义千问”大模型为例,训练数据来自公开来源的混合数据,中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府及企业数据较少。未来,仍需构建高质量的 AI 大模型训练数据集,不断扩充数据源提高数据质量。
3.4 大模型爆款应用尚未出现
自 ChatGPT iOS 版本发布近十个月以来,该应用一直在下载量、用户支出和会话时长方面牢牢占据生成式人工智能应用下载量榜单前三名的位置。
GPT4.0推出后,已支持语音输入和输出,可以理解用户的基本自然语言语音指令并进行回应,也可以将生成的文本以语音形式播放出来。
此外,OpenAI 于 2024 年 1 月上线包含超 300 万个应用的 GPT 商店 GPTs。GPTs 的应用被划分为“写作”“效率”“研究和分析”“编程”“教育”和“生活方式”等类目。
如热门应用 Consensus可以从 2 亿篇学术论文中进行搜索,并获得科学的答案;Grimoire 可以在用户填写基本信息后提供所需的 HTML、CSS 和 JavaScript 代码,创建网站(或其他)的编程应用。
相比而言,国内的 AI 大模型产业至今没有出现爆款级应用,原因在于尚未找到商业化思路,缺乏满足客户需求的个性化应用。我国大模型产业要推出爆款级应用,势必要在应用领域做深做细,让每一个用户都可以充分享受到大模型所带来的真正便利。
第四章 天阔云高:中国 AI 大模型产业趋势展望
4.1 AI 云侧与端侧大模型满足不同需求,C 端用户将成为端侧的主要客群
我国云侧大模型百花齐放数量众多,以百度文心一言、阿里通义千问、科大讯飞星火、腾讯混元等为代表。强大的算力和海量的训练数据库,支撑大语言模型高参数,云侧大模型能够提供语言理解、知识问答、数学推理、代码生成等能力。
一方面,面向 C 端个人用户,云侧大模型提供智能问答、文本生成、图片生成、视频生成等功能。
另一方面,面向 B 端企业用户,云侧大模型变革企业传统业务模式,提供营销、客服、会议记录、文本翻译、预算管理等个性化服务。
端侧大模型具有成本低、移动性强、数据安全等优势,主要应用在手机、PC等终端设备上。
端侧大模型主要面向 C 端用户,重塑传统个人设备的使用方式和习惯,提供手机文档搜索、智能识屏、图像创作、生活助手、出行助手等专属服务。成本方面,根据云侧大模型每次调用成本、用户数、用户使用频率不同,云侧大模型服务器每年成本可达数亿或数十亿,高昂的服务器支出成为各大厂商发展大模型的障碍。
将大模型端侧化,能把一部分云端计算转移给终端,从而大大降低云端服务器成本。安全方面,由于端侧大模型数据保存在本地,个人数据不需要上传云端,个人隐私数据更加安全。丰富的使用场景、较低的模型成本、安全的隐私保护,使得未来大模型端侧化可能成为趋势。
瑞银预计生成式 AI 智能手机出货量将从 2023 年的 5000 万部增长到 2027 年的 5.83 亿部,到 2027 年收入将达 5130 亿美元。未来面向广大 C 端用户的端侧大模型市场前景广阔。
4.2 AI 大模型趋于通用化与专用化,垂直行业将是大模型的主战场
通用大模型具有参数规模大、泛化能力强、多任务学习能力优等特点。通用大模型参数规模较大,达到数百亿甚至上千亿参数。通过大规模数据训练,通用大模型能学习捕捉复杂规律和特征,对未见过的数据做出预测。
通用大模型能理解学习多种任务,如文本总结、对话问答、逻辑推理等。通用大模型得益于大规模预训练和微调范式,可完成多领域任务,并具备多模态(包括文字、图像、语音、视频)理解和生成能力。
行业大模型适用于金融、政务、医疗等特定行业和领域,更好处理相关行业的特定任务。具体而言,金融大模型能帮助金融企业评估信用风险;政务大模型提供政务问答、公文撰写润色、内容审核;医疗大模型为医生和患者提供影像诊疗、手术评估、导诊服务。
与通用大模型相比,行业大模型具有专业性强、数据安全性高等特点,未来大模型真正的价值体现在更多行业及企业的应用落地层面。
一方面,行业大模型将通用大模型用于形成多领域能力的资源集中于特定领域,模型参数相对较小,对于企业落地而言具有显著的成本优势。
另一方面,行业大模型结合企业或机构内部数据,为 B 端用户的实际经营场景提供服务,能更加体现模型对于机构的降本增效作用。
4.3 AI 大模型将广泛开源,小型开发者可调用大模型能力提升开发效率
未来,大模型开源将成为趋势,一方面能降低大模型开发者的使用门槛,另一方面也能提高算法的透明度和可信度。
从具体进展来看,2022年8月,清华大学开源中英双语预训练模型 GLM-130B,使用通用模型算法进行预训练。2023年6月,百川智能发布开源可商用大规模预训练语言模型 Baichuan-7B,支持中英双语。2023年10月,智谱AI 开源ChatGLM3系列模型。2023年11月,vivo开源70亿参数的大模型,向广大开发者提供了获取大模型技术的渠道。2023年12月,阿里云开源 Qwen-72B、Qwen-1.8B 和Qwen-AudioQwen大模型。随着大模型逐渐开源,
将进一步助推AI大模型产业的创新发展。小型开发者通过调用大模型能力,大幅提升编程效率,进一步推动 AI 应用落地。
一方面,小型开发者可基于大模型进行项目、应用以及插件等开发工作,不再局限于算力资源、无需进行复杂的模型训练、调参,轻松实现应用落地。
另一方面,小型开发者利用大模型技术提升开发效率,通过在代码工具中集成大模型能力,辅助完成部分重复性工作,为开发人员提供量身定制的代码建议,还可以自动检测代码中的 Bug,并生成相应的测试用例,缩短工程师开发流程中的编码和纠错时间。
4.4 AI 高性能芯片不断升级,AI 大模型产业生态体系将不断完善
在大模型场景下,AI 高性能芯片主要用于大模型的训练环节,芯片性能的强弱直接影响大模型的性能和表现。
在全球 AI 高性能芯片市场中,英伟达的芯片产品采用最前沿半导体工艺和创新 GPU 架构保持行业的领先地位。目前,英伟达的 A100 芯片在主流 AI 大模型训练中占据重要市场份额,H100 虽性能强劲但难以获取。AI 高性能芯片未来将不断迭代升级,持续推动大模型性能和能力的提升。
在国内,AI 高性能芯片近年来发展速度加快。其中,华为昇腾主要包括310 和 910 两款主力芯片,其中昇腾 910 采用了 7nm 工艺,最高可提供 256 TFLOPS的 FP16 计算能力,其能效比在行业中处于领先水平。寒武纪是中国具有代表性的另一本土 AI 芯片厂商,公司先后推出了思元 290 和思元 370 芯片及相应的云端智能加速卡系列产品、训练整机。
未来,随着全球 AI 高性能芯片不断迭代升级,也将持续推动大模型性能和能力的提升。
AI 大模型将加快新质生产力发展,助力我国经济社会高质量发展
AI 大模型可以创造新价值、适应新产业、重塑新动能,是加快发展新质生产力的关键要素。
AI 大模型作为当前人工智能领域的重要技术,是孕育新质生产力的沃土。新质生产力是创新起主导作用,摆脱传统经济增长方式、生产力发展路径,具有高科技、高效能、高质量特征,符合新发展理念的先进生产力质态,其由技术革命性突破、生产要素创新性配置、产业深度转型升级而催生。
以劳动者、劳动资料、劳动对象及其优化组合的跃升为基本内涵,以全要素生产率大幅提升为核心标志。AI 大模型作为实现新质生产力发展的重要手段,可以推动多个领域的智能化升级,提高生产效率、降低生产成本、提升产业竞争力。
随着中国经济进入高质量发展阶段,AI 大模型在催生新产业、新模式、新动能方面展现出巨大潜力,不仅支撑了经济社会的高质量发展,也符合《国家创新驱动发展战略纲要》所强调的创新驱动和产业升级要求。
我国众多产业对于高质量发展的需求,将为大模型的落地应用提供场景支撑。随着人工智能技术的不断升级,大模型产业化应用也成为可能。以 vivo 为代表的科技企业发布的大模型为生产生活提供更多便利,带动商业模式创新,牵引产业升级,令人们生活更加美好。
面对未来,我国需进一步加强资源与研发力量的统筹,强化大模型在发展中的场景牵引作用,促进经济社会的高质量发展,以实现大模型技术的高质量应用突破,驱动实体经济的蝶变和产业变革。