当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek推动大模型进入新阶段 将激发AI+数据产业爆发

IP属地 北京 编辑:顾青青 新浪财经 时间:2025-02-11 07:00:19

晓说通信

(图片摄图网)

(记者 杜峰)近段时间,深度求索公司(DeepSeek)发布其最新开源模型DeepSeek-R1在国内外引发热烈关注,三大运营商云、百度智能云、腾讯云、阿里云、华为云等多平台宣布上线DeepSeek旗下模型。AI产业进入发展新阶段,而数据作为AI的燃料,也将迎来产业爆发期。

数据与AI融合催生新应用场景

数据作为生产要素,是我国首次提出的重大理论创新,也为我们抢抓人工智能战略机遇奠定了坚实的基础。数据与AI的融合正在深刻改变各行业的运行模式。

在制造领域, 中国电信通过5G网络的高带宽低延迟特性,助力苏州协鑫光伏实现了生产设备数据的实时采集与传输,再辅之以AI算法的深度挖掘,协鑫光伏得以精确调整生产工艺参数,智能预测产品良率,确保每一片太阳能电池板都符合最严苛的标准。

在医疗领域,中国移动与北京协和医院合作,通过历史会诊报告、会诊对话等数据进行训练强化,构建病历生成模型,面对复杂病例,能够对患者病历、检查结果、会诊过程语音记录等数据进行处理分析,经过推理输出会诊意见供医生进行参考,使会诊效率提高了35%以上。

在文旅领域, 中国联通通过建设“迎客松指挥调度”平台,实现黄山景区数十个系统的数据汇聚、共享和应用,并以智能算法,实现景区内部主要景点和道路一小时人流预测并推送到景区管理者和游客手机端,服务景区拥堵疏导和游客路线安排,提升旅游服务水平。

在农业领域, 江苏省互联网农业发展中心整理分析稻麦病害发病情况的历史调查数据,结合对应时期稻麦生育期观测数据、气象数据、作物识别数据、多光谱遥感数据,搭建病害发病概率模型,实现稻麦病害发生风险预测。风险预测时间比人工提前7天,平均减少每年植保用药1-2次。

高质量数据是人工智能发展的根基

人工智能技术的历次突破都离不开高质量数据集的支撑。高质量的数据能够显著提升模型的性能和可靠性。北京智源人工智能研究院数据研究组负责人张正表示,在过去几年时间内,模型的参数规模增长给性能带来了一定提升,但训练数据的质量和组织形式对模型性能的提升带来了更大的帮助。数据工作已经成为大模型行业中最受关注的一个任务,在模型规模不变的前提下,数据的变化能够让模型效果得到非常大的提升。模型参数量越大,数量越多,能力越强。

高质量AI数据正为人工智能发展持续注入动能。据德勤Deloitte预测,人工智能基础数据服务市场受人工智能核心产业发展带动仍将保持高速增长,2027年市场规模有望达到130-160亿元。根据IDC研究显示,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,复合年均增长速度(CAGR)达到26.3%,为全球第一,为大模型的持续优化提供了海量的数据来源。

不过,当前数据建设的一系列挑战也严重制约了人工智能技术的进一步发展。一方面,数据质量参差不齐。大模型的训练需要大量的数据,但是数据质量参差不齐,存在噪声、偏见等问题,这会影响大模型的性能。河南省商业经济学会副秘书长胡钰表示,当前我国大模型面临着数据生态存在先天不足,如在互联网内容资料中,中文数据不足2%,而且质量参差不齐。

另一方面,数据孤岛现象是当前数据建设中的一个突出问题。不同部门、不同系统之间的数据难以共享和整合,导致数据资源分散,无法充分发挥其价值。例如,企业内部的各个部门可能各自拥有独立的数据系统,这些系统之间的数据格式和语义不一致,难以进行有效的数据交换和共享。这种数据孤岛现象不仅限制了数据的流通,也增加了数据管理和整合的成本。

各方联动推进高质量数据建设

高质量的数据成为 AI 应用成功的关键,直接影响着 AI 系统的性能和准确性,国家数据局局长刘烈宏指出:“我们要充分发挥数据的基础资源作用和创新引擎作用,构建满足人工智能发展需要的数据开放、共享、流通、交易的模式,全面提高数据资源开发利用水平,让数据‘供得出、流得动、用得好’,真正成为人工智能发展的催化剂,推动做强、做优、做大数字经济。”

如何打造高质量的语料数据?中国信息通信研究院人工智能研究中心研究员燕江依表示,人工智能高质量数据集应满足为可靠性、准确性、完整性、多样性、标注精确性、安全性、均衡性、及时性等八大特征。建议联动各方生态力量,完善人工智能数据生态服务,推动人工智能高质量数据集建设发展。

去年底,国家数据局联合中央网信办、工信部等部门印发了《关于促进企业数据资源开发利用的意见》。其中提出,支持企业面向人工智能发展,开发高质量数据集。去年9月,四川省正式发布首批8个人工智能高质量数据集。数据集充分利用四川省海量数据资源、严格按照国家有关标准和要求打造,可用于医药研制、商贸流通、公共安全、能源调度等各类应用场景。

目前国家数据局部署了成都、沈阳、合肥、长沙、海口、保定、大同等7个承担数据标注基地建设任务的城市,探索数据标注产业高质量发展的科学路径,沈阳市以“揭榜挂帅”形式支持建成人工智能医学图像分析系统,能够提供医学光镜图像、病理图像等数据智能标注,已标注10TB高质量数据集,并应用于有关大模型研发。长沙市天心经济开发区已聚集地理、气象等8个领域共计700TB的数据资源,可支持智能交通、灾害预警、城市规划等人工智能应用。成都市已储备金融、医疗、网络安全等领域的多模态高质量数据集5400TB,赋能训练30余个人工智能模型。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新