当前位置：首页 » 资讯 » 新科技 » 正文

北电数智首席科学家窦德景：以数据可信定义AI终局

IP属地山东临沂 编辑：王婷砍柴网 时间：2024-07-11 18:32:59

2022年底，ChatGPT横空问世，其优秀、自然的语言交互能力给世界带来极大震撼。此后，海内外科技巨头、研究机构开启大模型竞赛，视频、音乐、语言等多模态大模型不断升级，各类AI应用层出不穷，人工智能进入大模型时代。
作为新时代基建，大模型已成为国家间科技乃至经济竞争的焦点。大模型参数正从百亿级、千亿级迈向万亿级，以数据为核心燃料的AI正加速向前。
然而，大模型在具体的落地过程中，仍面临许多挑战。大模型的训练和推理均需要高质量数据，目前国内开源数据集远少于海外；高质量数据则存在于数据烟囱中，难以发挥价值。一个安全、可信的数据空间，能为整个人工智能产业提供供得出、流得动的高质量数据，加速大模型落地真实场景。
7月3日，在2024年全球数字经济大会“互联网3.0高层论坛”上，北电数智首席科学家窦德景教授作了《以数据可信定义AI终局》主题演讲，分享对数据可信和AI产业发展的洞察。
北电数智首席科学家窦德景教授作主题演讲
数据规模与质量决定AI“上限”，数据可信成关键驱动力
人工智能从1956年在达特茅斯会议开启研究至今，已发展近90年时间,经过机器学习、深度学习两个阶段的发展后，2017年，生成式AI技术路线将人工智能的智能化程度推向新阶段。
大模型和生成式AI可以在几秒钟内自主生成完全原创的文本、图像、音频等内容，具有强大的认知和交互能力。生成式AI的模型应用和参数也在以前所未有的速度猛增，如GPT3.5的参数为1,750亿,到GPT4时，模型参数已达1.8万亿。
Scaling law(规模法则)已成行业共识，大模型的参数量和数据量在不断扩展，面向专业领域的垂直模型也在数据质量上不断优化。
无论是“质”、还是“量”，作为大模型训练和生成式AI 推理的三大要素之一，数据的重要性不言而喻。
据IDC测算，2022-2027年，中国的数据量规模将由23.88ZB增长至76.6ZB，复合增速达26.3%。从数据规模看，我国数据量无疑处于世界一流水平。
但从数据质量而言，与美国相比,在数据开源和市场流动角度，优质的中文数据集依然非常稀缺，大量数据散落在产业侧或垂直系统内。此外，非结构化的数据也难以支持算法训练，这对于生产力的提质增效有极大地制约。
高质量数据的积累离不开一个可信的数据空间。北电数智首席科学家窦德景教授分享道，实现数据可信并非一蹴而就，它目前仍然面临着诸多挑战，主要体现在四个方面：
·不知：因供需信息不对称，数据种类与质量不明确，导致数据在可用和匹配上遇到难题。
·不敢：在数据隐私和合规风险影响下，企业对数据所有权和合规的顾虑较大，对数据流通较为谨慎。
·不能：企业在数据治理和开放共享上存在着能力或机制层面的不足。
·不会：企业在数据流通上仍然缺少适合的分析工具与应用解决方案，产业也尚未形成和行业侧协作的有价值方法。
构建AI可信数据空间，重塑AI新格局
要想解决不知、不敢、不能、不会的数据难题，构建数据可信的生态系统，加快建设数据流通、共享、开放环境尤其重要。
以EOSC(欧洲开放云)科研项目为例，欧盟在关注到数据隐私后，成立了一个包含300万种资源在内的数据空间，覆盖多个领域范围，为180万欧洲研究人员和7000万科研人员提供跨国界和学科研究数据存储、管理、分析和再利用服务。
这种数据流通、可信、开放的产业生态，将极大促进产业发展、繁荣。而对于国内产业而言，打造数据可信的环境将会为AI产业发展、生态构建提供重要发展土壤。
北电数智认为，企业可以在技术可信层面，加快推进建设安全可信的数据流通设施和数据安全设施，尤其是找到技术上完全自主可控和技术可信的方法，应对数据问题。行业也可以通过开放服务促进经济社会发展相关应用场景落地，与产业协同，找到有价值的应用场景，推动数据要素流通、融合，打造整体解决方案，快速构建数据可信生态系统。
北电数智全栈信创的数据流通基础设施和数据安全设施“红湖·AI可信数据空间”，能为人工智能浪潮下促进数据共享流通创造“安全可靠运行环境”，提供AI时代高质量数据服务，推动大模型在行业落地。目前，公司正聚焦政务、先进制造、交通、医疗、传媒、教育等细分赛道打磨应用场景。
以政务大模型场景为例，政务领域信息丰富，知识结构复杂。用户不仅需要传统的知识检索、互动问答等功能,还需要政务表格分析、政务文本撰写等产品。北电数智与政府侧技术部门合作，通过数据获取、数据清洗、知识更新、表格内容提取等方式获取有效信息，建设行业知识库，再通过幻觉检测、安全围栏、数据可信空间等技术对数据进行有效分区，最终提供全栈国产化的整体解决方案。
在北电数智看来，数据可信可以在五大维度上重塑AI新格局，推动AI产业发展和大模型的落地。
· 提升AI模型质量和可靠性：为AI模型提供高质量训练素材，有助于提高模型的准确性、鲁棒性和泛化能力。
·促进AI技术的产业化应用：为AI在政务、金融、医疗、制造等领域的落地应用奠定基础。
·推动AI伦理和治理的发展：为AI的伦理使用和有效治理提供基础，有助于构建更加公平透明的AI生态系统。
·增强AI系统的安全性：有助于降低AI系统的安全风险，减少数据泄露、深度伪造等新型安全威胁。
·重塑AI技术路线和产业模式：推动AI从碎片化、小模型向大模型、通用智能方向发展，重新定义了AI的产业模式和标准。
展望未来，数据可信将在增强数据安全性和隐私、保障算法的公平性和透明性、推动法律和伦理框架完善、加速产业化应用、生态蓬勃繁荣等方面不断促进人工智能产业的发展。
未来，北电数智将基于“大算力、大数据、大模型”的AI全栈能力，以可信数据沙盒、隐私计算和区块链、全链条可控等技术为核心，以AI工厂及芯片适配为依托,提供一体化“可信”解决方案。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为首款家庭影院产品即将亮相！「华为悦彰」家族再添新成员

工信部权威认证：浩鲸科技荣获AI大模型领域“优秀单位”

陈立武拼了，当上英特尔CEO后，要花1.8亿买股票

“颜值担当”到“安全卫士”：新日甜心的爆款养成记

宇树科技突发！全球首个，人形机器人侧空翻！机器狗也卖爆了

Sporty & Rich入驻天猫奢品，开设首家官方旗舰店

午后突发！A50，直线猛拉！

那些因抑郁休学的孩子们，后来怎么样了？

元太科技携手瑞昱半导体发表第二代整合系统于基板的电子纸价签

京东3C数码政企开工季大促：办公用品整单团购低至85折

于东来宣布胖东来郑州首店地址：高铁东站地下广场加快设计中

佳能将坚持自研影像传感器短期不会推出高像素相机

惠普将推出一款18英寸的巨型笔记本：ZBook Fury G1i

中国中煤在徐州成立绿能科技公司

巍华新材等1亿元成立制冷新材料公司

纳尔股份等在上海投资新设材料公司

《九阴真经：武侠》游戏实机画面公布：虚幻 5 打造，偏单机体验

董宇辉回应不享受直播为啥要干：不想上学就不上了？

Stability AI推出Stable Virtual Camera，单图秒变3D视频

华培动力等在无锡成立产投合伙企业

GAMDIAS 推出 BOREAS M2-61L 带屏风冷散热器：配备 4.3 英寸 LCD

海尔智家等在武汉投资成立传媒公司

梦百合成立家居科技公司，含数字技术服务业务

与辉同行转让多个董宇辉商标至终南远眺公司

小米股价盘中再创新高，总市值1.47万亿港元

伟测科技拟13亿加码高端芯片测试项目公司回应：基于客户需求向好预期

AI服务器展望乐观，服务器相关企业近1.8万家

全站最新

华为首款家庭影院产品即将亮相！「华为悦彰」家族再添新成员

工信部权威认证：浩鲸科技荣获AI大模型领域“优秀单位”

陈立武拼了，当上英特尔CEO后，要花1.8亿买股票

“颜值担当”到“安全卫士”：新日甜心的爆款养成记

宇树科技突发！全球首个，人形机器人侧空翻！机器狗也卖爆了

Sporty & Rich入驻天猫奢品，开设首家官方旗舰店

聊聊新大洲本田NS150LA，5月份上市，复古平踏板新选择

午后突发！A50，直线猛拉！

热门推荐

华为首款家庭影院产品即将亮相！「华为悦彰」家族再添新成员

工信部权威认证：浩鲸科技荣获AI大模型领域“优秀单位”

陈立武拼了，当上英特尔CEO后，要花1.8亿买股票

“颜值担当”到“安全卫士”：新日甜心的爆款养成记

宇树科技突发！全球首个，人形机器人侧空翻！机器狗也卖爆了

Sporty & Rich入驻天猫奢品，开设首家官方旗舰店

午后突发！A50，直线猛拉！

那些因抑郁休学的孩子们，后来怎么样了？

元太科技携手瑞昱半导体发表第二代整合系统于基板的电子纸价签

京东3C数码政企开工季大促：办公用品整单团购低至85折

于东来宣布胖东来郑州首店地址：高铁东站地下广场加快设计中

佳能将坚持自研影像传感器短期不会推出高像素相机

惠普将推出一款18英寸的巨型笔记本：ZBook Fury G1i

中国中煤在徐州成立绿能科技公司

巍华新材等1亿元成立制冷新材料公司