当前位置：首页 » 资讯 » 新科技 » 正文

360多模态及文档理解大模型技术亮相全球机器学习技术大会

IP属地北京 编辑：唐云泽 360亿方云 时间：2024-11-25 15:00:28

北京，2024年11月15日 —— 在人工智能技术飞速发展的今天，全球技术生态正经历着深刻的变革。2024全球机器学习技术大会（北京站）于11月14-15日在北京举行，汇聚了顶尖的AI专家、学者和行业实践者，共同探讨机器学习的最新进展和未来趋势。在此次会议中，360人工智能研究院的两位资深专家冷大炜和刘焕勇，分别就“多模态大模型LMM与细粒度开放世界目标检测”和“文档理解及知识图谱增强大模型应用实践”发表了深入演讲，展示了360在AI及大模型领域的最新研究成果和技术实力。
360人工智能研究院自2015年成立以来，一直走在AI技术的前沿。研究院下辖的视觉引擎和认知引擎两个研发团队，在AI相关比赛中屡获殊荣，并发表顶会、顶刊论文数十篇。在业务落地方面，研究院为360集团提供了智能安全大数据、互联网信息分发、企业数字化、AIoT等全量业务场景支持，服务千万级硬件设备和亿级用户。
冷大炜博士，360人工智能研究院视觉方向负责人，在演讲中重点介绍了360在多模态大模型方向的最新研究成果和进展。当前业界大模型的研发主线已经从单纯的语言大模型升级到多模态大模型，冷大炜博士指出，多模态大模型的scaling law区别于纯语言模型，需要在模型结构、训练方法、数据偏见上分别解决相应的难题，并分享了360在这方面的心得和最新成果，包括360VL多模态大模型以及解决多模态大模型中的遗忘问题的IAA结构等。
冷大炜博士认为，当前多模态大模型的技术发展还远未成熟，面对多模态大模型在当前落地应用中面临的“什么都会什么都不精”的窘境，他进而提出基于多模态大模型实现“细粒度开放世界目标检测”的新研究方向，并分享了研究院在该方向下已经取得的初步成果，“多模态LMM本质上学习到的是文本模态和图像模态的隐式细粒度对齐，360VL在此基础上将细粒度开放世界目标检测做为主打建设能力，这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。”
360VL通过自然语言进行多模态识别能力展示：
在业务落地方面，360的多模态大模型已经在智能产品、儿童手表、图像标签化、视频监控等多个场景中得到应用。例如，儿童手表通过拍照学英语的功能，可以实时分析照片中的主体位置和形象，提供中英文描述。在视频监控场景下，360智能产品能够准确识别异常物体和人的进入，实现开放世界目标检测。此外，360的AI智能摄像机和视觉云的SaaS平台已经为超过五万家企业提供了数字化解决方案。
刘焕勇，360人工智能研究院知识图谱及文档理解方向负责人，此次分享题目为文档理解及知识图谱增强大模型应用实践，介绍了面向RAG等场景的文档解析技术、知识图谱(GraphRAG)和RAG优化一线经验，并重点讲述了文档解析版式分析、图表理解等相关研发成果。刘焕勇先详细比较了OCR-pipeline、OCR-free等各技术路线，同时介绍了360在文档解析领域各模块的研发思路，包括版式分析、表格解析、公式解析、流程图、数值图等解析、markdown和目录生成逻辑，以及如何通过RAG多环节优化策略提升大模型在文档场景中的应用效果。在对外开源方面，开源的轻量化版式分析模型360Layout-Analysis具有细分领域、精细化标注、占用空间小、推理速度快等特点，受到广泛欢迎。在对外领先性方面，文档理解方向上的研究成果在国际上也具有强劲竞争力。在2024国际模式识别会议（ICPR 2024）人工智能、模式识别和机器学习赛道-“多行数学表达式识别任务”竞赛（ICPR 2024 Competition on Multi-line Mathematical expressions Recognition）中，360公式识别模型以绝对优势获得冠军！
复杂公式转Latex示例
在业务落地方面，360文档理解整体模块作为“360知识大模型”的一部分，已在ToB产品“360智能文档云”中落地。据悉，在招投标过程中能力相比竞品有较大优势，已获得隧道股份等客户青睐。高精度表格识别能力展示：右侧为pdf原文，左侧为识别的结果：模型识别出的表格可直接入库。
360人工智能研究院的专家们在大会上的演讲，不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位，并为未来的技术革新和应用实践提供了宝贵的思路和方向。关于360人工智能研究院：360人工智能研究院成立于2015年，隶属于360集团技术中台，下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项，发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面，研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持，并服务于亿级用户。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

宝马携超30款车型亮相上海车展新世代驾趣概念车全球首发

太极集团业绩崩盘，新董事长俞敏上任不足半年

新董事长杨秀明年度业绩首秀，重庆银行“增量不增质”？

新奥能源拟私有化，现有股东如何获利？

联想集团2025/26财年誓师大会顺利举行

谷歌计划将Gemini引入Chrome浏览器侧边栏

科技巨头与航天企业因卫星频谱资源展开法律争夺战

日料品类发展报告2025：品类持续回暖，细分赛道显现新潜力

KTC 5K 双模果粉屏显示器 H27P3 发布，3599 元

高通小至尊版芯片！REDMI首发骁龙8s Gen4

摩根士丹利基金管理公司注册资本增至9.5亿

官方媒体为哪吒之魔童闹海加油助威：全球票房近155亿

谁在悄悄打开男性消费者的钱包

宏碁掠夺者存储推出 M.2 PCIe 4.0 固态硬盘 GM6，采用 QLC 颗粒

东盟创新合作发展论坛在京举行中关村发展集团联合多方共建创新合作新生态

李杰换上一加13T：年度小屏旗舰性能/续航均是行业最强

中信消费金融公司注册资本增至10亿

山灵 SMT1.3 台式流媒体转盘上市：双频 WiFi6 传输，4798 元

OPPO Find X8s落樱粉官图公布：1.25mm全球最窄边女生一见倾心

华电国际、中国康富投资成立能源新公司

乘客“开门杀”致人死亡：网约车司机被判主责，获有期徒刑一年

7300mAh续航灭霸！vivo Y300 Pro+发布：1799元起

多瑞医药等在北京成立医疗器械公司

美的集团回应清仓小米：正常投资操作，没有什么特别原因

美的回应彻底清仓小米：公司正常投资操作

曾遭央视“3·15”晚会曝光的这家公司，2024年预亏3800万

家电消费市场持续回暖消费者购买以旧换新家电近9000万台

全站最新

新势力销量3月狂飙，格局再巨变！

无锡银行陶畅回归接棒董事长后首份年报：2024年营收净利双增、不良率创近五年新低

掌门访谈｜神州数码董事长郭为：“通专融合”破局AI落地难神州问学助力中国企业流程人工智能化

公司热点｜存在公司治理不规范等多方面问题：维业股份被责令改正，董事长等相关人员被警示

奇瑞“神行者”新车曝光？错啦！揭秘真实身份——江铃新款硬派SUV

北京现代纯电SUV OE1c谍照曝光，低调演绎“真质战略”新篇章

腾势N9震撼上市：38.98万起，天神之眼B、易三方、云辇-A三大黑科技引领未来出行！

别再被忽悠了！电动车电池到底能用几年？行内人告诉你真实结果

热门推荐

火石会48小时奇迹：140位产业巨头共筑AI“星河舰队”

AI时代新坐标！火石会：应时而生，聚势而为

宝马携超30款车型亮相上海车展新世代驾趣概念车全球首发

太极集团业绩崩盘，新董事长俞敏上任不足半年

新董事长杨秀明年度业绩首秀，重庆银行“增量不增质”？

新奥能源拟私有化，现有股东如何获利？

联想集团2025/26财年誓师大会顺利举行

谷歌计划将Gemini引入Chrome浏览器侧边栏

科技巨头与航天企业因卫星频谱资源展开法律争夺战

日料品类发展报告2025：品类持续回暖，细分赛道显现新潜力

KTC 5K 双模果粉屏显示器 H27P3 发布，3599 元

高通小至尊版芯片！REDMI首发骁龙8s Gen4

摩根士丹利基金管理公司注册资本增至9.5亿

官方媒体为哪吒之魔童闹海加油助威：全球票房近155亿

谁在悄悄打开男性消费者的钱包