北京,2024年11月15日 —— 在人工智能技术飞速发展的今天,全球技术生态正经历着深刻的变革。2024全球机器学习技术大会(北京站)于11月14-15日在北京举行,汇聚了顶尖的AI专家、学者和行业实践者,共同探讨机器学习的最新进展和未来趋势。在此次会议中,360人工智能研究院的两位资深专家冷大炜和刘焕勇,分别就“多模态大模型LMM与细粒度开放世界目标检测”和“文档理解及知识图谱增强大模型应用实践”发表了深入演讲,展示了360在AI及大模型领域的最新研究成果和技术实力。
360人工智能研究院自2015年成立以来,一直走在AI技术的前沿。研究院下辖的视觉引擎和认知引擎两个研发团队,在AI相关比赛中屡获殊荣,并发表顶会、顶刊论文数十篇。在业务落地方面,研究院为360集团提供了智能安全大数据、互联网信息分发、企业数字化、AIoT等全量业务场景支持,服务千万级硬件设备和亿级用户。
冷大炜博士,360人工智能研究院视觉方向负责人,在演讲中重点介绍了360在多模态大模型方向的最新研究成果和进展。当前业界大模型的研发主线已经从单纯的语言大模型升级到多模态大模型,冷大炜博士指出,多模态大模型的scaling law区别于纯语言模型,需要在模型结构、训练方法、数据偏见上分别解决相应的难题,并分享了360在这方面的心得和最新成果,包括360VL多模态大模型以及解决多模态大模型中的遗忘问题的IAA结构等。
冷大炜博士认为,当前多模态大模型的技术发展还远未成熟,面对多模态大模型在当前落地应用中面临的“什么都会什么都不精”的窘境,他进而提出基于多模态大模型实现“细粒度开放世界目标检测”的新研究方向,并分享了研究院在该方向下已经取得的初步成果,“多模态LMM本质上学习到的是文本模态和图像模态的隐式细粒度对齐,360VL在此基础上将细粒度开放世界目标检测做为主打建设能力,这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。”
360VL通过自然语言进行多模态识别能力展示:
在业务落地方面,360的多模态大模型已经在智能产品、儿童手表、图像标签化、视频监控等多个场景中得到应用。例如,儿童手表通过拍照学英语的功能,可以实时分析照片中的主体位置和形象,提供中英文描述。在视频监控场景下,360智能产品能够准确识别异常物体和人的进入,实现开放世界目标检测。此外,360的AI智能摄像机和视觉云的SaaS平台已经为超过五万家企业提供了数字化解决方案。刘焕勇,360人工智能研究院知识图谱及文档理解方向负责人,此次分享题目为文档理解及知识图谱增强大模型应用实践,介绍了面向RAG等场景的文档解析技术、知识图谱(GraphRAG)和RAG优化一线经验,并重点讲述了文档解析版式分析、图表理解等相关研发成果。刘焕勇先详细比较了OCR-pipeline、OCR-free等各技术路线,同时介绍了360在文档解析领域各模块的研发思路,包括版式分析、表格解析、公式解析、流程图、数值图等解析、markdown和目录生成逻辑,以及如何通过RAG多环节优化策略提升大模型在文档场景中的应用效果。在对外开源方面,开源的轻量化版式分析模型360Layout-Analysis具有细分领域、精细化标注、占用空间小、推理速度快等特点,受到广泛欢迎。在对外领先性方面,文档理解方向上的研究成果在国际上也具有强劲竞争力。在2024国际模式识别会议(ICPR 2024)人工智能、模式识别和机器学习赛道-“多行数学表达式识别任务”竞赛(ICPR 2024 Competition on Multi-line Mathematical expressions Recognition)中,360公式识别模型以绝对优势获得冠军!复杂公式转Latex示例
在业务落地方面,360文档理解整体模块作为“360知识大模型”的一部分,已在ToB产品“360智能文档云”中落地。据悉,在招投标过程中能力相比竞品有较大优势,已获得隧道股份等客户青睐。高精度表格识别能力展示:右侧为pdf原文,左侧为识别的结果:模型识别出的表格可直接入库。360人工智能研究院的专家们在大会上的演讲,不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位,并为未来的技术革新和应用实践提供了宝贵的思路和方向。关于360人工智能研究院:360人工智能研究院成立于2015年,隶属于360集团技术中台,下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项,发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面,研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持,并服务于亿级用户。