北京,2024年11月15日 —— 在人工智能技术飞速发展的今天,全球技术生态正经历着深刻的变革。2024全球机器学习技术大会(北京站)于11月14-15日在北京举行,汇聚了顶尖的AI专家、学者和行业实践者,共同探讨机器学习的最新进展和未来趋势。在此次会议中,360人工智能研究院的两位资深专家冷大炜和刘焕勇,分别就“多模态大模型LMM与细粒度开放世界目标检测”和“文档理解及知识图谱增强大模型应用实践”发表了深入演讲,展示了360在AI及大模型领域的最新研究成果和技术实力。
360人工智能研究院自2015年成立以来,一直走在AI技术的前沿。研究院下辖的视觉引擎和认知引擎两个研发团队,在AI相关比赛中屡获殊荣,并发表顶会、顶刊论文数十篇。在业务落地方面,研究院为360集团提供了智能安全大数据、互联网信息分发、企业数字化、AIoT等全量业务场景支持,服务千万级硬件设备和亿级用户。
冷大炜博士,360人工智能研究院视觉方向负责人,在演讲中重点介绍了360在多模态大模型方向的最新研究成果和进展。当前业界大模型的研发主线已经从单纯的语言大模型升级到多模态大模型,冷大炜博士指出,多模态大模型的scaling law区别于纯语言模型,需要在模型结构、训练方法、数据偏见上分别解决相应的难题,并分享了360在这方面的心得和最新成果,包括360VL多模态大模型以及解决多模态大模型中的遗忘问题的IAA结构等。
冷大炜博士认为,当前多模态大模型的技术发展还远未成熟,面对多模态大模型在当前落地应用中面临的“什么都会什么都不精”的窘境,他进而提出基于多模态大模型实现“细粒度开放世界目标检测”的新研究方向,并分享了研究院在该方向下已经取得的初步成果,“多模态LMM本质上学习到的是文本模态和图像模态的隐式细粒度对齐,360VL在此基础上将细粒度开放世界目标检测做为主打建设能力,这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。”
360VL通过自然语言进行多模态识别能力展示:
复杂公式转Latex示例
360人工智能研究院的专家们在大会上的演讲,不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位,并为未来的技术革新和应用实践提供了宝贵的思路和方向。关于360人工智能研究院:360人工智能研究院成立于2015年,隶属于360集团技术中台,下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项,发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面,研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持,并服务于亿级用户。