本报告为“弈衡”多模态大模型评测体系白皮书(2024年),由中移智库发布,中国移动通信研究院编制。报告深入分析了多模态大模型的发展现状、评测需求、问题与挑战,并提出了“弈衡”多模态大模型评测体系。该评测体系旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准,并为评测数据和评测工具的构建提供指导。
报告指出,多模态大模型技术已从单一文字信息处理扩展至图像、语音等多模态数据,展现出在多个领域的应用潜力。评测体系面临数据多样性、任务丰富性、评测方式复杂性等挑战。为应对这些挑战,构建全面、客观的评测体系成为业界关注的热点。
“弈衡”多模态大模型评测体系采用“2-4-6”层级架构,包括2类评测场景(基础任务和应用任务)、4项评测要素(评测方式、评测指标、评测数据和评测工具)以及6种评测维度(功能性、准确性、可靠性、安全性、交互性和应用性)。该体系聚焦图文双模态大模型,旨在促进技术的健康发展与广泛应用,加速人工智能技术在各行各业的深度融合与创新实践。
报告还总结了当前主流的评测方式、评测维度和常见评测指标,并展望了评测技术的重点发展方向。中国移动技术能力评测中心将持续跟进多模态大模型发展,优化评测体系,与业界合作伙伴共同打造评测产业标准化生态,推动多模态大模型产业成熟和落地应用,为AI赋能千行百业贡献力量。
中移智库