2025-03-06 07:40:50 作者:
3月6日消息,阿里巴巴通义千问团队正式发布了其最新研究成果——QwQ-32B大语言模型。该模型拥有320亿参数规模,尽管参数量远小于某些大型模型,但其性能却能够与参数量高达6710亿(其中370亿参数被激活)的国际领先模型DeepSeek-R1相媲美。
通过强化学习技术,QwQ-32B在参数量仅为DeepSeek-R1约1/21的情况下,实现了性能上的显著提升。此外,阿里巴巴还为这一推理模型集成了与Agent相关的能力,使其不仅能够在使用工具时进行批判性思考,还能根据外部环境反馈动态调整推理过程。
QwQ-32B在多项基准测试中展现了卓越的表现,涵盖数学推理、编程能力及通用能力等多个领域。在评估数学能力的AIME24评测集以及测试代码生成能力的LiveCodeBench评测中,QwQ-32B的表现与DeepSeek-R1相当,并且大幅优于o1-mini及参数规模相同的R1蒸馏模型。
不仅如此,在多个权威评测榜单上,QwQ-32B同样取得了优异成绩。例如,在由meta首席科学家领衔开发的“最具挑战性LLMs评测榜”LiveBench、谷歌提出的指令遵循能力评估体系IFeval,以及加州大学伯克利分校设计的函数或工具调用准确性评估测试BFCL中,QwQ-32B的得分均超越了DeepSeek-R1。
目前,QwQ-32B已经在国际知名开源平台以及阿里巴巴旗下的ModelScope上对外开源,用户也可以通过Qwen Chat直接体验这一模型的功能。