当前位置：首页 » 资讯 » 新科技 » 正文

谁更聪明？讯飞星火深度推理模型X1升级版和DeepSeek数学能力大PK

IP属地北京 编辑：冯璃月中关村在线 时间：2025-03-07 14:34:09

2025-03-07 11:00:16 作者：
继今年1月15日讯飞发布深度推理模型星火X1后，3月3日，星火X1迎来了升级。同时基于星火X1升级版，首发星火医疗大模型X1，在诊断推荐、健康咨询等医学任务上效果领先。
作为采用全国首个、也是目前唯一一个基于国产算力训练的深度推理大模型，科大讯飞官方称，星火X1升级版在模型参数量较少的情况下，实现了数学能力与DeepSeek R1和OpenAI o1的全面对标。
星火X1升级版的数学能力到底如何，能否真的对能标DeepSeek R1，还需要我们亲自动手验证。
下面的10道试题，涉及小、初、高及奥数。本着一视同仁的原则，每题10分，满分100，以最后得分多者为胜，看看星火X1升级版和DeepSeek R1谁才是数学殿堂里的王者。
试题1：
《五年级方程超难易错题》
某班有学生45人，会下象棋的人数是会下围棋人数的3.5倍，两种棋都会及两种棋都不会的都是5人，求只会下围棋的人数。（设未知数并列方程求解）
星火X1
DeepSeek R1
两大模型都给出了正确答案，各得10分。
试题2：
《小学奥数盈亏问题题库》
幼儿园老师给小朋友分糖果．若每人分8块，还剩10块；若每人分9块，最后一人分不到9块，但至少可分到一块．那么糖果最多有多少块？
星火X1
DeepSeek R1
再次双赢，各得10分
试题3：
《2024年重庆市中考数学试题A卷数学试题》
星火X1
DeepSeek R1
正确，两大模型各得10分。
试题4：
《2024年重庆市中考数学试题A卷数学试题》
星火X1
DeepSeek R1
两大模型回答正确，各得10分。
试题5：
《2024年重庆市中考数学试题A卷数学试题》
星火X1
DeepSeek R1
两大模型回答正确，各得10分。
试题6：
《2024年重庆市中考数学试题A卷数学试题》
星火X1
DeepSeek R1
星火X1完美给出了三小题的答案，得10分，DeepSeek给出的答案中（1）正确，（2）错误，（3）两个坐标只给出了一个，以4个答案共10分计算，每个答案分别为2.5分，因此这道题DeepSeek共得5分。
试题7：
《2024年新高考数学全国一卷试卷（新高考Ⅰ）》
星火X1
DeepSeek R1
回答正确，各得10分
试题8：
《2024年新高考数学全国一卷试卷（新高考Ⅰ）》：
星火X1
DeepSeek R1
星火X1给出的两小题答案全部正确，得10分；DeepSeek此轮表现不佳，0分。
试题9
《初中奥数常考试题类型100例》）
已知三角形的三个内角的和是 180°，如果一个三角形的三个内角的度数都是小于 120 的质数，则这个三角形三个内角的度数分别是___。
星火X1
DeepSeek R1
星火X1只给出一个答案，实际上，该题还有一个答案，即2°、89°、89°，同样也能满足题意，因为漏失一个答案，得5分。DeepSeek回答正确，得10分。
试题10：
《2024年全国中学生数学奥林匹克竞赛（预赛）暨2024年全国高中数学联合竞赛一试试卷（A卷）》
星火X1
DeepSeek R1
星火X1回答正确，得10分；DeepSeek回答错误，不得分。
小结：
上面我们对刚升级的讯飞星火深度推理大模型X1做了简单的测试，从它和当前热度很高的DeepSeek的PK情况来看，星火X1的表现很出色，10道题仅错了半题，总得分95分，相比之下，DeepSeek表现略差，错了两题，半错一题，总得分75分。
此外，在使用过程中我们还发现，DeepSeek广被诟病的服务器繁忙、无法回答问题的情况仍然存在。
此次评测大约用去5个小时，其中约有一大半时间是浪费在反复发送问题，等待DeepSeek的回复上，徒耗了精力，一定程度上拉低了使用体验。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

光刻机巨头ASML有点慌，2025年，中国市场或少400亿收入

台积电董事长：4nm芯片、3NP芯片，是生产线人工做出来的

AITO 问界与 ELYSEE CARS 达成合作

24000TEU双燃料集装箱船首制船试航成功

三星S25 Edge传闻汇总：厚度仅5.84ｍｍ 4月16日发布

马斯克称赞中国高铁“令人惊叹”，建议美国游客避免使用美国家铁路

海尔CEO周云杰谈养老机器人：还需几年时间，正进行场景化训练

入门级显卡有新品！零售网站曝光AMD RX 9050

Steam 国区 198 元，双人合作游戏《双影奇境》中国玩家占比过半

《Apex 英雄》开发商 Respawn 悄悄取消多人 FPS 游戏孵化项目

AI+，重大资产重组！

小米手机高端化：拿下全球2%，中国5%市场，落后华为较远

中科院院士丁洪倡议发起中学 AI 奥赛

海尔集团周云杰谈养老机器人：还需要几年时间，正进行场景化训练

全国政协委员周鸿祎：AI大模型“幻觉”具有两面性

雷军两会呼吁：加强AI换脸拟声立法，保障个人权益不受侵害

麦家谈 DeepSeek 对文学创作的冲击：问题在于没法暴露人的局限性

OPPO ColorOS 流体云适配美团取餐柜号，本月更新支持快递物流

国家超算互联网平台 QwQ-32B API 接口服务上线

二手小米SU7 Ultra卖到65万车商：我自己都舍不得开只加了2万

LV开卖美妆；Adidas中国业绩七连增；Chanel开出地级市首店｜品牌周报

点燃消费者热情的 “哪吒”衍生品，成就了哪些品牌的IP梦？

星舰第八次试飞失败 SpaceX公布飞船解体关键原因

何小鹏：小鹏 L3 级人形机器人明年量产，已在广州工厂投入使用

华为组建新军团，消息称张伟力担任医疗卫生军团负责人

曝三星已开始为三款设备测试One UI 8 有望提前亮相？

“雪王”股市耀眼，食安投诉缘何仍然接踵而来？丨正经315

全站最新

光刻机巨头ASML有点慌，2025年，中国市场或少400亿收入

台积电董事长：4nm芯片、3NP芯片，是生产线人工做出来的

AITO 问界与 ELYSEE CARS 达成合作

24000TEU双燃料集装箱船首制船试航成功

三星S25 Edge传闻汇总：厚度仅5.84ｍｍ 4月16日发布

马斯克称赞中国高铁“令人惊叹”，建议美国游客避免使用美国家铁路

海尔CEO周云杰谈养老机器人：还需几年时间，正进行场景化训练

特斯拉金色无人驾驶出租车亮相得克萨斯超级工厂

热门推荐

光刻机巨头ASML有点慌，2025年，中国市场或少400亿收入

台积电董事长：4nm芯片、3NP芯片，是生产线人工做出来的

AITO 问界与 ELYSEE CARS 达成合作

24000TEU双燃料集装箱船首制船试航成功

三星S25 Edge传闻汇总：厚度仅5.84ｍｍ 4月16日发布

马斯克称赞中国高铁“令人惊叹”，建议美国游客避免使用美国家铁路

海尔CEO周云杰谈养老机器人：还需几年时间，正进行场景化训练

入门级显卡有新品！零售网站曝光AMD RX 9050

Steam 国区 198 元，双人合作游戏《双影奇境》中国玩家占比过半

《Apex 英雄》开发商 Respawn 悄悄取消多人 FPS 游戏孵化项目

AI+，重大资产重组！

小米手机高端化：拿下全球2%，中国5%市场，落后华为较远

中科院院士丁洪倡议发起中学 AI 奥赛

海尔集团周云杰谈养老机器人：还需要几年时间，正进行场景化训练

全国政协委员周鸿祎：AI大模型“幻觉”具有两面性