2月25日,根据新智元报道,Anthropic祭出首个混合推理Claude 3.7 Sonnet,堪称扩展思考模式的最强模型。在最新编码测试中,新模型比o3-mini、DeepSeek R1要强上不少,堪称AI编码领域新王者。
根据介绍,Claude 3.7 Sonnet是Anthropic推出的首款混合推理模型,也是Claude系列中迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。
Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。在编码和前端网页开发方面,Claude 3.7 Sonnet得到显著提升。除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。
目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。
在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。相较于上一代Claude 3.5 Sonnet,数学、编码能力提升10%以上。除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。可以说,Claude 3.7 Sonnet完全是一个最强“软件工程AI”。在SWE-bench上,其还创下了70.3%的高分。
值得一提的是,Claude 3.7 Sonnet目前已经在Claude.ai平台上线,Web、iOS和Android用户皆可免费体验。