当前位置：首页 » 资讯 » 新科技 » 正文

价格是DeepSeek 277倍！GPT-4.5还是太自信了

IP属地北京 编辑：江紫萱雷科技 时间：2025-02-28 19:35:21

GPT-4.5 不能说没有进步，但比起飙涨的推理成本，就显得 OpenAI 有些力不从心了。
北京时间 2 月 28 日，OpenAI 举办了一场相当简单的直播，正式发布了传闻已久的 GPT-4.5（研究预览版）。但 OpenAI CEO Sam Altman（山姆·奥特曼）没有亲临直播现场，官方也指出 GPT-4.5 不是一个前沿模型。
相比之下，两年前发布 GPT-4 的场面明显更隆重，也更有想法。而这些迹象似乎在开始就表明了：OpenAI 也不认为，GPT-4.5 会是一次里程碑式的升级。
但有一说一，GPT-4.5 依然是 OpenAI 最新、最强的聊天模型，不仅回答时的情商更高了，尤其重要的是，相比 GPT-4o 的准确率提升了 24.%，幻觉率更是降低了 24.7%。
这些提升还是非常关键，要知道，这两方面依然是包括 DeepSeek-R1 在内很多大模型，在使用上最大的问题。
单看这一点，其实也值回了观看直播发布活动的「票价」。但相对地，使用 GPT-4.5 的「票价」很难评了：

输入（缓存命中）为 37.5 美元 / 百万 tokens；

输入（缓存未命中）为 75 美元 / 百万 tokens；

输出为 150 美元 / 百万 tokens。
什么概念？以输入价格（缓存未命中）为例，GPT-4.5 的 API 价格是 GPT-4o 的整整 30 倍，还是 DeepSeek-V3（美元定价）的 277 倍，DeepSeek-R1（美元定价）的 136 倍。甚至如果对比 DeepSeek 优惠时段的价格，GPT-4.5 是前者的 555 倍。
图/
很难想象，GPT-4.5 这个贵出天际的价格，能有多少开发者用得起、会想用。
相对来说，ChatGPT 会员可能是 GPT-4.5 最具性价比的一种方式。目前，Pro 用户已经可以率先体验到 GPT-4.5（研究预览版），下周将向团队用户和 Plus 用户开放，同时面向教育用户和企业用户推出。
需要强调的是，GPT 4.5 不是推理模型。
自从 OpenAI 推出 o1 模型后，大模型实际上分化出了一条名为「推理模型」的路线，OpenAI o1/o3 以及 DeepSeek R1 都是这条路线。然而 GPT 4.5 则是非推理路线的预训练大模型，就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。
不过，OpenAI 还表示，推理将是未来模型的核心能力，预训练和推理两条路线并进且相互补充也会是大模型的趋势所在。其实 Sam Altman 之前也明确表示过了，OpenAI 的两个系列模型以后将会：
合二为一。
智商升级不大，但情商高了、幻觉更少
如果从大模型常规比拼的「智商」来看，GPT-4.5 的进步实在算不上大。
图/ OpenAI
在 MMMLU（语言理解）、MMMU（多模态）等基准测试中的跑分尽管都比 GPT-4o 有了提升，但提升幅度只在 5%左右，在 GPQA（科学）和 AIME ‘24（数据）等基准测试中也远不如推理模型的 o3-mini（high）。
不过让我们跳过跑分以及背后的技术迭代等，回到直播演示中 GPT-4.5 更让人「体感」到的升级上，还是能明显感知到，GPT-4.5 在对话中对人类需求和意图更好地理解。
其中一次，主持人告诉 GPT-4.5「我的朋友又放我鸽子了，我想发一条短信骂他」，但 GPT-4.5 不会直接给出一条怒骂朋友的短信，而是捕捉到用户在文字中的情绪，给出了一些更有建设性的短信。与之相较，GPT-4o 更多还是「单纯」地执行命令，给出了一条表达愤怒的短信。
翻译仅供参考，图/ OpenAI
相似的例子还有，比如告诉 GPT-4.5「我在考试失败后正经历一段艰难时期」，其他模型会立刻给出一些可能的「解决方案」，GPT-4.5 则会主动安慰并询问用户，实际是想谈谈这个问题，还是需要分散一下注意力。
在不少例子都可以看出 GPT-4.5 在「情商」上的进步，简单来说也更像「一个人」而非「机器」了。
在内部测试中，OpenAI 也发现相比与 GPT-4o 的对话，测试人员普遍认为与 GPT-4.5 的对话更接近人类的交流方式，也更自然。但坦白讲，两者在数据上差距并不算大，在创造性智能、日常询问上 GPT-4.5 也仅仅略胜一筹，专业问询上倒是可以做到 63.2%的胜率。
不过相比情商，更让人在意的可能还是幻觉的减少。在「简单但有挑战性」的场 SimpleQA（包含从科技到电视节目、电子游戏等主题）常识问答测试中，GPT-4.5 编造答案或产生幻觉的比例约为 37%，而与此相比，GPT-4o 模型的比例接近 60%。
上：准确率，下：幻觉率，图/ OpenAI
这里也要一提，GPT-4o 已经算是目前幻觉比较少的模型之一，一般认为比 DeepSeek-V3 更好，也就更遑论幻觉问题比较严重的 DeepSeek-R1 了。
价格是DeepSeek 277倍！太离谱了
GPT-4.5 发布之后，MIT 科技评论采访了一家为商业客户的大模型服务公司，其联合创始人兼 CTOWaseem Alshikh 表示，GPT-4.5 对于写作和头脑风暴这样的特定用例非常有潜力，但整体来说只是在交互变得更顺滑了：
「这并不是一场变革。」
这也大体能够说明 GPT-4.5 的升级定位，最多只能称得上一次半代升级。更何况，OpenAI 投入更多的训练算力，结果更多是带来了贵得离谱的推理成本。
尽管没有披露 GPT-4.5 的训练成本，但 Sam Altman 在 X（原 Twitter）上明确指出 GPT-4.5 是一个巨型、昂贵的模型，甚至 GPU 已经不够用，需要在下周增加数万个 GPU 才能将其开发给 Plus 以及更多用户。
翻译仅供参考，图/ X
与此同时，正如前文展示的数据，GPT-4.5 的 API 定价出乎了所有人的意料，不仅比自家主力大模型贵，比刚刚推出的全球首个混合推理模型 Claude-3.7-Sonnet 也贵了 25 倍，更不用说和刚刚宣布错峰定价的「价格屠夫」DeepSeek 比。
「坦白地说，我感到震惊。他们如何证明这个要价是合理的？」Hacker New 网友表示，「如果他们有一些令人惊叹的能力，使得价格翻 30 倍变得合理，为什么不展示出来呢？」
Hacker News 网友评论，图/
背后的故事我们还不得而知，不过可以知道的是，GPT-4.5 在训练上还是有所改变，最核心的一点就是引入了「无监督学习扩展」（Scaling unsupervised learning）提到世界模型的准确性和直觉，这是 GPT-4.5 在情商和幻觉方面有所改进的关键创新之一。
不仅如此，无监督学习让模型能够从大量未标注的数据中学习语言模式和知识，而且能够使用较小模型的衍生数据，来训练出更大、更强的模型。某种意义上，这也是 GPT-4.5 最大的贡献之一，证明了用小模型训练大模型的可能，而不只是用大模型蒸馏出小模型。
但无论如何，GPT-4.5 的训练和推理成本都实在难以让人接受，还是期待一下据说要提前发布的 DeepSeek-R2，会带来怎样的惊喜吧。
图/ DeepSeek
写在最后
今年 1 月初，Sam Altman 在 X 上写一篇了「六字故事」：near the singularity; unclear which side。简单来说，可以译为「奇点临近，不知身处何方」。
紧接着，就是 DeepSeek-V3 和 R1 带来的核弹级冲击，让 Sam Altman 也不得不承认 OpenAI 的闭源策略「站在错误的一边」。与此同时，所有人也开始转向性能又强、性价比又高的 DeepSeek，包括 Gemini 等大模型也推出性价比同样很高的新一代。
但说了这么多，回归模型本身，GPT-4.5 其实不差，拥有更大的知识库、增强的创造力和更自然的对话风格，也不像 o 系列模型那样需要等待 AI 执行详细的逐步逻辑。说实话，身边已经有不少人厌烦了 DeepSeek-R1 冗长的思考过程。
而更具体地说，GPT-4.5 可能更擅长创意和细腻的任务，如写作和解决实际问题，更重要的是它可能产生的幻觉更少，通用性更强。
至少，ChatGPT 的订阅用户可能又多了续订的理由，反正不需要我们考虑 OpenAI 的成本。就拿我自己说，前些天因为不满回答的稳定性取消了 ChatGPT Plus，但看完后又觉得，还是要下周体验后再确定是否续订。
聚焦DeepSeek：
DeepSeek 体验整活
DeepSeek 技术科普
DeepSeek 再造硬件
DeepSeek 重塑软件
DeepSeek 点燃未来
DeepSeek 现象

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

五险一金东哥全包！北京女单王成京东外卖全职骑手直呼家庭地位都上来了

5.75mm史无前例！传音发布全球最薄智能手机：神似iPhone 17 Air

新战神诞生！小米SU7 Ultra 0-400加速力压1600马力GT-R

极越回应多项用户问题，App 错报等已解决

尊界法务反击网络谣言，涉案谭某某等被依法处置

小米智能开关 Pro Mesh 2.0 版上市，国补到手价 109.65 元起

梦工厂动画电影《怪物史瑞克 5》北美定档明年 12 月 23 日

极星科技：公司组织架构进行调整，目前正常运营

国内最大事故车拍卖平台博车网赴港上市：复星、平安持股，两年亏超3亿

推理模型爆火，阿里国际站拿出了第一个产业应用：做外贸

百度文心4.5定档316，中美AI大模型谁将更胜一筹？

南下资金二夺港股定价权，“红利+科技”两线攻击

听花酒风波这一年：砸钱投放广告，提供线下免费品鉴，去年四季度营收激增引监管关注

一加 Ace 5 Pro 手机获 ColorOS 15.0.0.501 升级

小米智能墙壁插座 Pro Mesh 2.0 版上市，国补到手价 126.65 元起

小米多款新品搭载支持杜比技术

数据看盘IM期指多头大幅加仓机构、游资活跃度明显下降

【数据看盘】IM期指多头大幅加仓机构、游资活跃度明显下降

金价跳水，多只黄金ETF单日净赎回，是倒车接人，还是风险毕现？

港股风向标｜恒指高位回调失守23000点关口政策预期高涨对冲情绪利空

云从科技年营收4亿：同比降37% 扣非后净亏6.6亿，股价跌16%

京东外卖，“烧”上牌桌

门店数量激增 45%，薯条专门店会是下一个爆火赛道吗？

一举打破六项记录！ROG Astral夜神RTX 5090频率狂飙3.45GHz

年代剧《六姊妹》原著在京东热销下单即享直降优惠

小米国补政策一图看懂：数码+家电全品类覆盖全平台参与！

大手笔增持，要来了！

全站最新

启辰全新大V DD-i虎鲸上市，四好实力领潮智能插混市场

成功汽车遵义工厂角马柴油车出口沙特首发仪式圆满举行

小鹏新款G6亮相，能否助力销量再攀高峰？

五险一金东哥全包！北京女单王成京东外卖全职骑手直呼家庭地位都上来了

启源Q07正式亮相配1.5L插混系统+魔毯悬架高低配车型有何差异？

5.75mm史无前例！传音发布全球最薄智能手机：神似iPhone 17 Air

上汽大通新途V80 9AT上市，搭采埃孚9AT变速箱，售价14.03万起

新战神诞生！小米SU7 Ultra 0-400加速力压1600马力GT-R

热门推荐

五险一金东哥全包！北京女单王成京东外卖全职骑手直呼家庭地位都上来了

5.75mm史无前例！传音发布全球最薄智能手机：神似iPhone 17 Air

新战神诞生！小米SU7 Ultra 0-400加速力压1600马力GT-R

极越回应多项用户问题，App 错报等已解决

尊界法务反击网络谣言，涉案谭某某等被依法处置

小米智能开关 Pro Mesh 2.0 版上市，国补到手价 109.65 元起

梦工厂动画电影《怪物史瑞克 5》北美定档明年 12 月 23 日

极星科技：公司组织架构进行调整，目前正常运营

国内最大事故车拍卖平台博车网赴港上市：复星、平安持股，两年亏超3亿

推理模型爆火，阿里国际站拿出了第一个产业应用：做外贸

百度文心4.5定档316，中美AI大模型谁将更胜一筹？

南下资金二夺港股定价权，“红利+科技”两线攻击

听花酒风波这一年：砸钱投放广告，提供线下免费品鉴，去年四季度营收激增引监管关注

一加 Ace 5 Pro 手机获 ColorOS 15.0.0.501 升级

小米智能墙壁插座 Pro Mesh 2.0 版上市，国补到手价 126.65 元起