刚刚,OpenAI 发布 GPT-4.1,吊打 GPT-4.5,14 万/月的博士级 AI 曝光

来源:36氪

昨天,OpenAI 宣布调整 API 使用规则。未来访问 OpenAI 旗下最新大模型,需要通过身份验证的 ID(即 OpenAI 支持的国家/地区之一的政府签发的身份证件,且一个身份证件每 90 天只能验证一个组织),未通过验证将影响模型使用。新规引起的争议尚未平息,OpenAI 于今天凌晨顺势推出了三款 GPT-4.1 系列模型,不过,只能通过 API 用,不会直接出现在 ChatGPT 里。GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。GPT-4.1 mini:小型高效模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,成本降低 83%,适合需要高效性能的场景。GPT-4.1 nano:OpenAl 首个超小型模型,速度最快、成本最低,拥有 100 万 token 上下文窗口,适用于低延迟任务如分类和自动补全。尽管对 OpenAI 混乱的命名逻辑早有心理准备,但 GPT-4.1 还是遭到了网友的一致吐槽,就连 OpenAI 首席产品官 Kevin Weil 也自嘲:「这周我们的命名水平肯定也没啥进步。技术才是硬道理,虽然命名饱受诟病,但 GPT-4.1 的实力还是有目共睹。

OpenAI 宣称 GPT-4.1 系列模型在多项基准测试中表现出色,堪称当前最强大的编程模型之一。OpenAI 更是将 GPT-4.1 比喻为「quasar」(类星体),暗示它像类星体一样在 AI 领域中具有强大的影响力和能量。在真实软件工程能力的评估标准 SWE-bench Verified 基准测试中,GPT-4.1 得分 54.6%,较 GPT-4o 提升 21.4 个百分点,较 GPT-4.5 提升 26.6 个百分点。GPT‑4.1 在 diff 格式方面经过专门训练,更能稳定输出修改片段,节省延迟与成本。此外,OpenAI 已将 GPT‑4.1 的输出 token 上限提升至 32768 tokens,便于应对全文件重写的需求。在前端开发任务中,OpenAI 盲测结果显示,80%评估者偏爱 GPT-4.1 生成的网页。OpenAI 今天凌晨的直播也邀请了 Windsurf 的创始人兼 CEO Varun Mohan 分享经验。Varun 透露,其内部基准测试显示,GPT-4.1 性能比 GPT-4 提升了 60%。鉴于 GPT-4.1 的出色表现,Windsurf 决定为所有用户提供一周的 GPT-4.1 免费体验,随后以大幅折扣继续提供该模型。另外,Cursor 用户现在也可以免费使用 GPT-4.1。