广东省人智研究院

刚刚，OpenAI 发布 GPT-4.1，吊打 GPT-4.5，14 万/月的博士级 AI 曝光

来源：36氪

昨天，OpenAI 宣布调整 API 使用规则。未来访问 OpenAI 旗下最新大模型，需要通过身份验证的 ID（即 OpenAI 支持的国家/地区之一的政府签发的身份证件，且一个身份证件每 90 天只能验证一个组织），未通过验证将影响模型使用。新规引起的争议尚未平息，OpenAI 于今天凌晨顺势推出了三款 GPT-4.1 系列模型，不过，只能通过 API 用，不会直接出现在 ChatGPT 里。GPT-4.1：旗舰模型，在编码、指令遵循和长上下文理解方面表现最佳，适用于复杂任务。GPT-4.1 mini：小型高效模型，在多个基准测试中超越 GPT-4o，同时将延迟降低近一半，成本降低 83%，适合需要高效性能的场景。GPT-4.1 nano：OpenAl 首个超小型模型，速度最快、成本最低，拥有 100 万 token 上下文窗口，适用于低延迟任务如分类和自动补全。尽管对 OpenAI 混乱的命名逻辑早有心理准备，但 GPT-4.1 还是遭到了网友的一致吐槽，就连 OpenAI 首席产品官 Kevin Weil 也自嘲：「这周我们的命名水平肯定也没啥进步。技术才是硬道理，虽然命名饱受诟病，但 GPT-4.1 的实力还是有目共睹。

OpenAI 宣称 GPT-4.1 系列模型在多项基准测试中表现出色，堪称当前最强大的编程模型之一。OpenAI 更是将 GPT-4.1 比喻为「quasar」（类星体），暗示它像类星体一样在 AI 领域中具有强大的影响力和能量。在真实软件工程能力的评估标准 SWE-bench Verified 基准测试中，GPT-4.1 得分 54.6%，较 GPT-4o 提升 21.4 个百分点，较 GPT-4.5 提升 26.6 个百分点。GPT‑4.1 在 diff 格式方面经过专门训练，更能稳定输出修改片段，节省延迟与成本。此外，OpenAI 已将 GPT‑4.1 的输出 token 上限提升至 32768 tokens，便于应对全文件重写的需求。在前端开发任务中，OpenAI 盲测结果显示，80%评估者偏爱 GPT-4.1 生成的网页。OpenAI 今天凌晨的直播也邀请了 Windsurf 的创始人兼 CEO Varun Mohan 分享经验。Varun 透露，其内部基准测试显示，GPT-4.1 性能比 GPT-4 提升了 60%。鉴于 GPT-4.1 的出色表现，Windsurf 决定为所有用户提供一周的 GPT-4.1 免费体验，随后以大幅折扣继续提供该模型。另外，Cursor 用户现在也可以免费使用 GPT-4.1。

资讯中心

刚刚，OpenAI 发布 GPT-4.1，吊打 GPT-4.5，14 万/月的博士级 AI 曝光