能连干30多个小时,史上最卷AI诞生科教频道|科教兴国|教育新闻☀阿波罗新闻网
新闻 > 科教 > 正文
能连干30多个小时,史上最卷AI诞生

论卷编程,还得看 Claude。

就在刚刚,Anthropic正式发布 Claude Sonnet4.5。

先说 Claude Sonnet4.5交出的成绩单,在考察真实编程水平的 SWE-bench Verified测试里,Claude Sonnet4.5直接登顶业界第一。

更离谱的是,它能连续专注干活超过30小时。

好好好,AI取代人类的优势又+1了。

比如让它写个类似 Slack或 Teams的聊天应用,它能一口气敲出大约1.1万行代码。相比之下,之前的 Claude Opus4和 Codex,最多也就能独立工作七小时。

用 Anthropic的话来说,Claude Sonnet4.5现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。

比方说,在 OSWorld这个专门测试真实计算机任务的基准里,它拿下了61.4%的成绩,直接第一。要知道,四个月前 Sonnet4还以42.2%的成绩遥遥领先,这才多久性能就又往上抬了一大截。

而 Anthropic的 Claude Chrome插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。

有了这么强的能力,Anthropic这次自然不会只发个模型就完事。

具体来看:

Claude Code加了“检查点”功能,能随时保存进度,想回退到之前某个状态一键搞定

终端界面翻新,还发布了原生 VS Code插件

Claude API增加了上下文编辑功能和记忆工具

代码执行和文件创建现在直接整合到对话里

甚至,Anthropic把自己内部用来搭建 Claude Code的底层基础设施也开放出来了,叫 Claude Agent SDK。

智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI智能体的棘手问题。

而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。

今天起,开发者还可以通过 Claude API调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet4一样,每百万 tokens$3/$15,价格没变能力更强。

网友@vasumanmoza体验完直接发帖:

“Claude4.5 Sonnet刚在一次调用里重构了我整个代码库,25次工具调用,新增3000多行代码,生成了12个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。”这评价,属于又爱又恨那种。

Cursor表示,在 Claude Sonnet4.5上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor用户会选 Claude来解决最复杂的问题。

知名测评博主 Dan Shipper则表示,新版 Sonnet4.5在使用体验上响应速度更快,可控性更强,也更稳定。

性能强是一方面,安全性也得跟上。

据介绍,Claude Sonnet4.5也是 Anthropic到目前为止对齐度最高的前沿模型。

靠着 Claude更强的能力加上完善的安全训练,Anthropic在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic在防御提示注入攻击和减少内容误判这块也有了重大突破。

比较让我感兴趣的是,Anthropic还在 Claude Sonnet4.5发布的同时推出了个临时研究预览功能,叫“Imagine with Claude”。

在这个功能里,Claude会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude跟你互动时当场创造和调整出来的。

不过,“Imagine with Claude”接下来五天内只会对 Max订阅用户开放。

附上传送门 claude.ai/imagine。

毫无疑问,今年的 AI赛道依旧是卷编程的一年。

目前 Anthropic估值已经到了1830亿美元,8月还实现了年化营收50亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI和 Google Gemini也在疯狂推类似工具抢程序员用户。

甚至一周之后就是 OpenAI年度开发者大会,Anthropic这个时候抢先发布 Claude Sonnet4.5,时间卡得够精准,明摆着就是要给对手上一波压力。

此外,Anthropic联合创始人兼首席科学官 Jared Kaplan还表示,更先进的 Opus模型,预计今年晚些时候推出:“Anthropic在大小模型的使用上都能占优势。”

不过有一说一,Anthropic自己眼下也有麻烦要解决。

过去两个月,Claude系列模型刚经历了一场“降智”风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max用户都没能幸免。

虽然 Anthropic后来紧急回滚了 Opus4.1更新,还承认了两个独立 Bug,声明“绝非为省成本故意降智”,但由于没提供补偿或退款,GitHub和 X等平台上还是出现了退订潮,不少用户直接转投 Codex。

这次 Claude Sonnet4.5的发布,显然就是 Anthropic想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。

阿波罗网责任编辑:李华

来源:爱范儿

转载请注明作者、出处並保持完整。

AI
家在美国 放眼世界 魂系中华
Copyright © 2006 - 2025 by Aboluowang

免翻墙 免翻墙链接