亚历克斯·艾伯特 di 人类的 他直言不讳:“Claude 4 是世界上最好的编程模型。”这是一个大胆的声明,但却得到了事实的证实。测试非常严格:SWE-bench Verified 的得分为 72.5%,可以连续自主工作七小时而不被打断,能够按顺序管理数千个步骤。 Claude 4 不仅仅是一次技术革新,更是一次范式转变,重新定义了人工智能的功能。最好的部分是,您今天就可以尝试。
当人工智能决定加班时
今天,Anthropic 采取的举措会让你不禁感叹:“现在我们有麻烦了。”他发行了《Claude 4 Opus》和《Claude 4 Sonnet》, 标志着公司回归 在花费数月时间完善 Sonnet 变体之后,将其应用于大型模型。真正的惊喜? 该系统可以连续工作24小时而不会失去理智。
是的,先生:当你的同事在调试了 8 个小时后开始含糊不清地嘟囔着时, 克劳德 4 作品 他证明自己可以玩一整天的神奇宝贝,或者连续七个小时进行代码重构。以前的型号具有新手马拉松运动员的耐力:两小时后它们开始出现一系列错误。 正如他承认的那样 阿尔伯特本人:
“对代理应用的需求巨大,而 Claude 4 非常适合这种情况。”

让竞争对手颤抖的数字
让我们这样说吧:如果基准测试是一场扑克游戏,那么克劳德 4 就会打出四张 A。 SWE-bench 已验证 72.5%,这一结果使得之前的模型看起来就像初学者一样。举个例子,超过 50% 这一基准就已经被视为奇迹了。 官方数据 它们在 Terminal-bench 上的表现也令人印象深刻,达到了 43.2%。
GitHub 立即获悉了这一交易,并决定使用 Claude Sonnet 4 作为 GitHub Copilot 中新编码代理的基础。 当 GitHub 换马时,总是有充分理由的。 Sourcegraph 谈到了“软件开发的重大飞跃”,而 Augment Code 则报告了“更高的成功率和更多的外科手术代码更改”。总之,大家都想搭上克劳德4的列车。
克劳德 4:安全第一(但不要偏执)
Anthropic 已激活 这是其首次达到 AI 安全 3 级标准,该标准通常仅用于“潜在危险”模型。原因是什么?从理论上讲,Claude 4 Opus 可以帮助具有科学知识的人研制化学、生物或核武器。 他太聪明了,所以必须对他进行控制。
但事情也并非全是坏消息:新款车型作弊或偷工减料的可能性比上一代车型降低了 65%。看来他们不仅变得更聪明,而且变得更诚实。简而言之,有点像成长。
缺失的“深度思考”模式
Claude 4 引入了一些真正的创新:一种可以从闪电般快速的响应切换到深度反射的混合系统。当你激活扩展思维模式时,模型实际上需要时间进行思考,并向你展示其“数字思维”中正在处理的内容的摘要。 这就像是让同事最终向您解释他们的思维过程,而不是直接提出解决方案。
与 Claude Code 集成 现在可供所有人使用,支持 GitHub Actions 并与 VS Code 和 JetBrains 直接集成。它建议的更改会直接出现在您的文件中。不再需要疯狂的复制粘贴:Claude 直接在您的工作环境中完成所有工作。
数十亿的生意(字面意思)
商业数字不言而喻: 人类已经达到 第一季度年化营收达2亿美元,较上年同期增长一倍以上。 麦克克里格首席产品官坦言:“以前我把 Claude 当作我的思考伙伴,大部分文本都是我自己写的。现在我的大部分写作工作都交给 Claude 4 来完成。”
克里格也是 Instagram 的联合创始人,所以……如果他说人工智能为他节省了时间,也许我们应该听听。 也因为他自己又不会唱歌和演奏: 光标 称 Claude 4 为“编码领域的尖端技术”,而 复制 谈论“复杂的多文件编辑的显著进展”。 当最专业的工具都称赞您时,这意味着您已经达到了目标。

克劳德4,关键时刻
正如我们已经看到的 随着Claude 2.0的到来,生成式AI之间的战斗愈发激烈。但这次我决定做一些不同的事情:一个让这篇文章独一无二的实验。
我花了几个小时以各种可能的方式测试 Claude 4。在线研究、来源分析、内容结构、创意写作,甚至讽刺和笑话。 我必须承认,结果令我感到惊讶。 您刚刚读过的 700 个单词?它们是经过密集测试的结果。
我留给你的问题很简单:你能区分我写的内容和克劳德 4 写的内容吗?因为坦率地说,经过这次测试后,我甚至不再确定了。
人工智能的未来不再是一个遥远的承诺。他就在这里,也许他只是在向你讲述他的故事,而你却没有意识到。