【CNMO科技动静】近日,Anthropic正式发布Claude Opus 4.7,距上一次Opus 4.6发布仅距离两个月,延续了每一两个月一次的不变迭代节拍。 于软件工程范畴,Opus 4.7取患了最凸起的前进。于业界公认最硬核的SWE-bench Pro基准测试上,Opus 4.7畴前代的53.4%跃升至64.3%,单代进级晋升近11个百分点,年夜幅领先GPT-5.4(57.7%)及Gemini 3.1 Pro(54.2%)。于SWE-bench Verified上更是到达87.6%,CursorBench也从58%升至70%。 Anthropic称,这是首个能自立经由过程“隐含需求测试”的Claude模子——模子需自行揣度所需东西或者步履,而非被明确奉告。初期测试中,它甚至能辩驳用户,拒绝盲从过错指令,初期用户评价其“觉得像一个更好的同事”。 于多项基准测试中,Opus 4.7逾越了GPT-5.4及Gemini 3.1 Pro:金融阐发代办署理测试取患上全世界最高分;东西挪用范围化评测MCP-Atlas达77.3%,超GPT-5.4的68.1%及Gemini的73.9%;法令AI平台Harvey的BigLaw基准上拿下90.9%;多步智能体推理晋升14%,东西过错削减三分之一。 但也并不是周全领先——Agentic search评测BrowseComp畴前代的83.7%降至79.3%,被GPT-5.4(89.3%)及Gemini(85.9%)反超。总体而言,于直接可比基准上Opus 4.7仅以7比4的上风领先GPT-5.4,各试验室差距正于迅速缩小。值患上留意的是,Opus 4.7并不是Anthropic最强模子——Claude Mythos Preview仍因安全挂念被限定利用,Opus 4.7与其存于全方位能力差距。 于现实运用层面,Opus 4.7可安心交付最繁杂编码使命,能自行设计验证机制查抄输出成果。Claude Code新增主动化Routines功效,撑持按时/API/GitHub触发,合上电脑也能7×24小时运行,其年化营收已经达25亿美元。 金融阐发方面,它能天生严谨阐发与建模、专业陈诉展示,使命间整合更慎密。视觉多模态撑持边长最年夜2576像素的图象(约3.75百万像素,是前代三倍多),可解读密集截图、繁杂图表及界面结构,官方称其更有“咀嚼”且更具创造力。此外,模子能跨会话记住要害信息并复用在新使命,削减前置上下文,并引入新护栏,主动检测并阻挡高危害收集安全哀求。 版权所有,未经许可不患上转载
Clude