Anthropic推出全新旗艦Claude Sonnet 4.5 模型,創(chuàng)下AI編碼記錄
Anthropic PBC 今天推出了其最新的大型語(yǔ)言模型 Claude Sonnet 4.5 和用于構(gòu)建人工智能代理的工具包。
該公司將 LLM 描述為世界上最好的編碼模型。此外,它還表示 Sonnet 4.5 在旨在評(píng)估神經(jīng)網(wǎng)絡(luò)工具使用能力的基準(zhǔn)測(cè)試上創(chuàng)下了記錄。
Sonnet 4.5 是一種混合推理模型,這意味著它有兩種模式。當(dāng)用戶輸入相對(duì)簡(jiǎn)單的查詢時(shí),LLM 會(huì)使用有限的計(jì)算能力快速生成響應(yīng)。當(dāng)收到更復(fù)雜的問(wèn)題時(shí),Sonnet 4.5 可以花費(fèi)大量時(shí)間來(lái)回答答案。這種方法以更高的硬件使用率為代價(jià)提高了輸出質(zhì)量。
Anthropic 使用名為 SWE-bench Verify 的基準(zhǔn)測(cè)試評(píng)估了該模型的編程能力。Sonnet 4.5 以 82% 的得分創(chuàng)造了新的行業(yè)紀(jì)錄。接下來(lái)的兩個(gè)最高分也是 Anthropic 模型獲得的,而第四名是 GPT-5 Codex,它正確回答了 74.5% 的問(wèn)題。
Sonnet 4.5 還在名為 OSWorld 的第二個(gè)基準(zhǔn)測(cè)試中創(chuàng)下了記錄。它用于衡量神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)庫(kù)等外部應(yīng)用程序的交互程度。Sonnet 4.5 取得了 61.4% 的創(chuàng)紀(jì)錄分?jǐn)?shù),比四個(gè)月前發(fā)布的 Sonnet 4 模型 Anthropic 提高了近 20%。
該公司聲稱,其最新的法學(xué)碩士在六多個(gè)其他基準(zhǔn)測(cè)試中也優(yōu)于競(jìng)爭(zhēng)對(duì)手。據(jù) Anthropic 稱,這些測(cè)試評(píng)估人工智能模型執(zhí)行解釋圖表和分析財(cái)務(wù)數(shù)據(jù)等任務(wù)的能力。
Sonnet 4.5 可通過(guò) Anthropic 的 Claude 聊天機(jī)器人服務(wù)、Claude Code 編程助手及其應(yīng)用程序編程接口獲得。后兩款產(chǎn)品今天隨著 LLM 的發(fā)布而收到了更新。
開發(fā)人員通過(guò)在命令行界面中輸入指令來(lái)與 Claude Code 進(jìn)行交互。作為今天更新的一部分,Anthropic 對(duì)該界面進(jìn)行了多項(xiàng)可用性改進(jìn)。此外,它還推出了一個(gè)擴(kuò)展,將 Claude Code 嵌入到流行的 Visual Studio Code 編程工具中。該擴(kuò)展目前處于測(cè)試階段。
Claude Code 的另一個(gè)主要新增功能是一項(xiàng)功能,該功能在每次重大更改后自動(dòng)保存用戶的代碼。如果工作流程中出現(xiàn)錯(cuò)誤,開發(fā)人員可以將他們的代碼倒回到早期的可靠版本。
這些升級(jí)與名為 Claude Agent SDK 的開發(fā)工具包一起推出。據(jù) Anthropic 稱,其工程師最初構(gòu)建該工具包是為了支持 Claude Code??蛻艨梢允褂盟鼇?lái)構(gòu)建 AI 代理。
Claude Agent SDK 使代理能夠?qū)⒐ぷ魑薪o所謂的子代理,這些子代理可以并行執(zhí)行多個(gè)任務(wù),從而加快處理速度。此外,該工具包可以更輕松地構(gòu)建可以與外部系統(tǒng)交互的 AI 應(yīng)用程序。為了降低幻覺(jué)的風(fēng)險(xiǎn),使用 Claude Agent SDK 構(gòu)建的代理可以檢查其輸出是否存在準(zhǔn)確性問(wèn)題。
該工具包可以與 Claude API 一起使用,它現(xiàn)在提供對(duì) Sonnet 4.5 的訪問(wèn)。LLM 還加入了其他幾個(gè)增強(qiáng)功能。
據(jù) Anthropic 稱,開發(fā)人員現(xiàn)在可以讓其人工智能模型訪問(wèn)“專用內(nèi)存目錄”,其中包含可以幫助他們回答提示的信息。當(dāng)不再需要該信息時(shí),可以使用新的上下文編輯工具將其從模型的上下文窗口中刪除。Anthropic 表示,這些增強(qiáng)功能將使 Claude API 能夠處理比以前更復(fù)雜的任務(wù)。









評(píng)論