混元重建后首發(fā)并開源 Hy3 preview：主打全面實(shí)用性 Agent能力大幅提升

發(fā)布時(shí)間：2026年04月23日21:35 來源：荊楚網(wǎng)

荊楚網(wǎng)（湖北日?qǐng)?bào)網(wǎng)）訊（通訊員袁軒）4 月 23 日，騰訊混元 Hy3 preview 語(yǔ)言模型發(fā)布并開源。這是一個(gè)快慢思考融合的混合專家模型，總參數(shù) 295B，激活參數(shù) 21B，最大支持 256K 上下文長(zhǎng)度。這是混元重建后訓(xùn)練的第一個(gè)模型，也是混元迄今最智能的模型，在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。

2026 年2月，騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施，以及模型追求實(shí)用性的三個(gè)原則：

1、能力體系化：不推崇“偏科”，因?yàn)榧词故谴a智能體的單一應(yīng)用，也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同。

2、評(píng)測(cè)真實(shí)性：主動(dòng)跳出易被“刷榜”的公開榜單，通過自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的“真實(shí)戰(zhàn)斗力”。

3、性價(jià)比追求：實(shí)用性離不開商業(yè)合理性，深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì)，大幅降低任務(wù)成本，讓智能用得起、用得好。

Hy3 preview可以視為混元快速探索實(shí)用性大模型、解決真實(shí)世界問題的一個(gè)開端。

騰訊首席AI科學(xué)家姚順雨表示，Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發(fā)布，獲得來自開源社區(qū)和用戶的真實(shí)反饋，幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí)，我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模，提升模型的智能上限，并通過與騰訊眾多產(chǎn)品的深度Co-Design，持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn)，并開始探索特色模型能力。

目前，Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發(fā)上線，微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個(gè)主線產(chǎn)品也在陸續(xù)上線。另外，Hy3 preview 支持接入流行的開源智能體產(chǎn)品，如 OpenClaw、OpenCode、KiloCode 等，并已上架騰訊云大模型服務(wù)平臺(tái) TokenHub。

Hy3 preview 主打全面實(shí)用性，Agent能力大幅提升

多個(gè)測(cè)評(píng)結(jié)果顯示，Hy3 preview 模型能力全面提升。

1、出色的上下文學(xué)習(xí)和指令遵循能力

在各種真實(shí)的生產(chǎn)與生活場(chǎng)景，理解雜亂冗長(zhǎng)的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)?；隍v訊業(yè)務(wù)場(chǎng)景的靈感，騰訊混元提出了 CL-bench和 CL-bench-Life 來創(chuàng)新性地評(píng)估模型的上下文學(xué)習(xí)能力，并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。

圖片1.png.png

2、復(fù)雜推理能力突出，清華數(shù)學(xué)博士資格考試國(guó)內(nèi)分?jǐn)?shù)最高

復(fù)雜推理能力是模型解決各種問題的基礎(chǔ)。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務(wù)中表現(xiàn)突出，并在最新的清華大學(xué)求真書院數(shù)學(xué)博資考(26春) 和全國(guó)中學(xué)生生物學(xué)聯(lián)賽(CHSBO 2025) 中取得優(yōu)異成績(jī)，展現(xiàn)了可泛化的強(qiáng)推理能力。、

圖片2.png

3、代碼與智能體提升最為顯著，展現(xiàn)出高性價(jià)比

代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)框架的重建和強(qiáng)化學(xué)習(xí)任務(wù)規(guī)模的提升，騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中取得了有競(jìng)爭(zhēng)力的結(jié)果。

圖片3.png.png

在數(shù)字世界中，代碼關(guān)注的是模型在開發(fā)環(huán)境中的執(zhí)行能力，搜索則聚焦于開放信息空間中的檢索、篩選與整合能力，兩者共同決定了模型在復(fù)雜智能體場(chǎng)景（例如 OpenClaw）中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評(píng)測(cè)中表現(xiàn)突出，表明我們的智能體能力正在穩(wěn)步走向全面與實(shí)用。

圖片4.png

除了公開榜單，騰訊混元還進(jìn)一步構(gòu)建了多個(gè)內(nèi)部的評(píng)測(cè)集，對(duì)模型在真實(shí)開發(fā)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估。結(jié)果表明，無(wú)論是在后端工程任務(wù)集 Hy-Backend，貼近真實(shí)用戶開發(fā)交互的 Hy-Vibe Bench，還是高難度軟件工程開發(fā)任務(wù)集 Hy-SWE Max 上，Hy3 preview 均體現(xiàn)出了強(qiáng)競(jìng)爭(zhēng)力。

圖片5.png

比較各個(gè)開源模型的大小與智能體綜合表現(xiàn)，Hy3 preview 展現(xiàn)出高性價(jià)比。

圖片6.png.png

騰訊核心業(yè)務(wù)已全面接入，多主線AI 產(chǎn)品驗(yàn)證收益明顯

正式上線之前，Hy3 preview在騰訊主要AI 業(yè)務(wù)進(jìn)行了產(chǎn)品測(cè)試，獲得明顯正收益。

在元寶端，混元與元寶進(jìn)行了深度Co-Design。一方面，針對(duì)性地提升了模型在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標(biāo)上的表現(xiàn)；另一方面，對(duì)文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專業(yè)度上進(jìn)行了精細(xì)化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同，為用戶帶來了更智能且更具“活人感”的交互體驗(yàn)。

在ima知識(shí)庫(kù)問答和通用問答兩個(gè)場(chǎng)景下，測(cè)試結(jié)果顯示，Hy3 preview 處理長(zhǎng)文的能力出色，特別是檢索類任務(wù)，在回答信息的準(zhǔn)確性、覆蓋度和全面性上表現(xiàn)較好。

在CodeBuddy、WorkBuddy產(chǎn)品上，Hy3 preview 首 token 延遲降低 54%、端到端時(shí)長(zhǎng)降低 47%、成功率提升至 99.99%+。實(shí)際用戶環(huán)境中，Hy3 preview 已穩(wěn)定驅(qū)動(dòng)最長(zhǎng) 495 步的復(fù)雜 Agent 工作流，覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP 工具鏈編排等多樣化辦公場(chǎng)景。

在公眾號(hào)AI 分身和 AI 客服的場(chǎng)景專項(xiàng)評(píng)測(cè)中，Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級(jí)。新模型在用戶意圖理解、復(fù)雜上下文承接和知識(shí)信息組織方面表現(xiàn)更成熟，面對(duì)模糊提問、短句追問和多輪對(duì)話時(shí)，能夠更準(zhǔn)確地把握用戶訴求，并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識(shí)庫(kù)、用戶記憶與上下文生成回答時(shí)更貼合AI 分身和 AI 客服的角色，過度腦補(bǔ)、主觀代入和情緒化表達(dá)顯著減少，使整體交互體驗(yàn)更貼近“可信、自然、高效”的回復(fù)目標(biāo)。

在和平精英 AI NPC 場(chǎng)景評(píng)測(cè)中，和平精英團(tuán)隊(duì)第一時(shí)間在Hy3 preview上線后基于 AI NPC 場(chǎng)景中完成接入并開展評(píng)測(cè)，整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場(chǎng)景中，Hy3 Preview 不僅能夠精準(zhǔn)理解角色設(shè)定，還能針對(duì)開放性問題輸出高度關(guān)聯(lián)、富有增量?jī)r(jià)值的內(nèi)容，帶來了更加真實(shí)、自然、沉浸的對(duì)話體驗(yàn)。而在游戲局內(nèi)的復(fù)雜對(duì)戰(zhàn)場(chǎng)景中，模型回復(fù)節(jié)奏貼近真實(shí)玩家聊天體驗(yàn)，展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力，整體效果表現(xiàn)亮眼。

在騰訊文檔AI PPT 場(chǎng)景，較上一版本（Hy2）取得了顯著進(jìn)步：生成成功率提升 20%，評(píng)測(cè)得分提升 10%，同時(shí)生成耗時(shí)縮短 20%。整體而言，新模型在評(píng)測(cè)場(chǎng)景中表現(xiàn)優(yōu)異，在模版選擇，色彩匹配，生成大綱，補(bǔ)充內(nèi)容多個(gè)階段，均體現(xiàn)出優(yōu)秀的表現(xiàn)，無(wú)幻覺，契合主題，視覺效果好。

在QQ AI助手小Q產(chǎn)品評(píng)測(cè)中，較上一版本，在長(zhǎng)文本首字節(jié)時(shí)延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化；核心能力上，數(shù)學(xué)推理表現(xiàn)提升尤為明顯，多場(chǎng)景指令遵循與泛化能力進(jìn)一步增強(qiáng)；在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效，在OpenClaw官方PinchBench QQ智能體場(chǎng)景測(cè)試中取得突出效果，綜合體驗(yàn)實(shí)現(xiàn)明顯躍升。

推理效率提升40%，同等成本智能密度最優(yōu)

得益于模型和推理框架上的深度協(xié)同，以及在推理框架、算子性能、量化算法等全方面優(yōu)化，整體推理效率提升40%，Hy3 preview的成本相比上一代模型大幅下降。

在騰訊云大模型服務(wù)平臺(tái) TokenHub 上，Hy3 preview 輸入價(jià)格最低1.2元/百萬(wàn)tokens，輸入命中緩存價(jià)格0.4元/百萬(wàn)tokens，輸出價(jià)格最低4元/百萬(wàn)tokens。同時(shí)，騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐，個(gè)人版定價(jià)最低28元/月，為Agent開發(fā)和打造“龍蝦”應(yīng)用的提供更具性價(jià)比選擇。

圖片7.png.png