老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
关于白圭之玷网
ENGLISH
English
Español
Français
عربى
Русский язык
日本語
한국어
Deutsch
Português
新华报刊
新华每日电讯
经济参考
瞭望
半月谈
中证报
上证报
中国记者
中国名牌
中国传媒科技
环球
瞭望东方周刊
参考消息
新华出版社
财经国家周刊
地方频道
云南
湛江
淮安
自贡
三门峡
铁岭
芜湖
珠海
金昌
山东
三明
孝感
淮南
宜春
株洲
雅安
九江
清远
张掖
百色
天津
贵阳
滨州
乐山
北京
池州
西藏
邯郸
潮州
黄山
承建网站
中国政府网
中国文明网
国家国际发展合作署
中国雄安官网
中国互联网联合辟谣平台
中国记协网
国家公祭网
科普中国
国家能源局网站
国家信访局网站
中国禁毒网
网站无障碍
客户端
手机版
站内搜索
网络举报专区
新华通讯社主办
公司官网
股票代码:
603888
学习进行时
高层
时政
人事
国际
财经
网评
港澳
台湾
思客智库
全球连线
教育
科技
科普
体育
文化
书画
健康
军事
访谈
视频
图片
政务
中央文件
金融
汽车
食品
人居生活
信息化
数字经济
学术中国
乡村振兴
溯源中国
城市
旅游
能源
会展
彩票
娱乐
时尚
悦读
公益
一带一路
亚太网
上市公司
文化产业
白圭之玷网
>
> 正文
2026-04-17 18:27:16
来源:白圭之玷网
老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
字体:
小
中
大
分享到:
老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
2026-04-17 18:27:16
来源:白圭之玷网
\u003cdiv class=\"rich_media_content\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(51, 51, 51)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(248, 248, 248)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e克雷西 发自 凹非寺\u003cbr/\u003e量子位 | 公众号 QbitAI\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e英伟达正式杀进龙虾养殖场,带着“最强开源龙虾模型”走来了!\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e刚刚,英伟达发布并开源了120B参数的\u003c!--VERTICAL_CARD_BEGIN_0--\u003eMoE模型\u003c!--VERTICAL_CARD_END_0--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_1--\u003eNemotron 3 Super\u003c!--VERTICAL_CARD_END_1--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在评估OpenClaw智能体控制能力的\u003c!--VERTICAL_CARD_BEGIN_2--\u003ePinchBench\u003c!--VERTICAL_CARD_END_2--\u003e测试中,这个模型一举拿下85.6%的高分,强势空降同类开源模型榜首。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_0--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e另外,在Artificial Intelligence Index中,Nemotron 3 Super也狂揽37分,直接甩开得分33分的GPT-OSS。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e除了这个“龙虾搭档”,英伟达也开始在开源模型上全面发力了。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最新财务文件曝光,英伟达已经悄悄备好了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e260亿美元\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e(约合1789亿人民币)巨资,将在未来五年内将这笔充足弹药全盘倾注于构建开源AI模型。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_0--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e百万上下文,5倍吞吐量\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e作为主攻多智能体协同的模型,Nemotron 3 Super原生支持\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e100万token的上下文窗口\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,为智能体在应对复杂多步流程时提供了不可或缺的长期记忆空间。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_0--\u003e\u003c!--EOP_0--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_0--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e不仅文本处理容量庞大,它的运转效率也实现了大幅度跨越,\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e吞吐量直接提升至上一代Nemotron Super的5倍以上\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e同时,在处理代码和工具调用等结构化生成任务时,Nemotron 3 Super\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最高能实现3倍的实际推理提速\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在8k输入与64k输出的特定运行设置下,它的推理吞吐量达到了GPT-OSS-120B的2.2倍。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_1--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e落地到具体的实操基准测试,这台新模型在代码攻坚上给出了直观的数据对比。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在软件工程基准SWE-Bench中,它搭配OpenHands框架跑出了60.47%的准确率,而对标的GPT-OSS成绩为41.9%。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e面对考验底层控制能力的终端操作环境,模型的发挥依然扎实,在Terminal Bench的困难子集测试里,它以25.78%的得分,略微超过了GPT-OSS的24.00%。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_1--\u003e\u003c!--EOP_1--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_1--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e当然,模型的常识推理水准也经受住了考验。在MMLU-Pro测试中它拿下了83.73分,相比GPT-OSS的81.00分实现了进一步提升。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在模拟真实世界运作的复杂业务场景里,它的落地能力同样得到了验证,在包含航空以及零售和电信三大领域的TauBench V2测试中,它交出了61.15%的平均成绩。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_2--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_1--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e面向Blackwell架构优化\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eNemotron 3 Super能够在实测中表现出色,主要归功于其对模型架构的针对性优化。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了在处理百万级上下文时兼顾效率与精度,该模型采用了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e混合\u003c!--VERTICAL_CARD_BEGIN_3--\u003eMamba-Transformer\u003c!--VERTICAL_CARD_END_3--\u003e架构\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种设计交织使用了具备线性时间复杂度的Mamba-2层来处理长序列任务,并在关键深度插入了Transformer全局注意力层,以确保模型在处理海量信息时仍能实现精准的关联检索。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_3--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在模型规模的扩展上,为了解决传统混合专家架构在通信和计算上的瓶颈,模型引入了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_4--\u003eLatent MoE\u003c!--VERTICAL_CARD_END_4--\u003e架构\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这项技术在进行路由决策前,先将token投影到一个压缩的低秩潜空间中进行降维处理。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种方式使得模型能够在维持同等推理成本的前提下,直接调用四倍数量的专家网络,从而实现了更精细的专业化分工。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_4--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了进一步提升生成速度,模型还原生应用了\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--VERTICAL_CARD_BEGIN_5--\u003e多token预测\u003c!--VERTICAL_CARD_END_5--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e技术。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e与逐个预测token的传统模式不同,Nemotron 3 Super通过共享权重设计,在单次前向传递中即可并行预测未来的多个token。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种机制不仅强化了模型对长程逻辑结构的理解,还为其带来了内置的投机解码能力,显著缩短了代码编写和工具调用等复杂任务的生成耗时。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--SECURE_LINK_BEGIN_0--\u003e英伟达\u003c!--SECURE_LINK_END_0--\u003e应用深度学习研究副总裁Bryan Catanzaro介绍,这正是模型响应速度快的原因之一。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_5--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e此外,模型还在硬件层面进行了深度适配,\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e采用了原生NVFP4格式进行预训练\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e相比先训练再量化的常规路径,这种在25万亿个token上进行的低精度预训练,让模型从起步阶段就完全适应了Blackwell架构的算力特性。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最终,模型在B200芯片上跑出了比H100快四倍的推理速度,在极大降低内存需求的同时,依然维持了稳健的准确率表现。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_2--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eAgent能力针对性训练\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e为了让Nemotron 3 Super真正具备执行任务的智能体能力,英伟达在后训练阶段通过多层级的加固策略对其进行了全方位打磨。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在SFT阶段,研发团队采用了两阶段训练工艺,第一阶段\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e通过标记级平均损失建立推理基础\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,第二阶段\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e切换为样本级平均损失\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,有效解决了长输入场景下的性能降级问题,确保模型在处理海量信息时依然能给出精准的短输出。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_6--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e针对实际应用中的智能体命令行交互,英伟达构建了一个\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(0, 153, 127)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e包含2万个初始查询的种子任务集\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e,并利用模型作为裁判进行了精细过滤,最终沉淀出1.5万个核心合成任务。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e通过从高性能模型中蒸馏操作轨迹,Nemotron 3 Super成功将复杂的终端交互知识内化为自身的原生技能。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003csection style=\"background-color: rgb(255, 255, 255); color: rgb(34, 34, 34); font-size: 16px; letter-spacing: 1px !important; line-height: 2 !important; margin: 20px 16px !important; max-width: 100%; min-height: 1.5em !important; outline: 0px; padding: 0px; text-align: center; text-wrap-mode: wrap; word-spacing: 1px !important\" data-exeditor-arbitrary-box=\"wrap\"\u003e\u003cp\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: transparent\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e\u003c!--IMG_7--\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003c/section\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e进入强化学习阶段后,模型被投入到NeMo Gym平台的21种真实环境配置中进行高强度“拉练”。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这里的考核标准不再是简单的对话满意度,深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e针对门槛极高的软件工程任务,模型还经历了专门的SWE-RL阶段,在隔离的容器环境中通过不断的执行反馈来修正自身的逻辑漏洞。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e此外,为了在追求效率的同时避免模型在陌生领域出现偏差,英伟达还引入了\u003c!--VERTICAL_CARD_BEGIN_6--\u003ePivotRL\u003c!--VERTICAL_CARD_END_6--\u003e技术。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种方法在智能体编程和搜索等关键领域,通过重点强化专家轨迹中那些不确定性较高的决策点,提升了模型在多步工作流中的行为稳定性,有效遏制了长程任务中常见的推理漂移风险。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_2--\u003e\u003c!--EOP_2--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_2--\u003e\u003ch2 style=\"line-height: 1.5; margin-bottom: 40px; margin-left: 0px; margin-right: 0px; margin-top: 40px\"\u003e\u003c!--HPOS_3--\u003e\u003cstrong\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 20px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e260亿美元投向开源模型\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/strong\u003e\u003c/h2\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e最新开源模型强势登场之际,英伟达更远大的开源计划也已曝光:在未来五年内全盘倾注260亿美元巨资用于构建开源AI模型,并借此在自家的超级计算机级数据中心里搞一场极限拉练。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_3--\u003e\u003c!--EOP_3--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_3--\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这笔投入不仅是为模型研发准备的充足弹药,更是为了通过跑起这些自家优化的开源模型,对计算、存储和网络性能进行全方位的压力测试。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e随后,这些从实战中压榨出的宝贵数据,将被直接拿来反哺并规划未来的硬件架构路线图,真正实现由软件实操来定义硬件进化的技术路径。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e在资源输出端,英伟达这次也表现得毫无保留,对外全面开放了模型的全参数权重,以及训练、评估配方和详细的部署手册。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(34, 34, 34)\"\u003e\u003cspan style=\"font-size: 16px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e这种慷慨的行为背后,也有着英伟达更高维度的谋划——通过亲手推动整个开源生态的强健发育,引导全球开发者将创新的根基更加牢固地绑定在自家的技术底座之中。\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/p\u003e\u003cp style=\"background-color: rgb(255, 255, 255); line-height: 2; margin-bottom: 20px; margin-left: 16px; margin-right: 16px; margin-top: 20px; min-height: 1.5em; padding: 0px\"\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003eGitHub:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003ehttps://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e技术报告:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003ehttps://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e参考链接:\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e[1]https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003cspan style=\"color: rgb(136, 136, 136)\"\u003e\u003cspan style=\"font-size: 14px\"\u003e\u003cspan style=\"background-color: rgb(255, 255, 255)\"\u003e\u003cspan style=\"letter-spacing: 1px\"\u003e[2]https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c/span\u003e\u003c!--MID_AD_4--\u003e\u003c!--EOP_4--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_4--\u003e\u003cdiv powered-by=\"qqnews_ex-editor\"\u003e\u003c/div\u003e\u003cstyle\u003e.rich_media_content{--news-tabel-th-night-color: #444444;--news-font-day-color: #333;--news-font-night-color: #d9d9d9;--news-bottom-distance: 22px}.rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.rich_media_content{color:var(--news-font-day-color);font-size:18px}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]):not(.qn-editor-copy){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content{color:var(--news-font-night-color)}}.data_color_scheme_dark .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.data_color_scheme_dark .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.data_color_scheme_dark .rich_media_content{color:var(--news-font-night-color)}.data_color_scheme_dark .rich_media_content{font-size:18px}.rich_media_content p[data-exeditor-arbitrary-box=image-box]{margin-bottom:11px}.rich_media_content\u003ediv:not(.qnt-video),.rich_media_content\u003esection{margin-bottom:var(--news-bottom-distance)}.rich_media_content hr{margin-bottom:var(--news-bottom-distance)}.rich_media_content .link_list{margin:0;margin-top:20px;min-height:0!important}.rich_media_content blockquote{background:#f9f9f9;border-left:6px solid #ccc;margin:1.5em 10px;padding:.5em 10px}.rich_media_content blockquote p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content blockquote{background:#323232}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content blockquote{background:#323232}}.rich_media_content ol[data-ex-list]{--ol-start: 1;--ol-list-style-type: decimal;list-style-type:none;counter-reset:olCounter calc(var(--ol-start,1) - 1);position:relative}.rich_media_content ol[data-ex-list]\u003eli\u003e:first-child::before{content:counter(olCounter,var(--ol-list-style-type)) '. ';counter-increment:olCounter;font-variant-numeric:tabular-nums;display:inline-block}.rich_media_content ul[data-ex-list]{--ul-list-style-type: circle;list-style-type:none;position:relative}.rich_media_content ul[data-ex-list].nonUnicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.5)}.rich_media_content ul[data-ex-list].unicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.8)}.rich_media_content ol:not([data-ex-list]){padding-left:revert}.rich_media_content ul:not([data-ex-list]){padding-left:revert}.rich_media_content table{display:table;border-collapse:collapse;margin-bottom:var(--news-bottom-distance)}.rich_media_content table th,.rich_media_content table td{word-wrap:break-word;border:1px solid #ddd;white-space:nowrap;padding:2px 5px}.rich_media_content table th{font-weight:700;background-color:#f0f0f0;text-align:left}.rich_media_content table p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content table th{background:var(--news-tabel-th-night-color)}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content table th{background:var(--news-tabel-th-night-color)}}.rich_media_content .qqnews_image_desc,.rich_media_content p[type=om-image-desc]{line-height:20px!important;text-align:center!important;font-size:14px!important;color:#666!important}.rich_media_content div[data-exeditor-arbitrary-box=wrap]:not([data-exeditor-arbitrary-box-special-style]){max-width:100%}.rich_media_content .qqnews-content{--wmfont: 0;--wmcolor: transparent;font-size:var(--wmfont);color:var(--wmcolor);line-height:var(--wmfont)!important;margin-bottom:var(--wmfont)!important}.rich_media_content .qqnews_sign_emphasis{background:#f7f7f7}.rich_media_content .qqnews_sign_emphasis ol{word-wrap:break-word;border:none;color:#5c5c5c;line-height:28px;list-style:none;margin:14px 0 6px;padding:16px 15px 4px}.rich_media_content .qqnews_sign_emphasis p{margin-bottom:12px!important}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{padding-left:30px}.rich_media_content .qqnews_sign_emphasis ol\u003eli{list-style:none}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep:first-child::before{margin-left:-30px;content:counter(olCounter,decimal) ''!important;counter-increment:olCounter!important;font-variant-numeric:tabular-nums!important;background:#37f;border-radius:2px;color:#fff;font-size:15px;font-style:normal;text-align:center;line-height:18px;width:18px;height:18px;margin-right:12px;position:relative;top:-1px}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis{background:#262626}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis{background:#262626}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}}.rich_media_content h1,.rich_media_content h2,.rich_media_content h3,.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{margin-bottom:var(--news-bottom-distance);font-weight:700}.rich_media_content h1{font-size:20px}.rich_media_content h2,.rich_media_content h3{font-size:19px}.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{font-size:18px}.rich_media_content li:empty{display:none}.rich_media_content ul,.rich_media_content ol{margin-bottom:var(--news-bottom-distance)}.rich_media_content div\u003ep:only-child{margin-bottom:0!important}.rich_media_content .cms-cke-widget-title-wrap p{margin-bottom:0!important}\u003c/style\u003e\u003c/div\u003e
【纠错】
【责任编辑:Tu248】
阅读下一篇:
深度观察
新华全媒头条丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
新华全媒头条丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
新华全媒头条丨
《一路繁花2》最新一期:刘嘉玲真敢说,她墙头草,张柏芝好做作
新华全媒头条丨
读懂大学劳动课“火爆”背后的需求
新华全媒头条丨
连续得分上双场次定格!除詹姆斯外 历史仅24名球员打1297场比赛
新华全媒头条丨
《一路繁花2》最新一期:刘嘉玲真敢说,她墙头草,张柏芝好做作
新华全媒头条丨
读懂大学劳动课“火爆”背后的需求
老黄入局吃龙虾!英伟达发布最强开源Agent推理模型