亚洲永久在线_欧美一区影院_国产精品一区亚洲_伊人精品视频_狠久久av成人天堂_午夜精品一区二区三区四区_99在线|亚洲一区二区_久久久久久婷_黄色日韩在线_99热免费精品在线观看

首頁 >快訊 >

今日關注:X上63萬人圍觀的Traning-Free GRPO:把GRPO搬進上下文空間學習

年初的 DeepSeek-R1,帶來了大模型強化學習(RL)的火爆。無論是數學推理、工具調用,還是多智能體協作,GRPO(Group Relative Policy Optimization)都成了最常見的 RL 算法。


(資料圖片僅供參考)

GRPO 的核心思路很簡單卻強大:

  • 對同一個問題,同時生成多條解答路徑(rollout)
  • 給這些路徑打分,比較組內優劣
  • 再根據優勢信號來更新模型參數,讓模型越來越偏好高質量解法

這種「多路徑并行 + 組內優勢」的機制,雖然比傳統 PPO 等方法更加簡潔,但仍然需要優化模型參數, 太貴了!

  • 在 32B 量級的模型上訓練一次 RL,就可能要花掉上萬美元
  • 如果是 600B 級別的超大模型,成本和工程難度更是上天

這讓 GRPO 雖然強大,卻幾乎只能由巨頭來玩,中小團隊和個人開發者根本「玩不起」。

能不能不改模型參數,也來跑一遍 GRPO?

騰訊優圖的一篇最新論文就提出了一個非常有意思的答案:既然更新參數這么貴,那就不更新參數,直接把 GRPO 的「學習過程」搬進上下文空間!

  • 論文標題:Training-Free Group Relative Policy Optimization
  • arXiv 鏈接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 訓練的整個范式遷移到了上下文學習之中:

  • 訓練集上多輪迭代學習,然后在獨立的測試集上驗證
  • 每輪中,對同一道題目并行生成多條解答(Rollout)
  • 對比組內不同解法的差異,提取文本型組內優勢(Semantic Group Advantage),對齊 GRPO 里的數值型組內優勢
  • 根據這些文本優勢優化一個文本型 LoRA,對齊 GRPO 里的參數型 LoRA

舉個例子,對于訓練集里這道數學幾何題,模型會生成多個不同的解答路徑(Rollout),可能會出現不同的解題路徑,有的做對了有的做錯了。

隨后,模型總結不同解法的過程與正確性,從而比較同一組內的不同解答。這個過程自然提煉出文本型組內優勢:總結出有的做法為什么對,有的做法為什么錯。比如例子里:

  • 錯誤的解法不僅設錯方向,還沒有做條件約束檢查
  • 成功的解法則正確了設定坐標方向,也系統化驗證了所有條件

在一個迭代里,得到每道題的文本型組內優勢后,模型就把當前批次的優勢都更新文本型 LoRA 里,也就是對經驗庫進行增刪改,沉淀學習到的經驗。

實驗效果

在數學推理上,僅用100 個訓練樣本,花費約 8-18 美元,就能在已經足夠強大的 671B 模型上繼續提升性能。

無論是否采用代碼工具(CI,code interpreter)幫助解題,在 AIME 榜單上的 Mean@32 指標都能實現提升。

令人驚喜的是,在三個輪次中,訓練集和測試集的平均工具調用次數均有所減少。這表明 Training-Free GRPO 不僅能夠鼓勵正確的推理和行動,還能教會代理找捷徑,更高效明智地使用工具。

而在網頁搜索場景中,Training-Free GRPO 同樣無需更新模型參數,即可在 DeepSeek-V3.1-Terminus 強悍水平之上,實現了 4.6% 的 Pass@1 顯著提升。

為什么需要 Training-Free GRPO?

  • 保留 GRPO 的強化學習優勢

多路徑探索、group advantage、多輪迭代、完全獨立的訓練與測試集……這些 GRPO 的精華一項不少,全部在上下文層面重現了出來。

  • 成本暴降

不用訓練模型參數,僅需少量數據,并且全程只靠 API 隨用隨付!

只需 8~18 美元以及 100 條訓練數據,就能在 671B LLM 上跑完多輪的強化學習訓練!遠遠低于 32B 模型的訓練成本。

  • 泛化更好

與 Self-Refine 這類就地改寫不同,Training-Free GRPO 是在獨立數據集上多輪迭代訓練的,對測試集里的 Out-of-Domain (OOD) 數據都有顯著提升。

并且,參數微調后的 32B 級別模型往往只能勝任特定窄域任務,可能需要多個專用模型來覆蓋完整業務需求,顯著增加了系統復雜度和維護成本。而 Training-Free GRPO 只需要一個統一的模型和 API 就可以泛化到不同的場景!

小結:RL 不一定非得有梯度

過去我們默認,強化學習就意味著參數更新。雖然前期有一些上下文空間優化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 與他們不同,完全對齊了參數空間 RL 訓練的流程和細節:

  • 把 GRPO 的「獨立訓練集 + 多輪迭代 + 并行 Rollout + 組內優勢」這套 RL 訓練范式,整體遷移到上下文空間,在不訓練模型的情況下,也能獲得強化學習效果。
  • 這讓超大模型的 RL 優化變得廉價、靈活、可持續,也給每個開發者的小業務提供了用得起的新方案。

本文方法已開源,歡迎 Star 和試用!

預告:Training-Free GRPO 將作為一個新功能集成到 Youtu-Agent 框架中,幫助開發者們進一步提升各種自定義場景的效果。

注:成本計算基于 DeepSeek API 官方定價,實際可能因使用情況而有所波動。

關鍵詞: 調用 算法 上下文 空間學習 深度思考模

責任編輯:Rex_22

亚洲永久在线_欧美一区影院_国产精品一区亚洲_伊人精品视频_狠久久av成人天堂_午夜精品一区二区三区四区_99在线|亚洲一区二区_久久久久久婷_黄色日韩在线_99热免费精品在线观看
老司机午夜精品视频在线观看| 亚洲一区二区精品在线| 亚洲巨乳在线| 亚洲欧美日韩国产| 欧美激情国产日韩| 亚洲日韩视频| 久久一区视频| 国产一区91| 国内精品久久久久久久影视麻豆 | 亚洲欧美高清| 国内精品久久久久久久影视蜜臀| 亚洲精品123区| 欧美激情精品久久久六区热门| 亚洲国产日韩在线| 欧美大片专区| 美脚丝袜一区二区三区在线观看| 激情五月***国产精品| 久久riav二区三区| 亚洲人成在线影院| 欧美亚州在线观看| 欧美在线精品一区| 久久xxxx精品视频| 亚洲免费婷婷| 国产精品日韩| 中文亚洲字幕| 亚洲久久视频| 黄色一区二区三区四区| 欧美日韩91| 老鸭窝91久久精品色噜噜导演| 亚洲欧洲精品一区二区| 亚洲一级影院| 好吊色欧美一区二区三区四区 | 一区在线免费| 国内精品久久久久久久影视麻豆| 午夜亚洲性色福利视频| 国产伦精品一区二区三区高清版| 日韩午夜精品| 99亚洲伊人久久精品影院红桃| 国产字幕视频一区二区| 欧美日韩综合网| 欧美精品免费观看二区| 午夜精品区一区二区三| 欧美国产91| 欧美日韩一区二区三区在线视频| 久久精品人人| 久久综合久久综合这里只有精品| 久久激情婷婷| 久久午夜电影| 国内久久精品| 激情欧美一区| 国产日韩1区| 午夜亚洲福利在线老司机| 欧美专区在线| 欧美日一区二区三区在线观看国产免| 欧美全黄视频| 国内自拍一区| 亚洲精品影视| 先锋a资源在线看亚洲| 麻豆91精品| 亚洲欧美综合| 尤物在线精品| 翔田千里一区二区| 欧美日韩国产成人精品| 亚洲国产国产亚洲一二三| 日韩视频在线一区二区三区| 午夜亚洲影视| 国产精品二区在线观看| 99视频一区| 老司机精品视频网站| 一区在线播放| 久久免费一区| 99成人在线| 欧美fxxxxxx另类| 亚洲精品一区二| 老司机久久99久久精品播放免费 | 久久精品官网| 在线观看一区欧美| 香蕉成人久久| 极品尤物久久久av免费看| 亚洲一区在线直播| 影院欧美亚洲| 欧美高清视频一区| 一级成人国产| 欧美午夜电影在线观看| 国产视频欧美| 精品二区视频| 午夜日韩电影| 久久av二区| 国产一区白浆| 夜夜嗨网站十八久久| 国产精品www994| 久久精品30| 国产精品久久久久9999高清| 91久久精品一区二区别| 国产一区视频观看| 老司机免费视频久久| 亚洲制服av| 日韩一区二区免费看| 国产精品国产亚洲精品看不卡15| 久久都是精品| 国产精品午夜av在线| 亚洲最新在线| 日韩亚洲不卡在线| 亚洲精品资源| 日韩一级欧洲| 一区二区三区久久网| 亚洲精品一区二区三区蜜桃久| 欧美三区不卡| 国产在线欧美| 亚洲无线一线二线三线区别av| 午夜精品免费| 国产综合色产| 一区二区亚洲| 亚洲免费高清| 国产精品一级久久久| 国产伦精品一区二区三区| 国产精品毛片| 免播放器亚洲| 麻豆成人精品| 欧美大片一区| 一区三区视频| 国产三区精品| 久久精品免费| 欧美另类视频| 亚洲精品一区二区三| 国产日韩欧美一区| 亚洲男人影院| 欧美精品一线| 亚洲精品激情| 麻豆成人在线| 国产综合网站| 国产亚洲精品久久久久婷婷瑜伽| 久久国产99| 欧美久久久久久| 亚洲欧洲一区二区在线观看| 免费永久网站黄欧美| 午夜日本精品| 99国产精品自拍| 久热精品在线| 亚洲作爱视频| 欧美精品国产一区| 亚洲看片一区| 欧美激情 亚洲a∨综合| 亚洲高清网站| 久久精品中文| 亚洲精华国产欧美| 欧美成人精品| 国产伦精品一区二区| 欧美久久99| 西西裸体人体做爰大胆久久久| 欧美激情综合色综合啪啪| 亚洲欧洲精品一区二区| 欧美在线亚洲综合一区| 国产欧美一区二区视频| 国模吧视频一区| 亚洲欧美日韩综合国产aⅴ| 亚洲一级二级| 欧美日本一区| 亚洲影院一区| 亚洲美女黄网| 亚洲福利免费| 国产精品videosex极品| 久久精品1区| 亚洲一区bb| 一区二区三区精品国产| 国内精品福利| 欧美日韩成人| 玖玖在线精品| 美女尤物久久精品| 一区二区三区|亚洲午夜| 黄色精品网站| 国产在线视频欧美一区二区三区| 久久精品日韩欧美| 性色av一区二区怡红| 国产区欧美区日韩区| 亚洲片区在线| 亚洲三级视频| 亚洲精品影院| 亚洲裸体俱乐部裸体舞表演av| 欧美日韩亚洲国产精品| 欧美影院一区| 午夜免费电影一区在线观看| 欧美国产免费| 欧美日韩99| 亚洲视频综合| 99精品国产福利在线观看免费| 伊人久久av导航| 黑人一区二区三区四区五区| 欧美日韩一区在线播放| 欧美日韩影院| 影音先锋久久精品| 亚洲高清在线观看一区| 亚洲欧洲一区二区天堂久久| 日韩一级不卡| 亚洲综合首页| 欧美激情日韩| 影音先锋中文字幕一区| 99热精品在线| 蜜乳av另类精品一区二区| 欧美一区免费视频| 亚洲私人影院| 99精品热6080yy久久| 国产精品一区视频| 久久九九电影| 国内自拍视频一区二区三区| 亚洲国产综合在线看不卡| 国产欧美日韩综合一区在线观看| 香蕉精品999视频一区二区| 欧美二区在线| 99国内精品| 久久中文在线| 91久久国产自产拍夜夜嗨| 国产视频亚洲| 欧美精品麻豆| 国产午夜精品在线| 欧美日韩亚洲一区三区| 一本色道久久综合一区 | 在线 亚洲欧美在线综合一区| 日韩一级精品| 久久资源av| 一区二区冒白浆视频| 欧美jizzhd精品欧美巨大免费| 亚洲午夜在线观看| 国产伦精品一区二区三区视频孕妇| 久久久www| 1024成人| 欧美极品一区| 在线综合欧美| 国产一区自拍视频| 久久精品女人天堂| 99pao成人国产永久免费视频| 久久久久一区二区| 亚洲久久视频| 国产精品九九| 久久精品欧洲| 国产精品一级| 亚洲人体一区| 国产精品啊v在线| 久久国产精品亚洲77777| 激情文学一区| 欧美日韩国产在线一区| 亚洲欧美日韩另类精品一区二区三区| 好吊日精品视频| 久久综合激情| 亚洲专区在线| 亚洲一区二区在| 在线视频欧美一区| 亚洲日本欧美| 亚洲国产高清一区| 亚洲一二三区精品| 国产精品成人一区二区网站软件 | 老司机午夜免费精品视频| 国产欧美亚洲一区| av成人黄色| 99一区二区| 亚洲国产美女| 精品二区久久| 悠悠资源网久久精品| 激情欧美一区| 激情久久五月| 亚洲国产免费看| 亚洲人成人一区二区三区| 18成人免费观看视频| 亚洲一级网站| 亚洲人人精品| 国产乱码精品一区二区三区不卡| 中日韩男男gay无套| 一区二区三区精品视频在线观看| 在线一区亚洲| 蜜桃精品久久久久久久免费影院| 亚洲欧美大片| 欧美精品黄色| 亚洲国产精品日韩| 国产精品入口| 免费一区视频| 欧美午夜不卡| 日韩一级免费| 美女诱惑黄网站一区| 午夜精品区一区二区三| 激情综合自拍| 亚洲一区二区三区高清不卡| 蜜桃av噜噜一区二区三区| 欧美精品激情| 野花国产精品入口| 欧美一区=区| 国产精品初高中精品久久| 91久久亚洲| 久久亚洲风情| 亚洲高清视频一区二区| 国产精品普通话对白| 欧美高清一区| 国产欧美日本| 欧美日韩国产免费观看 | 欧美日韩一区在线播放| 999在线观看精品免费不卡网站| 性欧美暴力猛交另类hd| 国产精品国产三级欧美二区| 国产精品美女| 国产一区日韩一区| 亚洲一区日韩| 狠狠噜噜久久| 另类天堂av| 日韩网站在线| 欧美日本二区| 亚洲欧美网站| 亚洲欧洲在线一区| 午夜视频久久久| 亚洲欧美高清| 日韩视频二区| 很黄很黄激情成人| 久久一区激情| 亚洲欧美卡通另类91av| 亚洲第一毛片| 国产精品大全| 午夜国产精品视频免费体验区| 一区二区欧美日韩| 亚洲成色www久久网站| 欧美激情性爽国产精品17p| 免费国产自线拍一欧美视频| 亚洲人www| 在线观看视频日韩| 国产中文一区二区| 欧美日韩另类丝袜其他| 久久亚洲高清| 久久综合精品一区| 久久天堂精品| 欧美一区2区三区4区公司二百| 亚洲一区二区伦理| 亚洲乱码久久| 99精品国产福利在线观看免费 | 欧美淫片网站| 老鸭窝毛片一区二区三区 | 国产精品日韩久久久| 亚洲精品乱码视频| 伊人久久综合| 最近看过的日韩成人| 亚洲美女91| 国产精品日本| 久久国产精品免费一区| 久久人人97超碰人人澡爱香蕉 | 亚洲一区二区动漫| 亚洲欧美日韩精品久久久| 国产九区一区在线| 免费欧美日韩| 欧美精品aa| 在线电影一区| 国产日韩欧美二区| 久久国产精品久久精品国产| 久久久久一区二区| 欧美日韩在线不卡一区| 国产综合欧美在线看| 亚洲国产日韩欧美| 国产日韩一区欧美| 久久蜜桃精品| 亚洲午夜精品久久久久久app| 国产综合亚洲精品一区二| 在线播放亚洲| 亚洲一区国产| 欧美高清一区二区| 一区视频在线看| 国产精品欧美久久| 欧美激情偷拍| 一区二区三区国产盗摄| 麻豆av一区二区三区| 国产综合网站| 亚洲自啪免费| 国语自产精品视频在线看8查询8| 亚洲毛片在线| 欧美激情一级片一区二区| 亚洲三级视频| 美女精品在线| 亚洲精品日韩久久| 久久综合亚州| 亚洲视频1区| 欧美日韩亚洲一区在线观看| 国产欧美不卡| 国产一区自拍视频| 久久福利精品| 亚洲国产精品视频一区| 欧美在线日韩精品| 国产欧美精品| 亚洲午夜av| 欧美精品一区在线发布| 国产精品久久久久毛片大屁完整版| 欧美精品观看| 亚洲综合99| 在线观看成人av| 欧美/亚洲一区| 国产婷婷精品| 亚洲福利精品| 国内精品久久久久久久97牛牛| 亚洲一区一卡| 一本久道久久综合狠狠爱| 国产字幕视频一区二区| 久久久综合网| 久久精品免费| 久久国产精品久久w女人spa| 99热精品在线| 亚洲精品美女| 亚洲精品影视|