該項目通過強化學習來訓練教師模型,以幫助大型語言模型學習如何在測試階段推理更好的可擴展性和性能。
GitHub項目 SakanaAI/RLT強化學習教師是Sakana AI發布的開源框架。核心目標是讓小教師專注於「教學」而不是直接解決問題,從而更高效、更低的成本培養具有推理能力的大學生。
1.項目背景及核心理念
在傳統的強化學習中,教師模型被訓練成「自己解決問題」,然後將其答案作為學生模型學習的訓練數據。但這個過程昂貴且緩慢,學習目標與最終用途(教學)不一致。RLT方法建議:
- 直接向老師提供問題+標準答案,讓它輸出清晰、結構化的解決方案,就像一位好老師講課一樣。
- 老師的強化學習獎勵並不取決於是否解決了問題,而是取決於能否通過它解釋學生模型。正確答案(That是,講解的教學效果)
2.為什麼這樣有效?
- 協調高效教育目標:教師的目的是「教學生」,而不是「自己解決問題」。訓練目標更加精確。
- 小榜樣是有效的老師實驗表明,只有 7B參數 老師,教學效果優於數百億個模型(For例如,DeepSeek R1的671 B參數)
- 資源和成本大幅下降:以32 B參數培訓學生,使用7 B老師即可 當天完成單節點培訓,成本明顯低於傳統RL方法(數千美金vs數十萬美金)
3.性能實驗和數據比較
- 學生模型(32B)經過7B老師的培訓後,在多個基準測試中獲得 37.6% 表現,高於接受DeepSeek R1培訓的人(671 B老師) 34.4% 學生成績
- RLT實驗還涵蓋數學和邏輯推理任務,例如AIME 2024、Math500和GPQA Diamond。事實證明,7 B老師的蒸餾效果非常出色。
4.項目代碼結構和使用指南
GitHub存儲庫 SakanaAI/RLT 提供完整的代碼、配置和型號說明,主要內容包括:
- 訓練腳本:包含監督微調(SFT)階段+強化學習階段。默認情況下,Qwen/Qwen 2.5 - 7 B-Instruct用作基本教師模型。
- 配置系統:使用Hydra管理實驗配置(
CFgs/run_CGM/*.yaml);合作launch.sh和launch_with_server.sh可用於不同的圖形處理器資源環境。 - 數據格式:輸入要求包括
問題與溶液列,可選包含推理_痕跡;培訓也可以通過定製數據進行。 - 預訓練模型和使用建議:提供RLT-7 B學生檢查點,可用於推斷或繼續微調(託管在Hugging Face上)
5. RLT的潛力和應用場景
| 優勢 | 描述 |
|---|---|
| 低成本和高效率 | 小模範老師節省硬體和時間資源 |
| 快速疊代 | 推理能力強的學生幾天甚至一天就可以訓練出來 |
| 📚理解力強 | 輸出解釋的結構易於移植和調試 |
| 開源可複製 | 獲得Apache-2.0授權,研究人員或產品團隊可以自由試用 |
非常適合建立具有推理能力但資源有限的團隊,或研究如何最好讓一個模特「教」另一個模特,而不僅僅是「做」任務。
綜上所述
RLT是一種 「小模特當老師,大模特當學生」的強化學習新範式:教師接受過生成高質量解釋的培訓,以培養學生的理解能力,這大大降低了培訓成本並提高了學習效率,同時仍然在複雜推理任務中表現良好。GitHub上的項目為其核心算法提供了完整的開源實現和使用說明,是實踐或研究該方法的重要切入點。
如果您需要了解特定的文件結構、腳本命令、示例流程,或者想對基準結果進行更深入的分析,請繼續,我可以幫助您進一步解讀!
Github:https://github.com/SakanaAI/RLT
輸油管: