SakanaAI RLT使用強化學習來培訓教師模型

該項目通過強化學習來訓練教師模型，以幫助大型語言模型學習如何在測試階段推理更好的可擴展性和性能。

GitHub項目 SakanaAI/RLT強化學習教師是Sakana AI發布的開源框架。核心目標是讓小教師專注於「教學」而不是直接解決問題，從而更高效、更低的成本培養具有推理能力的大學生。

1.項目背景及核心理念

在傳統的強化學習中，教師模型被訓練成「自己解決問題」，然後將其答案作為學生模型學習的訓練數據。但這個過程昂貴且緩慢，學習目標與最終用途（教學）不一致。RLT方法建議：

學生模型（32B）經過7B老師的培訓後，在多個基準測試中獲得 37.6% 表現，高於接受DeepSeek R1培訓的人（671 B老師） 34.4% 學生成績
RLT實驗還涵蓋數學和邏輯推理任務，例如AIME 2024、Math500和GPQA Diamond。事實證明，7 B老師的蒸餾效果非常出色。

GitHub存儲庫 SakanaAI/RLT 提供完整的代碼、配置和型號說明，主要內容包括：

訓練腳本：包含監督微調（SFT）階段+強化學習階段。默認情況下，Qwen/Qwen 2.5 - 7 B-Instruct用作基本教師模型。
配置系統：使用Hydra管理實驗配置（CFgs/run_CGM/*.yaml）;合作 launch.sh 和 launch_with_server.sh 可用於不同的圖形處理器資源環境。
數據格式：輸入要求包括 問題 與 溶液 列，可選包含 推理_痕跡;培訓也可以通過定製數據進行。
預訓練模型和使用建議：提供RLT-7 B學生檢查點，可用於推斷或繼續微調（託管在Hugging Face上）

優勢	描述
低成本和高效率	小模範老師節省硬體和時間資源
快速疊代	推理能力強的學生幾天甚至一天就可以訓練出來
📚理解力強	輸出解釋的結構易於移植和調試
開源可複製	獲得Apache-2.0授權，研究人員或產品團隊可以自由試用

非常適合建立具有推理能力但資源有限的團隊，或研究如何最好讓一個模特「教」另一個模特，而不僅僅是「做」任務。

RLT是一種 「小模特當老師，大模特當學生」的強化學習新範式：教師接受過生成高質量解釋的培訓，以培養學生的理解能力，這大大降低了培訓成本並提高了學習效率，同時仍然在複雜推理任務中表現良好。GitHub上的項目為其核心算法提供了完整的開源實現和使用說明，是實踐或研究該方法的重要切入點。

如果您需要了解特定的文件結構、腳本命令、示例流程，或者想對基準結果進行更深入的分析，請繼續，我可以幫助您進一步解讀！

輸油管：