翻譯：在我的十年人工智慧

我從未見過這麼多人對算法如此富有想像力。只有一個名字，沒有論文、數據或產品。所以，讓我們揭開Q* 幻想的神秘面紗，這可能是一個相當長的探索。

首先，要了解搜索和學習的強大結合，我們需要回到2016年，重溫AlphaGo，這是人工智慧歷史上的輝煌成就。它主要由四個要素組成：

政策神經網絡（Policy NN，學習部分）：其任務是選擇好的行動，並通過估計每個行動來估計勝利的可能性。
價值神經網絡（價值神經網絡，學習部分）：該部分負責評估董事會狀況並預測Go中任何法律立場的結果。
蒙特卡洛樹搜索（MCTS，搜索部分）：它代表「蒙特卡洛樹搜索」。該過程使用戰略神經網絡模擬從當前位置開始的多個可能的移動序列，然後綜合這些模擬的結果以確定最有希望的動作。這是一個「緩慢思考」的過程，與大型語言模型（LLM）快速採樣標記的方式形成鮮明對比。
真實信號：這是驅動整個系統的動力來源。在圍棋中，這個信號非常簡單，即一個二進位標籤「誰贏」，由固定的遊戲規則決定。將其視為維持學習過程的能量來源。

那麼，這些組件如何協同工作呢？

AlphaGo繼續通過自我遊戲來發展，並與之前的版本進行遊戲。在這個過程中，策略神經網絡和價值神經網絡通過疊代不斷優化：隨著策略在選擇行動方面變得更加高效，價值神經網絡就會獲得更好的數據來學習，進而為策略提供更準確的反饋。更強的策略還可以幫助蒙特卡洛樹搜索發現更好的策略。

這形成了一台巧妙的「永動機」。就這樣，AlphaGo提高了自己的能力，並於2016年以4-1擊敗了人類世界冠軍李世石。人工智慧無法僅僅通過模仿人類數據達到超人的水平。

現在，讓我們探索一下Q* 的組成部分。它的四個主要組成部分是什麼？

戰略神經網絡：這將是OAI最強大的內部大型語言模型（GPT），負責實際執行解決數學問題的思維過程。
價值神經網絡：另一種GPT，評估每箇中間推理步驟的正確性概率。
OAI於2023年5月發布了一篇題為《讓我們一步一步地驗證》的論文，由Ilya Sutskever（@ilyasut）、John Schulman（@johnschulman2）和Jan Leike（@janleike）等知名人士共同撰寫： https://arxiv.org/abs/2305.20050

雖然它不像DALL-E或Whisper那麼出名，但它給了我們不少線索。

本文提出了一種「流程監督獎勵模型」（PRM），該模型為思想鏈中的每個步驟提供反饋。相比之下，結果監督獎勵模型（ORM）最終只對總體產出做出判斷。

ORM是人類反饋強化學習（RL HF）的原始獎勵模型的表達，但它太粗糙，無法正確評估長響應的各個子部分。換句話說，ORM不適合分配信貸。在強化學習文獻中，我們將ORM稱為「稀疏獎勵」（僅在最後給出），而PRM是「密集獎勵」，可以順利引導大型語言模型實現我們所需的行為。

在思想鏈（CoT）的基礎上，研究界開發了一些非線性CoT：

真實信號：有幾種可能性：
(a)每個數學問題都伴隨著已知的答案。OAI可能從現有的數學考試或競賽中收集了大量的素材。
(b)ORM本身可以作為真正的信號，但它們可能會被利用來「失去能量」來維持學習。
(c)形式驗證系統（例如精益定理證明器）可以將數學問題轉化為編碼問題，並提供編譯器反饋： https://lean-lang.org

就像AlphaGo一樣，策略和價值大語言模型可以通過疊代相互促進改進，也可以儘可能學習人類專家的注釋。更好的策略大型語言模型將幫助思考樹搜索發現更好的策略，這反過來將為下一次疊代收集更好的數據。

Demis Hassabis（@ Delivershassabis）提到DeepMind的Gemini將使用「AlphaGo風格的算法」來增強推理能力。即使Q* 不是我們想像的那樣，谷歌也一定會以自己的方式效仿。如果我能想到這一點，他們肯定也會想到。

應該注意的是，我所描述的只是關於推理。並不是說Q* 在寫詩、講笑話Grok（@grok）或角色扮演方面更有創造力。提高創造力本質上是人類的事情，因此我相信自然數據仍然勝過合成數據。