MistralAI開源了世界上第一個(可能)基於MoE(專家混合)技術的大型模型
有趣的事實:
- 以87 GB種子形式發布
- 似乎是GPT-4的縮小版
- 發布在X上,沒有新聞稿,也拒絕詳細說明

專家混合(MoE)是LLM中用於提高效率和準確性的一種技術。這種方法的工作原理是將複雜任務分為更小、更易於管理的子任務,每個子任務都由專門的迷你模型或「專家」處理。"
- 專家層:這些是較小的神經網絡,經過訓練,使其在特定領域擁有高度熟練的技能。
2.門控網絡:這是MoE架構的決策者。
擴展信息:
MoE技術簡介:混合專家(MoE)是一種用於大型語言模型(LLM)以提高效率和準確性的技術。它的工作原理是將複雜任務分解為更小、更易於管理的子任務,每個子任務都由專門的小模型或「專家」處理。"
MoE的組件:專家層:這些是小型神經網絡,經過訓練專門從事特定領域。每個專家都以與其專業化相匹配的方式處理相同的輸入。
門控網絡:這是MoE架構的決策者。它評估哪位專家最適合給定的輸入數據。網絡計算輸入與每位專家之間的兼容性分數,然後使用這些分數來確定每位專家在任務中的參與程度。
Mistral的MoE與GPT-4:Mistral 8x 7 B使用與GPT-4非常相似的架構,但規模較小:總共8名專家而不是16名(減少2倍),每個專家有7 B參數而不是166 B(減少24倍),總共約42 B參數而不是1.8T(減少42倍),與原始GPT-4相同的32 K上下文。
下載連結(磁鐵連結):
磁鐵:?文本=urn:btih:5546272 da9065eddeb6fcd7ffddeef5b75be79a7 dn=mixtral-8x7b-32kseqlen TR=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Farannounce TR= https://t.co/g0m9cEUz0T%3A80%2Fannounce
發布a6bbd9 affe0c2725c1b7410d66833e24
MoE 8x 7 B在線體驗,由@mattshumer_提供: https://replicate.com/nateraw/mixtral-8x7b-32kseqlen