MistralAI基於MoE部開源大型模型

MistralAI開源了世界上第一個（可能）基於MoE（專家混合）技術的大型模型

有趣的事實：

以87 GB種子形式發布
似乎是GPT-4的縮小版
發布在X上，沒有新聞稿，也拒絕詳細說明

專家混合（MoE）是LLM中用於提高效率和準確性的一種技術。這種方法的工作原理是將複雜任務分為更小、更易於管理的子任務，每個子任務都由專門的迷你模型或「專家」處理。"

專家層：這些是較小的神經網絡，經過訓練，使其在特定領域擁有高度熟練的技能。
2.門控網絡：這是MoE架構的決策者。

擴展信息：

MoE技術簡介：混合專家（MoE）是一種用於大型語言模型（LLM）以提高效率和準確性的技術。它的工作原理是將複雜任務分解為更小、更易於管理的子任務，每個子任務都由專門的小模型或「專家」處理。"

MoE的組件：專家層：這些是小型神經網絡，經過訓練專門從事特定領域。每個專家都以與其專業化相匹配的方式處理相同的輸入。

門控網絡：這是MoE架構的決策者。它評估哪位專家最適合給定的輸入數據。網絡計算輸入與每位專家之間的兼容性分數，然後使用這些分數來確定每位專家在任務中的參與程度。

Mistral的MoE與GPT-4：Mistral 8x 7 B使用與GPT-4非常相似的架構，但規模較小：總共8名專家而不是16名（減少2倍），每個專家有7 B參數而不是166 B（減少24倍），總共約42 B參數而不是1.8T（減少42倍），與原始GPT-4相同的32 K上下文。

下載連結（磁鐵連結）：

磁鐵：？文本=urn：btih：5546272 da9065eddeb6fcd7ffddeef5b75be79a7 dn=mixtral-8x7b-32kseqlen TR=udp%3A%2F%http：//2Fopentracker.i2p.rocks%3A6969%2Farannounce TR= https://t.co/g0m9cEUz0T%3A80%2Fannounce
發布a6bbd9 affe0c2725c1b7410d66833e24

MoE 8x 7 B在線體驗，由@mattshumer_提供： https://replicate.com/nateraw/mixtral-8x7b-32kseqlen