支持圖像和視頻等多種視覺語言任務
包括圖像和短視頻字幕、視覺問答、圖像文本理解、對象檢測文件圖表解釋、圖像分割等支持任務。
PaliGemma模型包含30億(3B)個參數,並結合了SigLiP視覺編碼器和Gemma語言模型。
在谷歌,我們相信合作和開放研究推動創新,我們很高興看到Gemma在社區中變得流行,發布後短短几個月內就獲得了數百萬次下載。
這種熱情的反應非常令人鼓舞,因為開發人員創建了各種項目,從Navarasa(印度語言的多語言變體)到Octopus v2(設備上操作模型),開發人員正在展示Gemma創建有影響力且易於訪問的項目的潛力。
這種探索和創造精神也促使我們開發了CodeGemma(具有強大的代碼完成和生成功能)和Recurrent Gemma(提供高效的推理和研究可能性)。
Gemma是一系列輕量級、最先進的開放模型,採用與創建Gemini模型相同的研究和技術構建。今天,我們很高興通過推出強大的開放視覺語言模型(VLM)PaliGemma進一步擴展Gemma系列,並通過Gemma 2的發布預覽不久的將來。此外,我們還通過更新負責任一代人工智慧工具包進一步擴大對負責任人工智慧的承諾,為開發人員提供新的和增強的工具來評估模型安全性和過濾有害內容。
PaliGemma簡介:開放視覺語言模型
PaliGemma是一款強大的開放VLM,靈感來自PaLI-3。PaliGemma構建在SigLIP視覺模型和Gemma語言模型等開放組件之上,旨在在各種視覺語言任務中實現一流的微調性能。這包括字幕圖像和短視頻、視覺問答、理解圖像中的文本、對象檢測和對象分割。
我們提供多種解析度的預訓練和微調檢查點,以及專門針對混合任務進行調整以實現即時探索的檢查點。
為了促進開放探索和研究,PaliGemma通過各種平台和資源提供服務。立即開始探索Kaggle和Colab筆記本等免費選項。尋求突破視覺語言研究界限的學術研究人員還可以申請Google Cloud積分來支持他們的工作。
今天開始使用PaliGemma。您可以在GitHub、Hugging Face Models、Kaggle、Vertex AI Model Garden和ai.nvidia.com(使用TensoRT-LLM加速)上找到PaliGemma,並通過JAX和Hugging Face Transformer輕鬆集成。(Keras集成即將推出)您還可以通過這個擁抱臉空間與模特互動。

Gemma 2發布:下一代性能和效率
我們很高興地宣布,下一代Gemma車型Gemma 2將很快上市。Gemma 2將提供新尺寸,適合廣泛的人工智慧開發人員用例,並採用專門為突破性性能和效率而設計的新架構,具有以下優勢:
領先業績:Gemma 2擁有270億個參數,性能與Llama 370 B相當,但尺寸僅為Llama 370 B的一半。這種突破性的效率樹立了開放模型領域的新標準。
降低部署成本:Gemma 2的高效設計所需的計算量不到類似型號所需的一半。27 B型號經過優化,可在NVIDIA圖形處理器上運行或在Vertex AI的單個pu主機上高效運行,使其更容易部署,並且更經濟實惠,適合更廣泛的用戶。
多功能調優工具鏈:Gemma 2將為開發人員提供跨不同平台和工具生態系統的強大調優功能。從Google Cloud等基於雲的解決方案到Axolotl等流行社區工具,Gemma 2的微調將比以往任何時候都更容易。此外,與Hugging Face和NVIDIA TensorRT-LLM以及我們自己的JAX和Keras的無縫合作夥伴集成,確保您可以優化性能並在各種硬體配置中高效部署。
擴展負責任的生成式人工智慧工具包
因此,我們正在擴展我們的負責任生成人工智慧工具包,通過發布開源LLM比較器來幫助開發人員進行更強大的模型評估。LLM Comparator是一種新的交互式和視覺工具,用於執行有效的並行評估,以評估模型響應的質量和安全性。要了解LLM比較器的實際工作原理,請查看我們的演示,其中顯示了Gemma 1.1和Gemma 1.0之間的比較。
我們希望這個工具能夠進一步推進工具包的使命,並幫助開發人員創建不僅具有創新性,而且安全和負責任的人工智慧應用程式。
在我們繼續擴大Gemma開放模型系列的同時,我們仍然致力於創建一個前沿人工智慧技術和負責任開發齊頭並進的協作環境。我們很高興看到您用這些新工具構建了什麼,以及我們如何共同塑造人工智慧的未來。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
原文:https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/
輸油管: