繁中

AI開源項目:NavAIGuide-TS

前段時間爆發的AI硬體Rabbit R1實際上理論上基於GPT-4V視覺模型,可以在手機上實現。該項目試圖實現大語言視覺模型來操作您的手機,包括內部應用程式。

在技術實現方面,它依靠手機自動化測試工具Appium來允許大型語言模型與手機交互。

但這個項目的問題也很明顯,那就是整個環境的設置太複雜,需要專業的手機開發來運行,還需要開發證書。

仍然是一個很好的嘗試👍🏻

項目地址:https://github.com/francedot/NavAIGuide-TS
詳細描述:https://medium.com/@francedot/ios-ui-focused-agents-in-the-era-of-multi-modal-generative-ai-1f2097fa8ba6

想像一下,如果語言模型可以進入iPhone的應用生態系統。如果我們只是允許一個模型來編排我們現有的(並且多年來穩健的)用戶界面,那麼對插件和助手的需求會過時嗎?

這證明了GPT-4V作為通用移動人工智慧代理是多麼出色-無需任何微調或基礎,只需與支持SON模式的文本模型集成即可。
建議觀看此演示以了解在iOS 17上使用指南的(可能)驚人因素和結果,

NavAIGuide是LLM的移動和Web導航代理框架: https://github.com/francedot/NavAIGuide-TS

新視頻:

返回頂端