苹果12月14日释放了一个名为Ferret的多模态大语言模型,该模型不仅可以准确识别图像并描述其内容。 同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。
分类: 开源项目
AppAgent:让AI模仿人类在手机上操作APP
AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。
ComfyUI-Portrait-Master肖像大师,简体中文版来啦!
超详细参数设置!再也不用为不会写人像提示词发愁啦!重新优化为json列表更方便自定义和扩展!已包含标准工作流和turbo工作流
OpenAI公布了超级对齐项目一项最新研究成果,探索了一种新方法:
这项研究的目的是为了解决一个问题:未来,当 AI 变得比人类更聪明时,人类如何能够有效地控制这些 AI。
VividTalk:单张照片+一段音频即可让照片说话
你只需要提供一张人物的静态照片和一段语音录音,VividTalk就能将它们结合起来,制作出一个看起来像是实际说话的人物的视频。
MetaAI发布实时人工智能语言翻译模型:Seamless
这个模型统一了之前的三个Seamless系列模型,可以实时翻译100多种语言,延迟不到2秒钟,说话者仍在讲话时就开始翻译。
GitHub文件加速网站列表
开始收集代理GitHub下载的网站,以备不时之需。
GPT-Crawler :一个开源的知识库自动爬虫工具
它能从一个或多个网址爬取网站内容,然后生成JSON文件格式。
微软推出仅需文本内容即可转成真人视频的工具:Deepfakes Creator
该工具允许用户通过文本输入生成逼真的会说话的真人视频。你只要上传想要化身模仿的人的照片,并写一个剧本。
大语言模型的幻觉排行榜
榜单比较了不同大语言模型在总结短文档时产生幻觉(hallucination)的表现
Draw-a-UI :让你像画画一样设计网页。
你只需在草图软件里随手画出你想要的网页界面,如简单的按钮或文本框,基本线框图
MusicGen Remixer:一个基于 MusicGen 的音乐改编工具。
你只需要上传一首歌,然后描述你想要的风格或感觉,这个工具就能自动帮你把歌曲改编成新的风格,创造出一个全新的混音版本。
Motrix:免费和开源的全功能下载管理器
支持 HTTP、FTP、BitTorrent、Magnet 等多种下载方式。支持多达 10 个并发下载任务。
GATE:解决用户不会LLMs提示词的问题
麻省理工学院研究人员开发出一种GATE框架,GATE会主动地与你进行开放式的对话,通过一些列对话了解你的需求和偏好。
Quadruped_bai_tiny:可控扭矩的无刷四足机器人
这是一个低成本、8自由度(8DOF)的可控扭矩开源四足机器人项目。
一种纠正多模态大语言模型”幻觉”大方法
一种纠正多模态大语言模型"幻觉"大方法。