你只需要提供一张人物的静态照片和一段语音录音,VividTalk就能将它们结合起来,制作出一个看起来像是实际说话的人物的视频。
分类: 开源项目
MetaAI发布实时人工智能语言翻译模型:Seamless
这个模型统一了之前的三个Seamless系列模型,可以实时翻译100多种语言,延迟不到2秒钟,说话者仍在讲话时就开始翻译。
GitHub文件加速网站列表
开始收集代理GitHub下载的网站,以备不时之需。
GPT-Crawler :一个开源的知识库自动爬虫工具
它能从一个或多个网址爬取网站内容,然后生成JSON文件格式。
微软推出仅需文本内容即可转成真人视频的工具:Deepfakes Creator
该工具允许用户通过文本输入生成逼真的会说话的真人视频。你只要上传想要化身模仿的人的照片,并写一个剧本。
大语言模型的幻觉排行榜
榜单比较了不同大语言模型在总结短文档时产生幻觉(hallucination)的表现
Draw-a-UI :让你像画画一样设计网页。
你只需在草图软件里随手画出你想要的网页界面,如简单的按钮或文本框,基本线框图
MusicGen Remixer:一个基于 MusicGen 的音乐改编工具。
你只需要上传一首歌,然后描述你想要的风格或感觉,这个工具就能自动帮你把歌曲改编成新的风格,创造出一个全新的混音版本。
Motrix:免费和开源的全功能下载管理器
支持 HTTP、FTP、BitTorrent、Magnet 等多种下载方式。支持多达 10 个并发下载任务。
GATE:解决用户不会LLMs提示词的问题
麻省理工学院研究人员开发出一种GATE框架,GATE会主动地与你进行开放式的对话,通过一些列对话了解你的需求和偏好。
Quadruped_bai_tiny:可控扭矩的无刷四足机器人
这是一个低成本、8自由度(8DOF)的可控扭矩开源四足机器人项目。
一种纠正多模态大语言模型”幻觉”大方法
一种纠正多模态大语言模型"幻觉"大方法。
Localpilot:一键在MacBook上本地运行GitHub Copilot
用户只需要进行简单的设置和安装步骤,就可以在本地(即自己的Macbook上)运行GitHub Copilot,并且可以在没有网络连接的情况下使用。
AudioSep:可以使用自然语言进行声音提取分离的模型
AudioSep可以从任何混合的音频信号中提取出特定的声音成分并分离出来。与传统的声音分离模型不同,AudioSep允许用户通过自然语言描述来指定他们想要分离的声音。
HyperHuman:超现实人像图像生成模型
该模型生成的人体图像不仅逼真,而且具有高度的三维结构感,它能理解图像背后的三维结构。就像你不仅看到一个人,还能感知他站立的方式、面部的轮廓等。
SD-WebUI-AnimateDiff(v1.9.0)
更新了一个Prompt Travel 新功能。这个功能允许用户通过使用 ControlNet来进行文本提示(Prompt)驱动的图像生成和变换。