Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,这个系列致力于在性能、效率和内存占用之间找到理想的平衡
分类: 开源项目
无界3D城市生成
CVPR2024们提出CityDreamer ,一种用于合成无界3D城市的组合生成模型
动画自动填色技术:可自动为动画中的线条图着色
南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。 通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。
MuseV:虚拟人视频的完整解决方案
基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。 后续会发布MuseTalk来支持实时嘴型同步。
通过聊天的方式来进行UI设计
W&B 团队开发的一个开源工具,你可以通过文字来描述你想要的UI界面,OpenUI可以帮你实时进行渲染出效果。 你还可以通过聊天的方式进行任意修改,并将HTML转换为React、Svelte、Web Components等多种前端框架。
Al Comic Factory:漫画工厂
自动生成有情感、有故事性的漫画内容 它使用大语言模型和如SDXL来自动创建漫画面板。 你只需提供一个简单的文本提示,AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。
LaVague现已作为托管应用程序在huggingface Space上
现在,您可以在不安装任何东西的情况下尝试 LaVague,并根据自然语言指令实现自动化 Web 操作。 这个当中最好的部分?所有堆栈都是开源的!我们使用 Hugging Face #Gradio 作为 UI,他们的 Inference API 调用 #Mixtral 、...
腾讯也搞了一个让照片能唱歌说话的项目
比阿里EMO先开源 AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频 它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。
Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。 免费课程列表:超过65个与生成式AI相关的免费课程。 面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。 课程材料:《Applied LLMs Mastery 2024》课程材料。
Cobra将Mamba扩展为多模态LLM
以实现高效推理。尝试拥抱 Huggingface 演示上线了!欢迎大家来尝试一下!代码和重量也更新了。
VoiceCraft:官宣超过XTTS的语音模型
支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。
Open-Sora开源了
包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。 该项目由@YangYou1991 团队开发 这是 OpenAI Sora 在视频生成方面的开源替代方案。 可以在仅仅3天的训练后生成2~5秒的512x512视频。
OpenReplay:用户操作记录回放
OpenReplay是一个自托管的会话回放和分析开源工具 可以让开发人员像看电影一样回看用户如何与你的产品互动,包括他们点击了什么,输入了什么,甚至在遇到问题时他们的屏幕上发生了什么。 帮助你优化用户体验和提高产品性能。
AutoPrompt:自动优化你的提示词
专为优化提示而设计的框架,通过不断的迭代过程,AutoPrompt 构建了一个包含各种挑战性边缘案例的数据集,用于测试和优化提示。 它能根据用户的具体意图自动生成定制化的提示,确保生成的提示能够精准地满足用户的需求。
北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型 Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
MeloTTS:由MyShell AI开发的一个高质量的多语言文本到语音(TTS)库
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。 速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。 即使在普通的在CPU上也能实现实时语音合成。