自动生成有情感、有故事性的漫画内容 它使用大语言模型和如SDXL来自动创建漫画面板。 你只需提供一个简单的文本提示,AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。
分类: 开源项目
LaVague现已作为托管应用程序在huggingface Space上
现在,您可以在不安装任何东西的情况下尝试 LaVague,并根据自然语言指令实现自动化 Web 操作。 这个当中最好的部分?所有堆栈都是开源的!我们使用 Hugging Face #Gradio 作为 UI,他们的 Inference API 调用 #Mixtral 、...
腾讯也搞了一个让照片能唱歌说话的项目
比阿里EMO先开源 AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频 它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。
Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。 免费课程列表:超过65个与生成式AI相关的免费课程。 面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。 课程材料:《Applied LLMs Mastery 2024》课程材料。
Cobra将Mamba扩展为多模态LLM
以实现高效推理。尝试拥抱 Huggingface 演示上线了!欢迎大家来尝试一下!代码和重量也更新了。
VoiceCraft:官宣超过XTTS的语音模型
支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。
Open-Sora开源了
包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。 该项目由@YangYou1991 团队开发 这是 OpenAI Sora 在视频生成方面的开源替代方案。 可以在仅仅3天的训练后生成2~5秒的512x512视频。
OpenReplay:用户操作记录回放
OpenReplay是一个自托管的会话回放和分析开源工具 可以让开发人员像看电影一样回看用户如何与你的产品互动,包括他们点击了什么,输入了什么,甚至在遇到问题时他们的屏幕上发生了什么。 帮助你优化用户体验和提高产品性能。
AutoPrompt:自动优化你的提示词
专为优化提示而设计的框架,通过不断的迭代过程,AutoPrompt 构建了一个包含各种挑战性边缘案例的数据集,用于测试和优化提示。 它能根据用户的具体意图自动生成定制化的提示,确保生成的提示能够精准地满足用户的需求。
北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型 Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
MeloTTS:由MyShell AI开发的一个高质量的多语言文本到语音(TTS)库
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。 速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。 即使在普通的在CPU上也能实现实时语音合成。
SDXL Lightning 实时生图
边打字边生成图片,速度贼拉快
YOLOv9:实时对象检测,能够快速准确地在图像或视频中识别和定位多个对象
之前的YOLO系列模型相比,YOLOv9在不牺牲性能的前提下实现模型的轻量化,同时保持更高的准确率和效率。 这使得它可以在各种设备和环境中运行,如移动设备、嵌入式系统和边缘计算设备。 YOLOv9通过改进模型架构和训练方法,提高了对象检测的准确性和效率
YOLO-World&EfficientSAM&Stable Diffusion 能干啥?
实时检测视频中的特定对象,然后分割对象,使用自然语言来对特定的对象进行替换、修改、风格化等! 是不是很熟悉?科幻片里面的场景就实现了! 这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改,甚至换掉视频中的某个人物。
UMI:斯坦福开发的一个机器人数据收集和策略学习框架
UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。 也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务 UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。
YOLOv8:目标检测跟踪模型
YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。 除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。