作者: Tarogo Cloud

OpenAI公布其语音生成模型:Voice Engine

根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 Voice Engine最初于2022年底开发,并已经提供给包括Heygen在内的少数公司进行测试性使用。

介绍 Private LLM(@private_llm)

Mac 可以通过 Private LLM 运行更大模型(32k 令牌长度窗口),无需 Nvidia RTX,无需 GPU。 将 AI 添加到你的工作流程变得更简单!无需代码,只需你的创造力和 Apple 快捷指令即可进行提示工程。

通过聊天的方式来进行UI设计

W&B 团队开发的一个开源工具,你可以通过文字来描述你想要的UI界面,OpenUI可以帮你实时进行渲染出效果。 你还可以通过聊天的方式进行任意修改,并将HTML转换为React、Svelte、Web Components等多种前端框架。

TextCraftor是一种创新的文本编码器微调技术

为了解决现有模型的局限性,研究者们提出了TextCraftor,这是一种端到端的文本编码器微调技术。TextCraftor的核心思想是通过奖励函数来增强预训练的文本编码器,从而显著提高图像质量和文本图像对齐的准确性。这种方法不需要额外的文本-图像配对数据集,而是仅使用文本提示进行训练,从而减轻了存储

腾讯发布了AniPortrait:

1)从音频中提取3D中间表示,并将它们投影到一系列2D面部标志点上 2)利用一个结合了运动模块的扩散模型,将标志点序列进一步转化为具有高视觉质量的动画

服装三维生成器

引入了 Garment3DGen 一种新方法,以单个输入图像作为指导,从基础网格合成 3D 服装资产。我们提出的方法允许用户根据两者生成 3D 纹理衣服

Al Comic Factory:漫画工厂

自动生成有情感、有故事性的漫画内容 它使用大语言模型和如SDXL来自动创建漫画面板。 你只需提供一个简单的文本提示,AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。

SuperBeasts的ComfyUI真好用

调整阴影、高光和整体 HDR 效果的强度。 应用伽玛校正来控制整体亮度和对比度。 增强对比度和色彩饱和度,以获得更鲜艳的效果。 通过在 LAB 色彩空间中处理图像来保持色彩准确性