MetaEmu

一个先进的图像生成模型,专门设计用于生成高度美观的图像。

Emu是Meta AI新的图像生成模型,可以快速免费生成高质量逼真图像。该模型首先使用11 亿的图像-文本对进行预训练,然后使用了一组精选的高质量图像进行微调,来进一步提升生成图像的视觉吸引力。

最终,Emu 模型在视觉吸引力方面表现出色,胜过了其他先进的图像生成模型。

Emu特点:

1、美观度与功能性的结合:通常,预训练的图像生成模型在生成高度美观的图像方面存在挑战。Emu 通过后期的美观度对齐(Aesthetic Alignment)解决了这个问题。
2、高效的质量调优:令人惊讶的是,只需要几千张精选的高质量图像就能显著提升生成质量。这意味着不需要大量的数据和计算资源。
3、广泛的应用场景: 从文本生成图像的应用场景非常广泛,包括但不限于艺术创作、广告设计、游戏开发等。

技术细节:

Emu基于语言驱动模型(LDM),这是一种深度学习网络,能够理解文本输入并根据该输入生成图像。

1、预训练与微调:Emu 使用了 11 亿的图像-文本对进行预训练,然后用几千张精选的高质量图像进行微调。这些数据经过预处理,以便模型能更好地学习如何根据文本生成图像。
2、质量调优:在基础模型训练完成后,进行了一系列的微调操作。这包括使用几百到几千张特定的图像进行质量调优,以提高生成图像的视觉吸引力。
3、多模态训练: Emu不仅仅是一个单一的模型,它还与其他类型的生成模型(如像素扩散模型和遮罩生成变换器模型)进行了集成,以进一步提高生成质量。

性能评估:

相对于其仅预训练的对应项,Emu 达到了 82.9% 的胜率。与最先进的 SDXLv1.0 相比,Emu 在视觉吸引力方面被优选了 68.4% 和 71.3% 的时间。

Emu表现出色,不仅在生成高质量图像方面有优势,而且在多样性和准确性方面也表现得相当出色。这使得它成为一个非常有潜力的工具,可用于各种应用,从媒体和娱乐到科研和教育。

详细:https://ai.meta.com/research/publications/emu-enhancing-image-generation-models-using-photogenic-needles-in-a-haystack/
论文:https://scontent-xsp1-1.xx.fbcdn.net/v/t39.2365-6/1

作者照片
发布日期:
作者: Tarogo Cloud

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读