旨在从公元 79 年维苏威火山喷发埋藏的烧焦卷轴扫描件中提取文本。 获胜的人工智能算法揭示了超过 2,000 个可读字符!
分类: AI项目
MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型
模型有1.2亿个参数,经过了10万小时的语音数据训练。 专注英语情感演讲 跨语言语音克隆 支持美国和英国声音的零样本克隆 支持长篇内容语音合成
MLBlocks:无代码AI图像生成和分析工作流平台
它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。 你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。 该工具主要解决在电商领域遇到的批量处理图片问题。
ElevenLabs 推出了自己的官方GPTs
通过你的提示生成有声读物 提供在线链接,帮你朗读在线文章 上传的任何文档内容,帮你转换成语音 粘贴或输入任何内容转换为语音
Stable Video 处理图像运动能力效果演示
可以看出Stable Video在处理动作场景,尤其是当视频中包含跑步者、汽车或舞者等动态元素时,能力惊人
谷歌在Bard谷歌地图和Imagen-2升级
谷歌在Bard谷歌地图和Imagen-2升级,亚马逊推出了人工智能购物助手“Rufus” 此外,亚马逊、Sam Altman、佐治亚理工学院、Meta、Arc 和 Anthropic 在人工智能方面取得了巨大进展。
Midjourney发布了Niji-v6
在创作疯狂的动漫图像和视频 在 Midjourney V6 中测试了新的 Niji 风格,并使用 Domo AI 对其进行了动画处理。 动漫武士超级英雄和恶棍! 使用 @runwayml #AI 视频工具和 Midjourney 新发布的 Niji v6 创建。
@MultiOn_AI 是一个很牛X的AI代理
可以利用GPT访问网络,订机票、订酒店、订外卖...访问各种网站模拟人类操作。
AppleVisionPro的数款新应用:
1/ @seasons_app 2/ 苹果音乐 3/ JigSpace app
Media2Face:通过语音合成3D面部画面
Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。 同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。 它还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。
机器人技术即将迎来它的ChatGPT时刻
机器人初创公司@Figure_robot 发布了一段视频 他们家的Figure-01机器人现在可以自己煮咖啡了 这是一个使用了端到端的人工智能系统,仅通过观察人类制作咖啡的录像,10小时内学会了制作咖啡的技能。
OpenAI 和微软正在洽谈支持人形机器人公司Figure
报道披露了 OpenAI 和微软与人形机器人公司 Figure 的融资谈判。 此轮融资对Figure的估值接近$2B。
Meta发布最新编程辅助模型:CodeLlama70B
CodeLlama-70B-Instruct 在 HumanEval 上获得 67.8 分,使其成为当今性能最高的开放模型之一。 Code Llama 70B分为三个版本: CodeLlama - 70B,基础代码模型; CodeLlama - 70B -...
马斯克人机接口 Neuralink 相关视频
想象一下,仅凭你的思维就能与亲人交流、上网浏览、甚至玩游戏的愉悦体验。 这一切,得益于在你大脑负责规划动作的区域植入一个既微小又不易察觉的装置。
今年人工智能基础设施将分为两个市场:LLM 与扩散模型
预测:今年人工智能基础设施将分为两个市场:LLM 与扩散模型。 为创意市场提供动力的开发者工具将会出现巨大的增长。
TeslaRoadster虚拟体验
很有趣地生成了虚拟 #tesla 体验的标题屏幕。你想跳进去吗?!