分类: AI行业应用

PixVerse 发布V2版本视频模型

升级版的PixVerse V2,不光能生成8秒的视频,还能让你的创意天花乱坠。 别以为8秒就敷衍了事。这V2可是个细节控,分辨率、动态效果都跟打了鸡血似的。 就连蚂蚁打喷嚏,它都能给你拍得清清楚楚。

Exa AI:真正的AI搜索引擎

一个AI搜索引擎诞生:Exa AI。该公司最近宣布获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。 与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。

AudioNotes:音视频内容转笔记系统

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容,并通过调用大模型进行整理,将这些内容转换为结构化的Markdown笔记,便于用户快速阅读和理解。

ElevenLabs 发布Turbo 2.5模型

该模型支持包括普通话在内的 32 种语言,能为全球近 80%的地区提供高质量、低延迟的 AI 对话; 首次支持越南语、匈牙利语和挪威语; 重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度,其中英语速度提高了 25%,最高提升达 3 倍;...

DETECT-2B :音频深度伪造检测工具

etect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分,而且无需每次听到新片段时都重新训练模型。这些子模型

StreamVC: 实时低延迟语音转换

StreamVC 即使在移动平台上也能以低延迟从输入信号生成结果波形,使其适用于呼叫和视频会议等实时通信场景,并解决这些场景中的语音匿名等用例。 谷歌的设计利用 SoundStream 神经音频编解码器的架构和训练策略来实现轻量级高质量语音合成。...

Stability AI推出Stable Assistant两大新功能

Stability AI宣布为其用户友好型聊天机器人Stable Assistant推出两项创新功能,进一步提升用户体验和创造力。这两项新功能分别是图片编辑中的搜索和替换,以及通过Stable Audio生成高质量音频。

Kyutai 发布全新的开源 AI语音助手 Moshi

法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi,被视为GPT-4的新挑战者。此次在巴黎的演示显示,Moshi不仅具备多模态交互能力,还能实时生成具有情绪变化的语音,开创性地实现了语音AI的全新应用。

LobeChat:一键免费部署自己的私有聊天机器人

LobeChat 已经支持 OpenAI 最新的 gpt-4-vision 支持视觉识别的模型,这是一个具备视觉识别能力的多模态智能。 用户可以轻松上传图片或者拖拽图片到对话框中,助手将能够识别图片内容,并在此基础上进行智能对话,构建更智能、更多元化的聊天场景。

EmoLLM :一个用于心理健康领域的大模型项目

EmoLLM 是一个用于心理健康领域的大模型项目,通过对大型语言模型(LLM)进行指令微调,旨在支持用户理解、帮助用户进行心理健康辅导。 帮助用户理解和管理情绪 改善行为模式和应对策略 提供心理健康评估和干预措施

Clone Robotics:仿生机器人的公司

Clone(克隆)所言,成立于 2021 年的 Clone 是一家致力于开发低成本、生物仿生和智能仿生机器人的公司。 Clone 的宗旨是运用先进的肌肉骨骼技术,打造类似于《西部世界》中的仿生机器人。 在近期的宣传物料中,1:1...

退出移动版