一个开源的多模态大语言模型,旨在实现实时的视觉和语音交互。 能够同时处理视频、图像、文本和音频数据,通过减少交互延迟、增强语音处理能力和改进多模态理解,达到了接近GPT-4o的水平。 顯著降低交互延遲。
分类: 开源项目
帶有微型攝影機的智慧環讓用戶透過點擊來控製家庭設備
雖然家庭中的智慧型設備已經發展到包括揚聲器、安全系統、燈光和恆溫器,但控制它們的方式仍然相對穩定。用戶可以與手機交互,或與技術人員交談,但這些通常不如它們所取代的簡單開關方便:“打開燈…不是那個…調高揚聲器音量…不要那麼大聲!” 華盛頓大學的研究人員開發了 IRIS
Ebook2Audiobook开源项目
将电子书自动转换为有声书 支持语音克隆、多种语言 ebook2audiobookXTTS 是一个开源项目,旨在将电子书自动转换为有声书,并支持多种语言、语音克隆和章节信息的生成。该项目结合了 Calibre(电子书转换工具)和 Coqui...
开源应用为Win11用户带来于苹果AI的写作功能
一款名为Writing Tools的开源应用为Windows 11用户带来了类似Apple...
一款开源的AI试衣模型,能够精确操控人物的外观和姿势
可控人物影像產生旨在產生以參考影像為條件的人物影像,從而允許精確控制人物的外觀或姿勢。然而,現有方法儘管實現了較高的整體影像質量,但通常會扭曲參考影像的細粒度紋理細節。我們將這些扭曲歸因於對參考影像中相應區域的關注不夠
智音语音助手:一款通用型智能电脑管家
智音语音助手(Zhiyin_Butler)旨在开发一款通用型智能电脑管家,支持在桌面电脑Windows 10/11系统上安装和部署。项目的所有内容遵循Apache License 2.0开源协议,作为通用型电脑管家系统示例供开发者参考学习。
国行Apple设备在iOS 18.2使用苹果AI
提示:本文内容需要刷机,风险比较高,注意刷机的风险 1.通过链接下载 Nugget(需要自签ipa) 2.电脑需要下载 Jitterbugpair 3.下载Nugget IPA文件后使用 签名工具签名安装IPA道设备,然后前往设置-通用-VPN与设备管理-信任你自己的签名证书
Ultralight-Digital-Human数字人模型
支持在移动设备上实时运行的超轻量级数字人模型 Ultralight-Digital-Human 是一个创新的开源项目,使得数字人在移动设备上的实时应用成为可能,旨在实现超轻量级的数字人模型,其能够在移动设备上实时运行。 支持在移动设备上实时运行的超轻量级数字人模型 提供了详细的训练和推理步骤
SynthID:识别AI生成的内容
SynthID 使用各种深度学习模型和算法进行水印嵌入和识别,在不影响原始内容质量的前提下,帮助用户确定内容是否由 Google 的 AI 工具生成,并已集成到 Imagen、ImageFX、Gemini 等 Google 产品中
Claude iOS 和 Android App 迎来新界面
新增分析工具,支持编写和运行JavaScript代码以处理和分析CSV文件数据 Anthropic 今日上线了全新的 Claude AI 内置工具,可以编写和运行 JavaScript 代码,处理数据、进行分析并生成洞察。
Power-over-Skin “皮肤供电”技术
现代计算设备功能强大且小巧,可以轻松佩戴在身体上。然而,电池成为设计和用户体验的主要障碍,增加了设备的重量和体积,并且需要定期充电和移除设备。 为了解决这些问题,卡内基梅隆大学的研究人员提出了通过人体传输能量的“皮肤供电”技术。 ...
几个开源AI项目一览
Ebook2Audiobook开源项目 将电子书自动转换为有声书 支持语音克隆、多种语言 Hertz-dev:首个会话音频开源模型 小宾AI抠图 AI 头像动起来
PDF2Audio
将 PDF 文件转换为播客、讲座、摘要等音频内容 PDF2Audio 是一个开源项目,旨在将 PDF 文件转换为音频格式,如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音(TTS)转换。用户可以上传多个 PDF...
几个AI项目介绍
项目简介:一个基于VITS的简单易用的变声框架,可以帮助用户在10分钟以内用自己的语音数据训练出高质量的语音转换(VC)模型。 支持不同硬件设备,提供简单的网页界面和实时变声功能,适用于各类音色转换与合成应用。
Ehrrapy 一种用于分析复杂健康数据的新开源工具
科学家们开发了一种易于使用的软件解决方案,专门用于分析复杂的医疗健康数据。名为“ehrapy”的开源软件使研究人员能够构建和系统地检查大型异构数据集。该软件可供全球科学界使用和进一步开发。 主要开发者之一、慕尼黑亥姆霍兹计算生物学研究所和慕尼黑工业大学 (TUM) 的科学家 Lukas Heumos
WechatFerry:一个开源微信机器人框架
助你轻松开发微信聊天机器人 WechatFerry 是一个微信机器人框架,提供了一套强大、快速且可定制的解决方案,适用于开发和集成微信机器人。为开发微信机器人的用户提供了 SDK 封装和多种插件,能够轻松调用微信的相关功能,适用于需要与微信进行交互的自动化任务。此项目包含多个组件和插件模块