开源项目

Power-over-Skin “皮肤供电”技术

现代计算设备功能强大且小巧,可以轻松佩戴在身体上。然而,电池成为设计和用户体验的主要障碍,增加了设备的重量和体积,并且需要定期充电和移除设备。

为了解决这些问题,卡内基梅隆大学的研究人员提出了通过人体传输能量的“皮肤供电”技术。

強大的計算設備現在足夠小,可以輕鬆佩戴在身上。然而,電池造成了主要的設計和使用者體驗障礙

PDF2Audio

将 PDF 文件转换为播客、讲座、摘要等音频内容

PDF2Audio 是一个开源项目,旨在将 PDF 文件转换为音频格式,如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音(TTS)转换。用户可以上传多个 PDF 文件,并根据不同的模板(例如播客、讲座、摘要)生成音频内容。

几个AI项目介绍

项目简介:一个基于VITS的简单易用的变声框架,可以帮助用户在10分钟以内用自己的语音数据训练出高质量的语音转换(VC)模型。
支持不同硬件设备,提供简单的网页界面和实时变声功能,适用于各类音色转换与合成应用。

Ehrrapy 一种用于分析复杂健康数据的新开源工具

科学家们开发了一种易于使用的软件解决方案,专门用于分析复杂的医疗健康数据。名为“ehrapy”的开源软件使研究人员能够构建和系统地检查大型异构数据集。该软件可供全球科学界使用和进一步开发。
主要开发者之一、慕尼黑亥姆霍兹计算生物学研究所和慕尼黑工业大学 (TUM) 的科学家 Lukas Heumos

WechatFerry:一个开源微信机器人框架

助你轻松开发微信聊天机器人
WechatFerry 是一个微信机器人框架,提供了一套强大、快速且可定制的解决方案,适用于开发和集成微信机器人。为开发微信机器人的用户提供了 SDK 封装和多种插件,能够轻松调用微信的相关功能,适用于需要与微信进行交互的自动化任务。此项目包含多个组件和插件模块

AI视频剪辑软件:Kurisu

AI视频剪辑

一个靠口头描述来转换文件格式的程序。

字面意思,就是口述。

例如,你拖动或者上传了一份mp4,然后你只需在输入框内描述你想干的内容。 像是“转成webm”“只保留视频第10秒到20秒之间的内容”“提取音频文件”“将视频倒放”这类。 然后点击按钮们等待进度条完成就行。 运用了ChatGPT和FFmpeg的对接。

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译,专注于行对行翻译,特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理,优化了令牌使用,确保输入和输出行数一致。支持Web UI和CLI接口,提供流式输出、请求速率限制、进度恢复等功能,适用于多种语言和特殊书写形式,如表情符号和单词打乱排序。

软件:Midjourney Proxy

一个开源项目,旨在代理Midjourney的Discord频道,通过API形式调用AI绘图,提供免费的绘图接口。
支持多账号配置,每个账号可设置任务队列,并提供不同的生成速度模式(RELAX、FAST、TURBO)

RoboflowSports :跟踪检测和识别运动员行为

RoboflowSports是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象,为体育数据分析提供了强大的工具。

它能识别并分割图像中的不同对象,例如运动员和足球,提供更精细的图像分析。通过精确的对象检测和图像分割技术,提供更高精度的体育数据分析,帮助教练和分析师更好地了解比赛情况和运动员表现。

SpeechGPT2:一个端到端的语音对话语言模型

它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

一个开源项目:AI相册

相册AI是一个实验项目,使用最近发布的gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据。然后,它利用 RAG 技术来实现与专辑的对话。

它可以用作传统相册,也可以用作图像知识库来辅助LLM进行内容生成。

LibreChat:一个免费的开源 ChatGPT 克隆版

LibreChat是一个免费的开源ChatGPT克隆版,用户可以在一个界面中选择使用不同的AI模型。它支持与OpenAI、Azure、Anthropic和Google等AI模型服务的集成。用户甚至可以在对话中切换AI模型,并使用DALL-E或Stable Diffusion等插件进行图像生成。