包括公开预览的Assistants API、新的文本到语音(TTS)功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。 与之前的聊天完成API相比,Assistants API能够记住之前的对话内容,创建持久化和无限长的线程。 ...
分类: AI项目
Vercel将9个AI集成到了一起
Vercel为AI应用提供了丰富的产品基础设施,从增强客户服务流程的聊天机器人到带有语义搜索的推荐系统、检索增强生成(RAG)和生成图像服务... 为了让这一切更加简单,Vercel还
谷歌BARD更新为Gemini Ultra
注册时可以选择退出训练数据 Gemini Ultra 中 Imagen 2 生成的所有图像都应用了数字水印(但你看不到它) Ultra 比 Gemini Pro 更能胜任复杂任务,例如编码、逻辑推理以及遵循更长/更详细的指令。
Stability AI发布Stable Audio AudioSparx 1.0 音乐模型
提高了长格式音频的生成效率,克服了固定大小输出的限制,允许生成可变长度的音频。 通过潜在扩散模型和时间条件化,实现了对生成音频长度的精细控制,同时保持了计算效率。
Archax:是一款搭乘操作型机器人
通过驾驶舱进行直接操控,用户可以打开舱盖,进入驾驶舱,与机器人合为一体进行操控。 26个关节自由度,有机器人 / 车辆两种模式。 驾驶舱内部设有四面显示屏,用于显示机器人外部的摄像头画面。
YOLO-World:腾讯AI实验室开发的一个实时目标检测工具
它能够自动识别和定位图像中的各种对象 YOLO-World在速度和准确性方面都优于许多最先进的方法。 零样本检测能力,无需训练即可进行实时目标检测,即便某些物品之前没有见过。
研究人员正在帮助机器人变得敏捷、快速和安全
卡内基梅隆大学和苏黎世联邦理工学院的研究人员正在帮助机器人变得敏捷、快速和安全。 新框架允许以近 7 英里/小时的速度在杂乱的空间中导航而不会发生碰撞。
Gemini Ultra即将上线,Bard将更名为 Gemini
Google的Gemini Ultra模型将在2月7号上线,同时Google聊天机器人Bard将更名为Gemini。 Gemini将开启付费计划:Gemini Advanced
AutoMathext:一个200GB的数学文本数据集
数据集包含来自不同来源的数据,如arXiv的科学论文、编程代码片段以及网页数据,数据已经经过特定的过滤和处理,以适应数学推理、推理训练和微调等多种应用场景。 支持文本生成和问答等任务,特别适合用于开发和测试能够理解和生成数学相关内容的模型。
多模态 LLM 的进展
过去几周,多模态 LLMs(MM-LLMs)研究论文激增。 在这些出版物中,有一份不错的综合调查报告,总结了现有的 26 种 MM-LLMs 。
Anything in Any Scene:在现有动态视频中无缝插入任何物体
1、物体的准确放置:确保新插入的物体在视频中的位置看起来自然、合理,与视频场景的其他元素和空间布局协调一致。 2、光照和阴影的真实模拟:通过分析和模拟视频中的光照条件及其对物体的影响,生成看起来自然的阴影和光照效果,增强物体与环境的整合度。...
一场耗资100万美元的竞赛
旨在从公元 79 年维苏威火山喷发埋藏的烧焦卷轴扫描件中提取文本。 获胜的人工智能算法揭示了超过 2,000 个可读字符!
MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型
模型有1.2亿个参数,经过了10万小时的语音数据训练。 专注英语情感演讲 跨语言语音克隆 支持美国和英国声音的零样本克隆 支持长篇内容语音合成
MLBlocks:无代码AI图像生成和分析工作流平台
它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。 你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。 该工具主要解决在电商领域遇到的批量处理图片问题。
ElevenLabs 推出了自己的官方GPTs
通过你的提示生成有声读物 提供在线链接,帮你朗读在线文章 上传的任何文档内容,帮你转换成语音 粘贴或输入任何内容转换为语音
Stable Video 处理图像运动能力效果演示
可以看出Stable Video在处理动作场景,尤其是当视频中包含跑步者、汽车或舞者等动态元素时,能力惊人