分类: AI项目

OpenAI Sora的新文本到视频模型

Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。 如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶。它必须如此!

NVIDIA发布一个可以运行在PC上本地模型:Chat With RTX

该模型可以与你自己的内容(文档、笔记、视频或其他数据)相连接, 利用检索增强生成(RAG)、TensorRT-LLM和RTX加速技术,用户可以个性化地创建一个聊天机器人。 快速获得上下文相关的答案。所有操作均在用户本地完成! 它专为搭载NVIDIA...

OS-Copilot:能够与操作系统(OS)进行交互

完成一系列广泛且复杂的计算机任务的智能代理框架。 它能够自我学习和改进,处理各种操作系统级别的任务。 包括但不限于文件管理、数据处理、环境设置、多媒体操作、网页浏览、代码编写、第三方应用交互、自动化测试等。 该项目由上海AI实验室、华东师范大学、普林斯顿大学和香港大学的研究人员共同开发。

1X’s :神经网络视觉端到端学习机器人

该机器人能够完全独立地执行任务,无需人类远程操控或通过预设脚本。 所有动作都是实时通过神经网络计算得出。 机器人基于视觉的端到端神经网络直接从图像中学习如何控制其动作,包括驾驶、操纵手臂和抓取器、控制躯干和头部等。

AzureOpenAIService宣布了一系列新功能

包括公开预览的Assistants API、新的文本到语音(TTS)功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。 与之前的聊天完成API相比,Assistants API能够记住之前的对话内容,创建持久化和无限长的线程。 ...

Vercel将9个AI集成到了一起

Vercel为AI应用提供了丰富的产品基础设施,从增强客户服务流程的聊天机器人到带有语义搜索的推荐系统、检索增强生成(RAG)和生成图像服务... 为了让这一切更加简单,Vercel还

谷歌BARD更新为Gemini Ultra

注册时可以选择退出训练数据 Gemini Ultra 中 Imagen 2 生成的所有图像都应用了数字水印(但你看不到它) Ultra 比 Gemini Pro 更能胜任复杂任务,例如编码、逻辑推理以及遵循更长/更详细的指令。

Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

提高了长格式音频的生成效率,克服了固定大小输出的限制,允许生成可变长度的音频。 通过潜在扩散模型和时间条件化,实现了对生成音频长度的精细控制,同时保持了计算效率。

Archax:是一款搭乘操作型机器人

通过驾驶舱进行直接操控,用户可以打开舱盖,进入驾驶舱,与机器人合为一体进行操控。 26个关节自由度,有机器人 / 车辆两种模式。 驾驶舱内部设有四面显示屏,用于显示机器人外部的摄像头画面。

AutoMathext:一个200GB的数学文本数据集

数据集包含来自不同来源的数据,如arXiv的科学论文、编程代码片段以及网页数据,数据已经经过特定的过滤和处理,以适应数学推理、推理训练和微调等多种应用场景。 支持文本生成和问答等任务,特别适合用于开发和测试能够理解和生成数学相关内容的模型。

多模态 LLM 的进展

过去几周,多模态 LLMs(MM-LLMs)研究论文激增。 在这些出版物中,有一份不错的综合调查报告,总结了现有的 26 种 MM-LLMs 。

Anything in Any Scene:在现有动态视频中无缝插入任何物体

1、物体的准确放置:确保新插入的物体在视频中的位置看起来自然、合理,与视频场景的其他元素和空间布局协调一致。 2、光照和阴影的真实模拟:通过分析和模拟视频中的光照条件及其对物体的影响,生成看起来自然的阴影和光照效果,增强物体与环境的整合度。...