Archax:是一款搭乘操作型机器人

通过驾驶舱进行直接操控,用户可以打开舱盖,进入驾驶舱,与机器人合为一体进行操控。 26个关节自由度,有机器人 / 车辆两种模式。 驾驶舱内部设有四面显示屏,用于显示机器人外部的摄像头画面。

AutoMathext:一个200GB的数学文本数据集

数据集包含来自不同来源的数据,如arXiv的科学论文、编程代码片段以及网页数据,数据已经经过特定的过滤和处理,以适应数学推理、推理训练和微调等多种应用场景。 支持文本生成和问答等任务,特别适合用于开发和测试能够理解和生成数学相关内容的模型。

多模态 LLM 的进展

过去几周,多模态 LLMs(MM-LLMs)研究论文激增。 在这些出版物中,有一份不错的综合调查报告,总结了现有的 26 种 MM-LLMs 。

Anything in Any Scene:在现有动态视频中无缝插入任何物体

1、物体的准确放置:确保新插入的物体在视频中的位置看起来自然、合理,与视频场景的其他元素和空间布局协调一致。 2、光照和阴影的真实模拟:通过分析和模拟视频中的光照条件及其对物体的影响,生成看起来自然的阴影和光照效果,增强物体与环境的整合度。...

一场耗资100万美元的竞赛

旨在从公元 79 年维苏威火山喷发埋藏的烧焦卷轴扫描件中提取文本。 获胜的人工智能算法揭示了超过 2,000 个可读字符!

MLBlocks:无代码AI图像生成和分析工作流平台

它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。 你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。 该工具主要解决在电商领域遇到的批量处理图片问题。

ElevenLabs 推出了自己的官方GPTs

通过你的提示生成有声读物 提供在线链接,帮你朗读在线文章 上传的任何文档内容,帮你转换成语音 粘贴或输入任何内容转换为语音

Glif StyleHunter:一个Chrome浏览器扩展

只需右键点击图像并输入你的提示词,就能将该图像风格直接应用到你想要创造的新图像上,无论是模仿那个风格,还是将其与其他风格结合创造出全新的作品。

谷歌在Bard谷歌地图和Imagen-2升级

谷歌在Bard谷歌地图和Imagen-2升级,亚马逊推出了人工智能购物助手“Rufus” 此外,亚马逊、Sam Altman、佐治亚理工学院、Meta、Arc 和 Anthropic 在人工智能方面取得了巨大进展。

Midjourney发布了Niji-v6

在创作疯狂的动漫图像和视频 在 Midjourney V6 中测试了新的 Niji 风格,并使用 Domo AI 对其进行了动画处理。 动漫武士超级英雄和恶棍! 使用 @runwayml #AI 视频工具和 Midjourney 新发布的 Niji v6 创建。