Eureka 弥合了高级推理(编码)和低级运动控制之间的差距。它是一种“混合梯度架构”:一个黑盒,仅推理 LLM 指示一个白盒,可学习的神经网络。外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。
作者: Tarogo Cloud
StoryDiffusion 这个字节的新项目表现很好
能够生成细节丰富、内容多样的图像和视频,同时保持角色身份和服饰的一致性。 可以帮助生成长篇漫画或者带连续剧情的视频。 与IP-Adapter和PhotoMaker等方法相比,StoryDiffusion在保持角色一致性的同时,还能更好地控制文本提示,生成与描述更匹配的图像和视频。
Supertone Shift:实时语音变换器
可以将你直播说话时候的声音变声其他各种角色和性别的声音。 还能调整音调、音调动态和混响等参数,塑造个性化的声音。 也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。
LGM:生成高质量3D模型
支持文字生成模型、图片生成模型,分辨率512x512,5秒内即可生成。 3D内容创作在质量和速度方面都取得了显着进步。尽管当前的前馈模型可以在几秒钟内生成 3D 对象,但其分辨率受到训练期间所需的密集计算的限制。在本文中,介绍了大型多视图高斯模型...
自动将你的网页内容转换为播客
Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音 只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。 您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs...
Apple 宣佈將推出全新輔助使用功能
包括「眼動追蹤」、「音樂觸覺」和「聲音捷徑」 Apple 今日宣佈將於今年稍晚推出全新輔助使用功能,包括「眼動追蹤」,一種讓身體障礙使用者只用眼睛即可控制 iPad 和 iPhone 的方式。此外,「音樂觸覺」將為聾人與聽力障礙使用者提供一種用 iPhone...
关注 Copilot + PC
Copilot+ PC 是迄今为止最快、最智能的 Windows PC。凭借强大的新型芯片,能够实现令人难以置信的 40+ TOPS(每秒万亿次操作)、全天的电池寿命以及对最先进人工智能模型的访问,Copilot+ PC 将使您能够完成任何其他 PC 上无法完成的事情。通过 Recall...
装备了AI瞄准步枪的机器狗
配备人工智能瞄准步枪的机器狗接受美国海军陆战队特种部队评估 正在接受审查的四足动物具有自动瞄准系统,但需要人工监督才能开火。 据战区报道,美国海军陆战队特种作战司令部 (MARSOC) 目前正在评估 Ghost Robotics 开发的新一代机器人“狗”,该机器人“狗”有可能配备国防科技公司...
FAIR 的新研究:通过多标记预测更好更快的大型语言模型
Meta AI 重新介绍了一下他们的新论文,通过一次预测多个词汇来加速 LLM 的训练。 通常语言模型都是根据已知词汇预测下一个词。而这篇论文提出每次预测接下来的多个词,而不仅仅是一个词。 ...
Interactive3D:用户可以直接通过交互操作指导3D模型生成
它提供了一种非常灵活的方式来创造和修改3D内容。你可以添加、移除组件来对模型进行各种组合,类似乐高搭建,还可进行可变形和刚性拖动等操作。 也可以通过文本控制。 而且用户交互的实时反馈,能够即时看到你的操作如何影响最终的效果。
Adobe 的新工具: Project Neo
通过3D技术,Project Neo能够为原本平面的2D图像添加立体效果。 能够快速的为图标、动画插图创建独特的3D形状。 通过简单的操作,你可以在几分钟内完成图标、插图设计,极大地提高了工作效率。 Project...
PhysDreamer:由多所大学合作开发
PhysDreamer:由多所大学(包括麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学)合作开发。 真实的对象交互对于创建沉浸式虚拟体验至关重要,但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同,动作条件动力学需要感知对象的物理材料属性,并将...
ZeST:从单个图像进行零次材料传输
ZeST(Zero-Shot Material Transfer)是一种基于零样本的方法 介绍 ZeST,这是一种零样本、免训练的方法,用于 (a) 图像到图像的材料传输。 (b) ZeST 可以轻松扩展以在单个图像中执行多种材质编辑
Jina-ai Reader:将任何网页URL转换成对大语言模型友好的输入格式
只需要输入任意URL,Jina-ai/Reader就能格式化和清理URL里的内容,确保LLM接收到的输入更加规范和易于处理。 操作非常简单,只需要在任意URL前+前缀 https: //r.jina.ai/ 即可实现转换,并且以流式方式处理数据
Google使用Gemini 让Android 开发更快、更简单
Android Studio提供了一站式解决方案,集成了代码编辑、编译、调试和测试的工具,减少了开发者在不同工具间切换的需要。 支持自动编写代码、语法高亮和代码重构
Mutable AI:将你的GitHub代码库自动转成维基文档
他可以将代码库转化为类似维基百科的文章,使得非专业人士也能理解复杂的代码结构。 而且当源代码发生变化或用户通过指令更新时,文档会自动刷新,确保实时性。