AI项目

StoryDiffusion 这个字节的新项目表现很好

能够生成细节丰富、内容多样的图像和视频,同时保持角色身份和服饰的一致性。

可以帮助生成长篇漫画或者带连续剧情的视频。

与IP-Adapter和PhotoMaker等方法相比,StoryDiffusion在保持角色一致性的同时,还能更好地控制文本提示,生成与描述更匹配的图像和视频。

AI项目, 开源项目

LGM:生成高质量3D模型

支持文字生成模型、图片生成模型,分辨率512×512,5秒内即可生成。

3D内容创作在质量和速度方面都取得了显着进步。尽管当前的前馈模型可以在几秒钟内生成 3D 对象,但其分辨率受到训练期间所需的密集计算的限制。在本文中,介绍了大型多视图高斯模型 (LGM),这是一种新颖的框架,旨在从文本提示或单视图图像生成高分辨率 3D 模型。

AI项目, 多媒体处理

自动将你的网页内容转换为播客

Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音

只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。

您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs 语音自动生成的这篇文章的旁白。我们将这种嵌入式语音播放器称为“Audio Native”。

AI项目

Apple 宣佈將推出全新輔助使用功能

包括「眼動追蹤」、「音樂觸覺」和「聲音捷徑」

Apple 今日宣佈將於今年稍晚推出全新輔助使用功能,包括「眼動追蹤」,一種讓身體障礙使用者只用眼睛即可控制 iPad 和 iPhone 的方式。此外,「音樂觸覺」將為聾人與聽力障礙使用者提供一種用 iPhone 觸感引擎體驗音樂的新方式;「聲音捷徑」將讓使用者能藉由發出自訂聲音來執行任務;「車輛移動提

AI项目, MicroSoft

关注 Copilot + PC

Copilot+ PC 是迄今为止最快、最智能的 Windows PC。凭借强大的新型芯片,能够实现令人难以置信的 40+ TOPS(每秒万亿次操作)、全天的电池寿命以及对最先进人工智能模型的访问,Copilot+ PC 将使您能够完成任何其他 PC 上无法完成的事情。通过 Recall 轻松查找并记住您在 PC 中看到的内容,使用 Cocreator 直接在设备上近乎实时地生成和优化 AI 图像,并通过实时字幕消除语言障碍,将 40 多种语言的音频翻译成英语。

AI项目

装备了AI瞄准步枪的机器狗

配备人工智能瞄准步枪的机器狗接受美国海军陆战队特种部队评估
正在接受审查的四足动物具有自动瞄准系统,但需要人工监督才能开火。

据战区报道,美国海军陆战队特种作战司令部 (MARSOC) 目前正在评估 Ghost Robotics 开发的新一代机器人“狗”,该机器人“狗”有可能配备国防科技公司 Onyx Industries 的枪支系统。

AI项目

FAIR 的新研究:通过多标记预测更好更快的大型语言模型

Meta AI 重新介绍了一下他们的新论文,通过一次预测多个词汇来加速 LLM 的训练。

通常语言模型都是根据已知词汇预测下一个词。而这篇论文提出每次预测接下来的多个词,而不仅仅是一个词。

这种方法可以在不增加训练时间的情况下,提高代码和自然语言模型在下游任务上的能力。对于规模更大的模型,这种改进效果更加明显。

Adobe, AI项目

Adobe 的新工具: Project Neo

通过3D技术,Project Neo能够为原本平面的2D图像添加立体效果。

能够快速的为图标、动画插图创建独特的3D形状。

通过简单的操作,你可以在几分钟内完成图标、插图设计,极大地提高了工作效率。

Project Neo与Adobe的桌面和网络应用程序无缝集成,支持无缝导出高质量的SVG文件和像素完美的图像。

AI项目, 开源项目

PhysDreamer:由多所大学合作开发

PhysDreamer:由多所大学(包括麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学)合作开发。

真实的对象交互对于创建沉浸式虚拟体验至关重要,但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同,动作条件动力学需要感知对象的物理材料属性,并将 3D 运动预测建立在这些属性(例如对象刚度)的基础上。

滚动至顶部