它可以通过文本提示将数学、物理问题转换成视频内容 它会自动生成包括图表、图示、动画原理,还包含讲解内容的2分钟左右的视频。 能非常直观的帮助你了解一些知识和原理。
最新文章
创建最佳Claude3提示的代理
生成许多可能的提示 在排名锦标赛中测试他们 返回最好的一个
Arc浏览器的Windows版本
终于更新了同步功能,这下Windows版本可以当成主力使用了。 现在还能设置Windows版本用云母还是亚克力材质的背景。
可以直接通过文字描述让任何静态图动起来
而且能做各种动作,跳舞什么的都是小case... 最牛P的是,他们的模型能能理解真实世界的物理运动原理,所以出来的视频很真实。 不仅如此,它还能直接文字生成视频,进行各种角色混合和动作替换...
适用于任何分辨率特征的模型无关框架
深层特征是计算机视觉研究的基石,它捕获图像语义并使社区即使在零样本或少样本情况下也能够解决下游任务。 然而,这些功能通常缺乏空间分辨率来直接执行分割和深度预测等密集预测任务,因为模型会积极地池化大区域的信息。
Creatie这个AI-UI设计工具
有点强啊,做的相当完整,基本上可以当做一个加上了 AI 功能的 FIgma。 而且全部都是免费的,AI 能力也很强,选择区域输入需求直接就会展示对应备选的组件,你可以自己拼装和修改,还能使用自己的设计系统。
令人兴奋的新研究警报-𝐏𝐢𝐱𝟐𝐏𝐢𝐱-𝐓𝐮𝐫𝐛𝐨
这些条件 GAN 能够采用文本到图像模型(例如 SD-Turbo),通过一步(A100 上为 0.11 秒,A6000 上为 0.29 秒)进行配对和不配对图像转换。尝试我们的代码和 @Gradio 演示。
Open-Sora开源了
包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。 该项目由@YangYou1991 团队开发 这是 OpenAI Sora 在视频生成方面的开源替代方案。 可以在仅仅3天的训练后生成2~5秒的512x512视频。
2024年的不容错过的课程
使用Python介绍计算机科学和编程。 Python机器学习 计算思维和数据科学导论。
OpenRouter:大语言模型“路由器”
Openrouter提供了一个统一的接口,通过这个接口,你可以直接访问和使用几十种AI模型 你可以使用这个接口对各种模型进行测试和比价,选择最适合自己的,避免了东奔西跑
基于真实果蝇行为训练的人工智能模型
通过结合解剖学精确的模型、物理模拟器和基于真实果蝇行为训练的人工智能模型 @HHMIJanelia 和 @GoogleDeepMind 的科学家创造了一种计算机化昆虫,它能够像真实果蝇一样,在复杂的轨迹上行走和飞行。
3D视觉-语言-动作生成世界模型
最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入,缺乏与更广泛的 3D 物理世界领域的集成。此外,他们通过学习直接映射来执行动作预测
Maisa推出的一种新型技术框架:KPU
通过将推理与数据处理分开,优化和提升了大语言模型处理复杂任务的能力。 使用KPU后,在多个基准测试和推理任务中GPT-4 、Claude 3 Opus等模型等能力得到大幅提升,都超越了没有使用KPU的原模型本身!
Claude 3 Haiku API发布
速度最快最有性价比的型号 每百万输入token0.25美元,每百万输出token1.25美元。
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目 VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频
DexCap开源版经济版的Optimus
成本大约 $3,600,可以用来记录真人手指的动作来训练机器人进行灵活的操作。 并且不是遥控操作,它有一对特制的手套,通过各种传感器捕捉手部运动的精确数据。与传统基于视觉的运动捕捉技术相比,这些手套不会因为视线遮挡而失效,更适合在日常活动中使用。