IT/AI知识库: 跟踪最新的IT/AI类资讯

ChatGPT代码库进行了一些变动

与英语语言/翻译文件、图像生成样式图像、工作区设置.groups、ReadAloud / AudioPlayer等相关的一些内容发生了更改!

ChatGPT 数据分析 V2 显然使用了名为“gpt-4-ada-v2”(高级数据分析 V2)的新 GPT-4 模型。

StabilityAI推出图像提升增强工具:CreativeUpscaler

1、分辨率提升:将图像升级到4K分辨率,无论原始图像的大小如何。
2、细节创造:不仅放大图像,还能“幻想”出原始图像中不存在的新细节,通过结合输入图像与文本提示,创造出清晰、高质量的图像效果。
3、创造力调整:用户可以调整创造力水平,让AI在保持接近原始图像的基础上,创造出更多或更少的新细节。高创造力设置允许升级器创造出原本不存在的新细节。

YOLO-World&EfficientSAM&Stable Diffusion 能干啥?

实时检测视频中的特定对象,然后分割对象,使用自然语言来对特定的对象进行替换、修改、风格化等!
是不是很熟悉?科幻片里面的场景就实现了!
这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改,甚至换掉视频中的某个人物。

AEA 数据集:由Meta团队开发

一个基于 Project Aria AR眼镜记录的第一人称多模态开放数据集。

它包含了143个由多个佩戴者在五个地理位置记录的日常活动序列。
这些记录包含了通过Project Aria眼镜记录的多模态传感器数据,同时还提供了机器感知数据。
包括高频全球对齐的3D轨迹、场景点云、 每帧的3D眼动向量和时间对齐的语音转写。
提供了丰富的多模态感知信息和先进的机器感知输出,为 AI 和 AR 研究提供支持。

YOLOv8:目标检测跟踪模型

YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。
除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。

UMI:斯坦福开发的一个机器人数据收集和策略学习框架

UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。
也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务
UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。

Google的一个新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。
不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从视频中生成音频。
一条龙服务…
例如,VideoPoet 可以根据文本描述生成视频,或者将一张静态图片转换成动态视频。它还能理解和生成音频,甚至是编写用于视频处理的代码。

如何早期识别阿尔茨海默症

生活中的老年人经常有这样的经历,出门后总想不起来自己有没有锁门,有些东西每天都在用却想不起来它叫什么,甚至有时候会忘记了回家的路……小心,这些可能都是阿尔茨海默症(AD)的征兆,它就好比脑海中的“橡皮擦”,会将记忆一点点擦除,严重威胁老年人健康。

OpenAI推出的一音乐生成模型:Jukebox

OpenAI在2019年8月份就推出了他们的一音乐生成模型:Jukebox
Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。

最牛P的是,3年前的质量就已经这样了…

而且据说Jukebox 2即将发布