Google宣布Gemini-1.5-Pro开放API
Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。
Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。
巴西的骨科医生Bruno Gobbato最近使用Vision Pro成功进行了肩袖撕裂的手术。这种手术通常是由于肌腱组织的长期磨损和撕裂造成的。
2023年9月美国空军取得全球首次的突破,他们成功使用一架改装的F-16战斗机(X-62)与一架有人驾驶的F-16战机进行了空中对抗。
随着 AI 的兴起,一家不太为人知的日本芯片设备公司 Towa 的股价惊人地飙升了 390%。SK Hynix 和三星等公司正依赖 Towa 的设备来生产高端内存芯片。Towa 还在研发新的工具,承诺将芯片成型成本削减一半。
统一 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate 等 100 多种 LLM 的 API 输入输出、异常处理和负载均衡等操作的开源项目
阿特拉斯一动不动地俯卧在互锁的健身垫上。唯一的配乐是电动机的呼呼声。确切地说,它并不安静,但与它祖先的液压冲击相比,这算不了什么。
上海人工智能实验室和 TapTap 的研究人员提出了线性注意序列并行 (LASP) 技术,该技术优化了线性 Transformer 上的序列并行性。它采用点对点 (P2P) 通信在节点内或节点间的 GPU 之间进行有效的状态交换。 LASP 最大限度地利用了线性注意力中的右积核技巧。重要的是,它不依赖于注意力头分区,使其适用于多头、多查询和分组查询注意力。
Morphic 只用 OpenAI 与搜索服务 @tavilyai 的 API 就能整得像模像样,换成 Gemini 与 Google Search 的 API 也一样能行。感觉 Perplexity 给大家带了 AI 时代的问答式搜索体验后,这种模式就会被大家学去强化自己的功能了
CT-LLM从头开始构建,与传统方法不同,它主要包含中文文本数据,利用了总量高达1200亿Token的庞大语料库,其中800亿是中文Token,300亿是英文Token,还有100亿是代码Token。
清华大学BNRist计算机科学与技术系的研究人员介绍了SPMamba,这是一种植根于SSM原理的新颖架构。通过引入平衡效率和效果的创新模型,围绕语音分离的讨论得到了丰富。 SSM 体现了这种平衡。通过巧妙地整合 CNN 和 RNN 的优势,SSM 满足了对能够在不影响性能的情况下高效处理长序列的模型的迫切需求。
VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。
同时展现出了与大语言模型观察到的类似Scaling laws的规律。
在ImageNet 256×256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍