Claude3最新已经上线AWS

他们声称比 gpt-4 更好。所以Ruben做了4个测试:

原作者:@RubenHssd

测试 #1 → 复制网站的 UI
测试 #2 → 写一篇 Linkedin 帖子
测试 #3 → 测试他们的 PDF 愿景
测试 #4→ 大型营销提示

测试1:复制UI

测试2:写一篇 Linkedin 帖子

这篇文章是关于区块链+版税的未来。

Claude 3:

有趣的任务。
比平时更长。
没有标题格式。

GPT-4:

我真的很讨厌他们的表情符号。
这么长,太疯狂了。
感觉我的主题更加完整。

测试3:测试他们的 PDF 能力

这里实际上是平局。
PDF 的技术性很强,包含可以从图像中检索的设计、图表和文本。
但是,如果我必须给一个人颁发奖牌,它仍然是 ChatGPT,因为它稍微更详细一些。

以上就是全部,原作者:@RubenHssd

Anthropic太牛了。Claude-3 发布的两件事:

  1. 领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点,这样不同的下游应用程序就会知道该期待什么。

  2. 拒绝率分析。LLMs'对无辜问题过于谨慎的回答正在成为一种流行病。Anthropic 通常处于极端安全的一端,但他们认识到了这个问题,并强调了他们在这方面的努力。好极了!

AWS已经上线:
https://aws.amazon.com/cn/blogs/china/anthropics-claude-3-haiku-model-is-now-available-in-amazon-bedrock/

新视频:https://youtu.be/lI7bY9Y70U0

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读