Claude3最新已经上线AWS
他们声称比 gpt-4 更好。所以Ruben做了4个测试:
原作者:@RubenHssd
测试 #1 → 复制网站的 UI
测试 #2 → 写一篇 Linkedin 帖子
测试 #3 → 测试他们的 PDF 愿景
测试 #4→ 大型营销提示
测试1:复制UI
测试2:写一篇 Linkedin 帖子
这篇文章是关于区块链+版税的未来。
Claude 3:
有趣的任务。
比平时更长。
没有标题格式。
GPT-4:
我真的很讨厌他们的表情符号。
这么长,太疯狂了。
感觉我的主题更加完整。
测试3:测试他们的 PDF 能力
这里实际上是平局。
PDF 的技术性很强,包含可以从图像中检索的设计、图表和文本。
但是,如果我必须给一个人颁发奖牌,它仍然是 ChatGPT,因为它稍微更详细一些。
以上就是全部,原作者:@RubenHssd
Anthropic太牛了。Claude-3 发布的两件事:
-
领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点,这样不同的下游应用程序就会知道该期待什么。
-
拒绝率分析。LLMs'对无辜问题过于谨慎的回答正在成为一种流行病。Anthropic 通常处于极端安全的一端,但他们认识到了这个问题,并强调了他们在这方面的努力。好极了!
新视频:https://youtu.be/lI7bY9Y70U0
