将任何URL转换为带有简单前缀的LLM友好输入
您的LLMs值得更好的输入。
读者可以做两件事:
它将任何 URL 转换为 https://r.jina.ai/https://your.url 的 LLM 友好输入。免费提高代理和 RAG 系统的输出。
它使用 https://s.jina.ai/your+query 在网络上搜索给定的查询。这使您的LLMs能够从网络获取最新的世界知识。
现场演示:
或者只需访问这些网址 https://r.jina.ai/https://github.com/jina-ai/reader、https://s.jina.ai/Who%20will%20win%202024%20US%20presidential %20election%3F 看看你自己。
请随意在生产中使用 Reader API。它是免费、稳定且可扩展的。我们正在积极维护它作为吉纳人工智能的核心产品之一
使用 r.jina.ai 进行单个 URL 获取
只需在任意 URL 前面添加 https://r.jina.ai/ 即可。例如,要将 URL https://en.wikipedia.org/wiki/Artificial_intelligence 转换为 LLM 友好的输入,请使用以下 URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
该页面中缺少 alt 标签的所有图像都会由 VLM(视觉语言模型)自动添加标题,并格式化为 !(Image [idx]: [VLM_caption])[img_URL] 。这应该为您的下游纯文本 LLM 提供足够的提示,将这些图像包含到推理、选择和总结中。
使用 r.jina.ai 进行完整的网站抓取(Google Colab)
使用 s.jina.ai 进行网络搜索
只需将 https://s.jina.ai/ 添加到您的搜索查询即可。请注意,如果您在代码中使用它,请确保首先对您的搜索查询进行编码,例如如果您的查询是 Who will win 2024 US presidential election? 那么您的网址应如下所示:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
在幕后,Reader 搜索网络,获取前 5 个结果,访问每个 URL,并将 r.jina.ai 应用于它。这与代理/RAG 框架中的许多 web search function-calling 不同,后者通常仅返回搜索引擎 API 提供的标题、URL 和描述。如果您想更深入地阅读某个结果,则必须自己从该 URL 获取内容。使用 Reader, http://s.jina.ai 自动为您从前 5 个搜索结果 URL 中获取内容(重用 http://r.jina.ai 背后的技术堆栈)。这意味着您不必自己处理浏览器渲染、阻塞或任何与 JavaScript 和 CSS 相关的问题。
- jina reader (open source): https://github.com/jina-ai/reader/
- https://markdowndown.vercel.app
- Web-scraper(open source): https://github.com/zzzgydi/webscraper
- code-html-to-markdown: https://github.com/SivilTaram/code-html-to-markdown (偏向于更好地处理代码块)
如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢