Clipper:一个开源的HTML到Markdown转换器和爬虫工具

它可以轻松的将网页内容转换成Markdown格式。
或者从网页中剪辑内容并将其转换为Markdown格式。
Clipper还提供了一个爬虫功能,用于爬取网站并剪辑所有页面。
🔍 主要特点:
📄 轻松剪辑 Web 内容并将其转换为 Markdown。
🔗 支持 URL 和文件输入。
🌐 用于全面网站内容收集的爬网功能。
🧮 可选输出格式:Markdown 或 JSON,包括 Markdown 和元数据。
🔆无需浏览器扩展:功能类似Evernote Web Clipper或Notion Web Clipper相,但Clipper完全在终端运行,不需要安装任何扩展或注册账户。
Clipper的用途在于帮助用户快速从网页或HTML文档中提取关键内容,转换为Markdown格式,从而方便地用于训练或提供数据给RAG模型。
例如,可以从多个网页中提取信息,转换为Markdown,然后用这些信息来增强RAG模型的信息库,提高其生成文本的准确性和相关性。
作者:@_philschmid