项目简介
website-scraper-puppeteer 是一个基于 Puppeteer 的插件,专为 website-scraper 主库设计,能够用于抓取动态渲染的网站(即通过 JavaScript 加载内容的网站),并返回完整 HTML。
它的作用是启动一个无头(headless)Chrome 实例,加载目标页面并等待页面内容渲染完成,然后将渲染后的 HTML 保存下来。这比只抓取 HTTP 响应更可靠,尤其适用于需要等待 JS 执行或懒加载内容的网站。
使用与功能
根据 README 提供的代码示例,该插件支持以下配置项:
- launchOptions:Puppeteer 启动选项(如 headless 模式)
- gotoOptions:用于控制
page.goto
的加载行为(如waitUntil: "networkidle0"
) - scrollToBottom:支持自动滚动以加载懒加载内容,可设置
timeout
和viewportN
- blockNavigation:是否禁止页面导航,避免跳转到其他页面(默认 false)
简而言之,它能帮助你用 Puppeteer 更优雅地抓取网页,包括那些经 AJAX 或滚动动态加载内容的页面。
更新状态与最近提交
从 GitHub 仓库整体概览来看(组织“website-scraper”下的项目列表),我们可以看到 website-scraper-puppeteer 最新更新是在 2025 年 9 月 1 日。
此外,从 release(发行版本)来看,该项目最近一次发布版本是 v1.1.0,发布于 2023 年 7 月 25 日。
总结来看:
- 项目仍保有活跃提交(至少截至 2025 年 9 月 1 日仍有更新)
- 最新版本为 2023 年 7 月 25 日发布的 v1.1.0
小结
项目名称 | 简介 |
---|---|
website-scraper-puppeteer | 对 website-scraper 的 Puppeteer 插件,用于抓取动态 rendered HTML |
最新版本 | v1.1.0,于 2023-07-25 发布 |
最近提交 | 2025-09-01(仍在维护状态) |
总体来说,这个项目用于抓取动态网页内容,仍在被维护(至少截至 2025 年 9 月为止),但版本更新相对较久(2023 年)。当前状态下它依旧是一个可用且稳定的选择。
Github:https://github.com/website-scraper/website-scraper-puppeteer