抓取动态渲染的网站,并返回完整 HTML

项目简介

website-scraper-puppeteer 是一个基于 Puppeteer 的插件,专为 website-scraper 主库设计,能够用于抓取动态渲染的网站(即通过 JavaScript 加载内容的网站),并返回完整 HTML。

它的作用是启动一个无头(headless)Chrome 实例,加载目标页面并等待页面内容渲染完成,然后将渲染后的 HTML 保存下来。这比只抓取 HTTP 响应更可靠,尤其适用于需要等待 JS 执行或懒加载内容的网站。

使用与功能

根据 README 提供的代码示例,该插件支持以下配置项:

  • launchOptions:Puppeteer 启动选项(如 headless 模式)
  • gotoOptions:用于控制 page.goto 的加载行为(如 waitUntil: "networkidle0"
  • scrollToBottom:支持自动滚动以加载懒加载内容,可设置 timeout 和 viewportN
  • blockNavigation:是否禁止页面导航,避免跳转到其他页面(默认 false)

简而言之,它能帮助你用 Puppeteer 更优雅地抓取网页,包括那些经 AJAX 或滚动动态加载内容的页面。

更新状态与最近提交

从 GitHub 仓库整体概览来看(组织“website-scraper”下的项目列表),我们可以看到 website-scraper-puppeteer 最新更新是在 2025 年 9 月 1 日

此外,从 release(发行版本)来看,该项目最近一次发布版本是 v1.1.0,发布于 2023 年 7 月 25 日

总结来看:

  • 项目仍保有活跃提交(至少截至 2025 年 9 月 1 日仍有更新)
  • 最新版本为 2023 年 7 月 25 日发布的 v1.1.0

小结

项目名称简介
website-scraper-puppeteer对 website-scraper 的 Puppeteer 插件,用于抓取动态 rendered HTML
最新版本v1.1.0,于 2023-07-25 发布
最近提交2025-09-01(仍在维护状态)

总体来说,这个项目用于抓取动态网页内容,仍在被维护(至少截至 2025 年 9 月为止),但版本更新相对较久(2023 年)。当前状态下它依旧是一个可用且稳定的选择。

Github:https://github.com/website-scraper/website-scraper-puppeteer

油管:https://youtu.be/BhxkfCGlBlQ