繁中

獲取動態渲染的網站並返回完整的HTML

項目信息

網站刮擦器木偶師 是一個基於木偶師的插件,專為 網站抓取器 主庫經過設計,可用於抓取動態渲染的網站(即通過JavaScript加載內容的網站)並返回完整的HTML。

其目的是啟動無頭Chrome實例,加載目標頁面,等待頁面內容完成渲染,然後保存渲染的HTML。這比僅僅抓取HTTP響應更可靠,特別適合需要等待JS執行或懶惰加載內容的網站。

用途和功能

根據REAUTE提供的代碼示例,該插件支持以下配置項:

  • 啟動選項:木偶師啟動選項(例如無頭模式)
  • goto選項:用於控制 page.goto 加載行為(例如 等待直到:「networkidle0」
  • 滾動到底部:支持自動滾動加載懶惰內容,可以設置 超時 和 觀點N
  • 區塊導航:是否禁用頁面導航以避免跳轉到其他頁面(默認為假)

簡而言之,它可以幫助您使用Puppeteer更優雅地抓取網頁,包括通過AJax或滾動動態加載內容的頁面。

更新狀態和最近提交的內容

從GitHub存儲庫(「website-scraper」組織下的項目列表)的總體概述中,我們可以看到 網站刮擦器木偶師 最新更新在 2025年9月1日

此外,從發布版本來看,該項目的最新發布版本為 v1.1.0,發表於 2023年7月25日

總結一下:

  • 項目仍在積極提交(至少截至2025年9月1日更新)
  • 最新版本為v1.1.0,發布於2023年7月25日

總結

項目名稱輪廓
網站刮擦器木偶師對 網站抓取器 用於抓取動態渲染的HTML的木偶師插件
最新版本v1.1.0,發布於2023年7月25日
最近提交2025-09-01(仍在維護中)

總體而言,這個項目用於抓取動態Web內容,目前仍在維護中(至少到2025年9月),但版本更新時間相對較長(2023年)。在當前狀態下,它仍然是一個可用且穩定的選項。

Github:https://github.com/website-scraper/website-scraper-puppeteer

輸油管:

返回頂端