項目信息
網站刮擦器木偶師 是一個基於木偶師的插件,專為 網站抓取器 主庫經過設計,可用於抓取動態渲染的網站(即通過JavaScript加載內容的網站)並返回完整的HTML。
其目的是啟動無頭Chrome實例,加載目標頁面,等待頁面內容完成渲染,然後保存渲染的HTML。這比僅僅抓取HTTP響應更可靠,特別適合需要等待JS執行或懶惰加載內容的網站。
用途和功能
根據REAUTE提供的代碼示例,該插件支持以下配置項:
- 啟動選項:木偶師啟動選項(例如無頭模式)
- goto選項:用於控制
page.goto加載行為(例如等待直到:「networkidle0」) - 滾動到底部:支持自動滾動加載懶惰內容,可以設置
超時和觀點N - 區塊導航:是否禁用頁面導航以避免跳轉到其他頁面(默認為假)
簡而言之,它可以幫助您使用Puppeteer更優雅地抓取網頁,包括通過AJax或滾動動態加載內容的頁面。
更新狀態和最近提交的內容
從GitHub存儲庫(「website-scraper」組織下的項目列表)的總體概述中,我們可以看到 網站刮擦器木偶師 最新更新在 2025年9月1日。
此外,從發布版本來看,該項目的最新發布版本為 v1.1.0,發表於 2023年7月25日。
總結一下:
- 項目仍在積極提交(至少截至2025年9月1日更新)
- 最新版本為v1.1.0,發布於2023年7月25日
總結
| 項目名稱 | 輪廓 |
|---|---|
| 網站刮擦器木偶師 | 對 網站抓取器 用於抓取動態渲染的HTML的木偶師插件 |
| 最新版本 | v1.1.0,發布於2023年7月25日 |
| 最近提交 | 2025-09-01(仍在維護中) |
總體而言,這個項目用於抓取動態Web內容,目前仍在維護中(至少到2025年9月),但版本更新時間相對較長(2023年)。在當前狀態下,它仍然是一個可用且穩定的選項。
Github:https://github.com/website-scraper/website-scraper-puppeteer
輸油管: