wget–抓取完整静态网页 – Blog By chenchen.site

未登录

Email:

积分: 0

公告

联系author--aassddff3698741@gmail.com --2025.3.2

CX

菜鸟一枚，又菜又爱玩其人 ...

wget–抓取完整静态网页

2023-9-02 21:01

|

353

|

0

|

一些想法,未分类

337 字

|

2 分钟

本文最后更新于 656 天前，其中的信息可能已经有所发展或是发生改变。

使用网页抓取工具或者命令行工具来获取网站的静态文件。以下是一种使用命令行工具的方法：

打开终端或命令提示符。
使用 mkdir 命令创建一个目录来存放静态文件，例如 mkdir liveout_files。
使用 cd 命令进入到该目录，例如 cd liveout_files。
使用 wget 命令下载网站的静态文件，例如 wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains liveout.cn --no-parent https://...。

上述的 wget 命令的含义解释如下：

--recursive：递归下载网站的所有页面。
--no-clobber：不覆盖已存在的文件。
--page-requisites：下载所有页面依赖的文件，如图片、样式表、脚本等。
--html-extension：将所有页面文件后缀设置为 .html。
--convert-links：将页面中的链接转换为本地文件的路径。
--restrict-file-names=windows：限制文件名的字符，以兼容 Windows 系统。
--domains liveout.cn：限制下载的域名为 liveout.cn。
--no-parent：不追溯父级链接，以防止下载整个网站。

执行完以上命令后，您将在 liveout_files 目录下找到下载的静态文件。请注意，该命令的执行结果可能会根据下载速度和网站大小而有所不同。

效果

如图，成功抓取完整静态网页，妈妈再也不用担心我一个一个的抄了！！

CX

暂无评论

发送评论编辑评论

Markdown

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!