User Avatar 未登录
Email:
当前积分:
wget–抓取完整静态网页
本文最后更新于 209 天前,其中的信息可能已经有所发展或是发生改变。

使用网页抓取工具或者命令行工具来获取网站的静态文件。以下是一种使用命令行工具的方法:

  1. 打开终端或命令提示符。
  2. 使用 mkdir 命令创建一个目录来存放静态文件,例如 mkdir liveout_files
  3. 使用 cd 命令进入到该目录,例如 cd liveout_files
  4. 使用 wget 命令下载网站的静态文件,例如 wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains liveout.cn --no-parent https://...

上述的 wget 命令的含义解释如下:

  • --recursive:递归下载网站的所有页面。
  • --no-clobber:不覆盖已存在的文件。
  • --page-requisites:下载所有页面依赖的文件,如图片、样式表、脚本等。
  • --html-extension:将所有页面文件后缀设置为 .html
  • --convert-links:将页面中的链接转换为本地文件的路径。
  • --restrict-file-names=windows:限制文件名的字符,以兼容 Windows 系统。
  • --domains liveout.cn:限制下载的域名为 liveout.cn
  • --no-parent:不追溯父级链接,以防止下载整个网站。

执行完以上命令后,您将在 liveout_files 目录下找到下载的静态文件。请注意,该命令的执行结果可能会根据下载速度和网站大小而有所不同。

效果

如图,成功抓取完整静态网页,妈妈再也不用担心我一个一个的抄了!!
CX
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇