西部数码主机 | 阿里云主机| 虚拟主机 | 服务器 | 返回乐道官网
当前位置: 主页 > 开发教程 > linux教程 >

Linux命令wget下载整个网站或索引目录

时间:2015-02-18 20:34来源:未知 作者:好模板 点击:
wget 是一个在网络上进行下载的简单而强大的自由软件,其本身也是GNU计划的一部分。它是一个命令行的下载工具。对于我们这些Linux 用户来说,几乎每天都在使用它。下面为大家介绍

wget 是一个在网络上进行下载的简单而强大的自由软件,其本身也是GNU计划的一部分。它是一个命令行的下载工具。对于我们这些Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的wget 小技巧,以便更好的使用它。

有的人使用这个wget主要是针对某些个全是HTML页面的网站,网上有很多在线版本,但是很少有可离线阅读的。

于是乎可以这样:

# wget -m http: //www.ldhost.cn/dir/

这个命令最强力了!但前提是目录必须是索引目录!然后整个目录就down下来了,而且自动按照原网站方式布局,离线浏览,相当easy。

用wget下载东西,的确很方便,它会自动重连并断点续传,让人很放心。

小编就记录下平时使用wget命令的小技巧,如下:

# wget -c -r -nd -np -k -L -p -A c,h www.ldhost.cn/doc/path/

简单说下上面所给出的参数都是什么意思

-c 断点续传

-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件

-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录

-np 递归下载时不搜索上层目录

又比如:

# wget -c -r www.ldhost.cn/doc/path/

没有加参数-np,就会同时下载path的上一级目录pub下的其它文件。

-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数

-L 递归时不进入其它主机,如wget -c -r www.xxx.com/ 如果网站内有一个这样的链接: www.yyy.com,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.com网站

-p 下载网页所需的所有文件,如图片等

-A 指定要下载的文件样式列表,多个样式用逗号分隔

-i 后面跟一个文件,文件内指明要下载的URL

下载一个目录,例如网站的某个目录

# wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)"  \
-r -p -k -np -Pmydir -nc -o down.log \
http://www.ldhost.cn/yourdir/index.html

如果要想下载整个网站,最好去除-np参数。

# wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" \
-r -p -k -nc -o down.log \
http://www.ldhost.cn/index.html

-U 修改agent,伪装成IE货firefox等

-r 递归,对于HTTP主机,wget首先下载URL指定的文件,然后(如果该文件是一个HTML文档的话)递归下载该文件所引用(超级连接)的所有文件(递归深度由参数-l指定)。对FTP主机,该参数意味着要下载URL指定的目录中的所有文件,递归方法与HTTP主机类似。

-c 指定断点续传功能。实际上,wget默认具有断点续传功能,只有当你使用别的ftp工具下载了某一文件的一部分,并希望wget接着完成此工作的时候,才需要指定此参数。

-nc 不下载已经存在的文件

-np 表示不跟随链接,只下载指定目录及子目录里的东西

-p 下载页面显示所需的所有文件。比如页面中包含了图片,但是图片并不在/yourdir目录中,而在/images目录下,有此参数,图片依然会被正常下载。

-k 修复下载文件中的绝对连接为相对连接,这样方便本地阅读。

(责任编辑:好模板)
顶一下
(2)
100%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
热点内容