zoukankan      html  css  js  c++  java
  • CentOS初步学习记录(四)curl文件传输和grep文本搜索

    一、curl 工具

    curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。作为一款强力工具,curl支持包括HTTP、HTTPS、ftp等众多协议,还支持POST、cookies、认证、从指定偏移处下载部分文件、用户代理字符串、限速、文件大小、进度条等特征。做网页处理流程和数据检索自动化,curl可以祝一臂之力。

    1.1 基本语法

    curl (选项) (Url地址)

    1.2 选项

    -a/--append 上传文件时,附加到目标文件
    -A/--user-agent <string> 设置用户代理发送给服务器
    -anyauth 可以使用“任何”身份验证方法
    -b/--cookie <name=string/file> cookie字符串或文件读取位置
         --basic 使用HTTP基本验证
    -B/--use-ascii 使用ASCII /文本传输
    -c/--cookie-jar <file> 操作结束后把cookie写入到这个文件中
    -C/--continue-at <offset> 断点续转
    -d/--data <data> HTTP POST方式传送数据
         --data-ascii <data> 以ascii的方式post数据
         --data-binary <data> 以二进制的方式post数据
         --negotiate 使用HTTP身份验证
         --digest 使用数字身份验证
         --disable-eprt 禁止使用EPRT或LPRT
         --disable-epsv 禁止使用EPSV
    -D/--dump-header <file> 把header信息写入到该文件中
         --egd-file <file> 为随机数据(SSL)设置EGD socket路径
         --tcp-nodelay 使用TCP_NODELAY选项
    -e/--referer 来源网址
    -E/--cert <cert[:passwd]> 客户端证书文件和密码 (SSL)
         --cert-type <type> 证书文件类型 (DER/PEM/ENG) (SSL)
         --key <key> 私钥文件名 (SSL)
         --key-type <type> 私钥文件类型 (DER/PEM/ENG) (SSL)
         --pass <pass> 私钥密码 (SSL)
         --engine <eng> 加密引擎使用 (SSL). "--engine list" for list
         --cacert <file> CA证书 (SSL)
         --capath <directory> CA目录 (made using c_rehash) to verify peer against (SSL)
         --ciphers <list> SSL密码
         --compressed 要求返回是压缩的形势 (using deflate or gzip)
         --connect-timeout <seconds> 设置最大请求时间
         --create-dirs 建立本地目录的目录层次结构
         --crlf 上传是把LF转变成CRLF
    -f/--fail 连接失败时不显示http错误
         --ftp-create-dirs 如果远程目录不存在,创建远程目录
         --ftp-method [multicwd/nocwd/singlecwd] 控制CWD的使用
         --ftp-pasv 使用 PASV/EPSV 代替端口
         --ftp-skip-pasv-ip 使用PASV的时候,忽略该IP地址
         --ftp-ssl 尝试用 SSL/TLS 来进行ftp数据传输
         --ftp-ssl-reqd 要求用 SSL/TLS 来进行ftp数据传输
    -F/--form <name=content> 模拟http表单提交数据
         --form-string <name=string> 模拟http表单提交数据
    -g/--globoff 禁用网址序列和范围使用{}和[]
    -G/--get 以get的方式来发送数据
    -H/--header <line> 自定义头信息传递给服务器
         --ignore-content-length 忽略的HTTP头信息的长度
    -i/--include 输出时包括protocol头信息
    -I/--head 只显示请求头信息
    -j/--junk-session-cookies 读取文件进忽略session cookie
         --interface <interface> 使用指定网络接口/地址
         --krb4 <level> 使用指定安全级别的krb4
    -k/--insecure 允许不使用证书到SSL站点
    -K/--config 指定的配置文件读取
    -l/--list-only 列出ftp目录下的文件名称
         --limit-rate <rate> 设置传输速度
         --local-port<NUM> 强制使用本地端口号
    -m/--max-time <seconds> 设置最大传输时间
         --max-redirs <num> 设置最大读取的目录数
         --max-filesize <bytes> 设置最大下载的文件总量
    -M/--manual 显示全手动
    -n/--netrc 从netrc文件中读取用户名和密码
         --netrc-optional 使用 .netrc 或者 URL来覆盖-n
         --ntlm 使用 HTTP NTLM 身份验证
    -N/--no-buffer 禁用缓冲输出
    -o/--output 把输出写到该文件中
    -O/--remote-name 把输出写到该文件中,保留远程文件的文件名
    -p/--proxytunnel 使用HTTP代理
         --proxy-anyauth 选择任一代理身份验证方法
         --proxy-basic 在代理上使用基本身份验证
         --proxy-digest 在代理上使用数字身份验证
         --proxy-ntlm 在代理上使用ntlm身份验证
    -P/--ftp-port <address> 使用端口地址,而不是使用PASV
    -q 作为第一个参数,关闭 .curlrc
    -Q/--quote <cmd> 文件传输前,发送命令到服务器
    -r/--range <range> 检索来自HTTP/1.1或FTP服务器字节范围
    --range-file 读取(SSL)的随机文件
    -R/--remote-time 在本地生成文件时,保留远程文件时间
         --retry <num> 传输出现问题时,重试的次数
         --retry-delay <seconds> 传输出现问题时,设置重试间隔时间
         --retry-max-time <seconds> 传输出现问题时,设置最大重试时间
    -s/--silent 静默模式。不输出任何东西
    -S/--show-error 显示错误
         --socks4 <host[:port]> 用socks4代理给定主机和端口
         --socks5 <host[:port]> 用socks5代理给定主机和端口
         --stderr <file>  
    -t/--telnet-option <OPT=val> Telnet选项设置
         --trace <file> 对指定文件进行debug
         --trace-ascii <file> Like --跟踪但没有hex输出
         --trace-time 跟踪/详细输出时,添加时间戳
    -T/--upload-file <file> 上传文件
         --url <URL> Spet URL to work with
    -u/--user <user[:password]> 设置服务器的用户和密码
    -U/--proxy-user <user[:password]> 设置代理用户名和密码
    -w/--write-out [format] 什么输出完成后
    -x/--proxy <host[:port]> 在给定的端口上使用HTTP代理
    -X/--request <command> 指定什么命令
    -y/--speed-time 放弃限速所要的时间,默认为30
    -Y/--speed-limit 停止传输速度的限制,速度时间

    1.3 实例

    1)基本用法

    curl http://www.linux.com

    执行后,www.linux.com 的 html 就会显示在屏幕上了,默认情况下下 curl 执行的是 GET 操作,所以可以当做 wget 使用。

    2)使用选项 -o 将下载数据写入到指定名称的文件中

    curl -o linux.html http://www.linux.com

    3)使用选项 -O 保存网页中的文件,必须使用文件的绝对地址

    curl -O http://www.linux.com/hello.sh

    4)循环下载

    有时候下载图片可以能是前面的部分名称是一样的,就最后的尾椎名不一样:

    curl -O http://www.linux.com/dodo[1-5].JPG

    5)下载重命名

    curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG

    由于下载的hello与bb中的文件名都是dodo1,dodo2,dodo3,dodo4,dodo5。因此第二次下载的会把第一次下载的覆盖,这样就需要对文件进行重命名:

    curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG

    这样在hello/dodo1.JPG的文件下载下来就会变成hello_dodo1.JPG,其他文件依此类推,从而有效的避免了文件被覆盖。

    6)分段下载

    有时候下载的东西会比较大,这个时候我们可以分段下载,使用内置 -r 选项:

    # curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG
    # curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG
    # curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG
    # cat dodo1_part* > dodo1.JPG

    这样就可以查看dodo1.JPG的内容了。

    7)通过ftp下载文件

    curl提供两种从ftp中下载的语法:

    # curl -O -u 用户名:密码 ftp://www.linux.com/dodo1.JPG
    # curl -O ftp://用户名:密码@www.linux.com/dodo1.JPG

    8)显示、隐藏下载进度条

    curl -# -O http://www.linux.com/dodo1.JPG
    curl -s -O http://www.linux.com/dodo1.JPG

    9)断点续传

    在windows中,我们可以使用迅雷这样的软件进行断点续传。curl可以通过 -C 选项达到相同的效果。
    如果在下载 dodo1.JPG 的过程中突然掉线了,可以使用以下的方式续传:

    # curl -C -O http://www.linux.com/dodo1.JPG

    10)上传文件

    curl 不仅可以下载文件,还可以上传文件,使用 -T 选项:

    # curl -T dodo1.JPG -u 用户名:密码 ftp://www.linux.com/img/

    这样就向 ftp 服务器上传了文件 dodo1.JPG。

    11)测试网页返回值

    curl -o /dev/null -s -w %{http_code} www.linux.com

    在脚本中,这是很常见的测试网站是否正常的用法。

    12)指定代理服务器以及其端口

    curl -x 192.168.100.100:1080 http://www.linux.com

    很多时候上网需要用到代理服务器(比如是使用代理服务器上网或者因为使用 curl 别人网站而被别人屏蔽 IP 地址的时候),需要用到 -x 来支持设置代理。

    13)设置 cookies

    使用 --cookie "COKKIES"选项来指定cookie,多个cookie使用分号分隔:

    curl http://www.linux.com --cookie "user=root;pass=123456"

    使用 --cookie-jar选项来保存 http 的 response 里面的 cookie 信息:

    curl --cookie-jar cookiec.txt http://www.linux.com

    14)保存 http 的 response 里面的 header 信息

    curl -D cookied.txt http://www.linux.com

    15)设置用户代理字符串

    有些网站需要使用特定的浏览器去访问他们,有些还需要使用某些特定的版本,这是因为这些网站设置了检查用户代理,使用 --user-agen t或者 -A 选项:

    curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com

    16)伪造 Referer

    很多服务器会检查 http 访问的 referer 从而来控制访问。比如:你是先访问首页,然后再访问首页中的邮箱页面,这里访问邮箱的 referer 地址就是访问首页成功后的页面地址,使用 -e 选项:

    curl -e "www.linux.com" http://mail.linux.com

    这样就会让服务器其以为你是从 www.linux.com 点击某个链接跳转过来的。

    17)显示抓取错误

    curl -f http://www.linux.com/error

    二、grep 工具

    grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。

    2.1 基本语法

    grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]

    2.2 选项

    • -a 或 --text:不要忽略二进制的数据
    • -A <显示列数> 或 --after-context = <显示列数>:除了显示符合范本样式的那一列之外,并显示该列之后的内容
    • -b 或 --byte-offset:在显示符合范本样式的那一列之前,标示出该列第一个字符的位编号
    • -B <显示列数> 或 --before-context = <显示列数>:除了显示符合范本样式的那一列之外,并显示该列之前的内容
    • -c 或 --count:计算符合范本样式的列数
    • -C <显示列数> 或 --context = <显示列数> 或 -<显示列数>:除了显示符合范本样式的那一列之外,并显示该列之前后的内容
    • -d <进行动作> 或 --directories = <进行动作>:当指定要查找的是目录而非文件时,必须使用这项参数,否则 grep 指令将回报信息并停止动作
    • -e <范本样式> 或 --regexp = <范本样式>:指定字符串做为查找文件内容的范本样式
    • -E 或 --extended-regexp:将范本样式为延伸的普通表示法来使用
    • -f <范本文件> 或 --file = <范本文件>:指定范本文件,其内容含有一个或多个范本样式,让 grep 查找符合范本条件的文件内容,格式为每列一个范本样式
    • -F 或 --fixed-regexp:将范本样式视为固定字符串的列表
    • -G 或 --basic-regexp:将范本样式视为普通的表示法来使用
    • -h 或 --no-filename:在显示符合范本样式的那一列之前,不标示该列所属的文件名称
    • -H 或 --with-filename:在显示符合范本样式的那一列之前,表示该列所属的文件名称
    • -i 或 --ignore-case:忽略字符大小写的差别
    • -l 或 --file-with-matches:列出文件内容符合指定的范本样式的文件名称
    • -L 或 --files-without-match:列出文件内容不符合指定的范本样式的文件名称
    • -n 或 --line-number:在显示符合范本样式的那一列之前,标示出该列的列数编号
    • -q 或 --quiet或--silent:不显示任何信息
    • -r 或 --recursive:此参数的效果和指定 -d recurse 参数相同
    • -s 或 --no-messages:不显示错误信息
    • -v 或 --revert-match:反转查找
    • -V 或 --version:显示版本信息
    • -w 或 --word-regexp:只显示全字符合的列
    • -x 或 --line-regexp:只显示全列符合的列
    • -y:此参数的效果和指定 -i 参数相同
    • --help:在线帮助。

    2.3 实例

    1)在文件中搜索一个单词,命令会返回一个包含“match_pattern”的文本行:

    grep "match_pattern" file_name

    2)统计文件或者文本中包含匹配字符串的行数:

    grep -c "text" file_name

    3)搜索多个文件并查找匹配文本在哪些文件中:

    grep -l "text" file1 file2 file3...

    三、Shell Script 实例

    有时我们的软件需要自动根据到网上去获取当前版本是否要更新,如果需要更新则下载一些必要的文件:

    1. 首先判断本地的 version 文件,读取
    2. 用 curl 访问远程 conf.txt,然后读取第二行
    3. 本地的版本和远程版本进行比较,如果版本小则:① 模拟post访问update.php,并获取需要下载的地址;② 使用wget下载下来
    LOCAL_VER=`cat version`
    REMOTE_VER=`curl http://www.jtthink.com/test/conf.txt -s | sed -n '2p'`
    #echo $REMOTE_VER
    if [ $LOCAL_VER -lt $REMOTE_VER ]
       then
      # echo "begin update"
       GET_UPDATE=`curl -d "password=123" http://www.jtthink.com/test/update.php -s`
       wget $GET_UPDATE
       echo "2">version
    fi
  • 相关阅读:
    WPF 关于多语言 的实现 学习,利用反射中的特性
    WPF Textbox 中文输入崩溃 规避
    自定义控件.依赖项属性同步更新内部控件属性
    HexInput
    HashMap实现原理分析
    centos下nginx安装
    dos下mybatis自动生成代码
    设计模式之装饰器模式
    Java 中的悲观锁和乐观锁的实现
    redis分布式锁
  • 原文地址:https://www.cnblogs.com/tangxuliang/p/9121677.html
Copyright © 2011-2022 走看看