zoukankan html css js c++ java

python爬取12306及各参数的使用。完整代码

import requests
from retrying import retry
reuquests和retrying的下载及安装可以通过命令行pip install 口令实现

# 调用重连装饰器固定格式，最大重试3次
@retry(stop_max_attempt_number=3)
def get12306():
    print("123")
    # 此时的123,代码报错打印3次，成功爬取只打印1次
    url = "https://www.12306.cn/mormhweb/"
    # 最多响应3秒,verify=false是ssl证书错误添加的参数
    response = requests.get(url,timeout=3)
    print(response.content.decode())
    # content为二进制字节类型，使用decode函数解码
if __name__ == '__main__':
    try:
        get12306()
    except:
        # 捕获异常，3次链接错误报1次此代码
        print("finish")

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是客户端(主要指浏览器)能做的事情，爬虫都能够做。爬虫的主要用途：网络信息的采集，12306抢票，网络上的投票，相较之前的人工采集数据节省了大量的人力与物力。

查看全文

相关阅读:
C++之栈的应用-------判断出栈序列是否合法
 PHP 使用soap调用webservice接口
 C++矩阵转置
 C++利用栈实现队列、利用队列实现栈
 C++ error LNK2019: 无法解析的外部符号
 定时任务
 spring boot redis CacheManager
非正常关闭vim编辑器后提示错误的解决方法
 python pandas学习记录二
 layui点击放大图片

原文地址：https://www.cnblogs.com/lutt/p/10164662.html