zoukankan      html  css  js  c++  java
  • Python 爬虫笔记

    urllib##

    python3 与 python2 的urllib很不一样,之前urllib2的方法基本上都变成了python3里的urllib.request模块中

    import urllib.request as urq
    import urllib.parse as urp
    import urllib.error as ure
    
    # 初始化
    opener = urq.build_opener()
    # 序列化请求参数 urllib.parse.urlencode()
    url = "http://localhost"
    data = {"username":"dapianzi"}
    post_data = urp.urlencode(data).encode('utf-8')
    # 设置 header
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
    # 构造request对象
    request = urq.Request(url, post_data, headers)
    # 打开url
    try:
        res = opener.open(request)
        # 从结果对象中获取内容  read(), 返回二进制流
        b_str = res.read()
        # 解码还原, 编码视网页源代码而定
        print(b_str.decode("utf8"))
    except ure.HTTPError as e:
        print (e.strerror)
    

    unzip

    通常网页会用gzip压缩,这时候需要先解压。导入gzip 模块, gzip.decompress(str)

    def unzip(data):
        try:
            data = gzip.decompress(data)
        except:
            pass
        return data
    

    re 正则表达式

    re.M 多行模式
    re.I 忽略大小写
    re.S s 匹配换行
    re.search 搜索
    re.match 从开头匹配
    re.fandall 匹配所有结果

    Beautiful soup

    Beautifulsoup 是一个强大的html文档解析模块。使用起来跟css选择器非常像。python3 直接pip install bs4安装,获取网页内容之后:

    import bs4
    
    html = "<html>The content you have got</html>"
    # 初始化 beautiful soup对象
    soup = bs4.BeautifulSoup(html, "html.parser")
    # 直接.<标签>可以获取第一个匹配的元素
    a = soup.a
    print(a.string) # a标签的文本 
    imgs = soup.select('img') # all imgs
    for i in imgs:
        src = i['src']    # src属性
        id = i['id']    # id属性(假如有的话)
        print (src) # 后续操作继续抓取图片内容保存本地..
    

    设置和保存cookie 需要用到 http.cookiejar 模块。 然后通过 urllib.request.HTTPCookieProcessor 处理器初始化cookie

    import http.cookiejar as ckj
    import urllib.request as urq
    
    cookie_tmp = "/tmp/cookie.tmp"
    cookie = ckj.MozillaCookieJar(cookie_tep)
    cookie_handler = urq.HTTPCookieProcessor(cookie)
    opener = urq.build_opener(cookie_handler)
    res = opener.open(url).read().decode()
    # ignore_dicsard 是否覆盖旧的值
    # ignore_expires 是否忽略过期cookie
    cookie.save(cookie_tmp, ignore_discord=True, ignore_expires=True)
    print(res)
    print(cookie)
    

    proxy代理

    代理ip无论是自由上网还是应对封ip反爬虫策略都非常重要。首先要找一个可以用的代理。我后来想到自己完全可以搭一个http代理服务器,然后就被坑了一下午,这是后话暂且不表。
    增加proxy非常简单,就是build_opener的时候多传一个 proxy handler

    proxy = {"http" : "x.x.x.x:80"}
    proxy_handler = urllib.request.ProxyHandler(proxy)
    # 这里如果有多个handle, 一起传进去就行了
    opener = urllib.request.build_opener(proxy_handelr, cookie_handler)
    # ...
    

    小结

    以上掌握了之后就可以开始各种爬虫实践了,至于http认证,在 header 那里带上用户名密码就可以,不再赘述。

  • 相关阅读:
    C#.ToString()格式大全
    C# 中的正则验证及用法
    解除SVN的控制
    SVN检出忽略文件夹文件
    Mac下查看及生成SSH Key
    Xcode-报错问题总结大全
    CentOS6.5上kafka 安装过程-多机版本
    神经网络绘图网址
    CentOs 中没有eth0文件
    Spring 入门
  • 原文地址:https://www.cnblogs.com/dapianzi/p/7491125.html
Copyright © 2011-2022 走看看