zoukankan      html  css  js  c++  java
  • 爬虫基础-1

    爬虫的概念
      - 爬虫是模拟浏览器发送请求,获取响应

    爬虫的流程
      - url--->发送请求,获取响应--->提取数据--->保存
      - 发送请求,获取响应--->提取url

    爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不一样

    页面上的数据在哪里?
      - 当前url地址对应的响应中
      - 其他的url地址对应的响应中
      - 比如ajax请求中
      - js生成的
      - 部分数据在响应中
      - 全部通过js生成

    requests中解决编解码的方法
      - response.content.decode()
      - response.content.decode("gbk")
      - response.text

    判断请求否是成功
      assert response.status_code==200

    字符串格式化的另一种方式

      "i love python {}".format(1)


    使用代理ip
      - 准备一堆的ip地址,组成ip池,随机选择一个ip来时用

      - 如何随机选择代理ip,让使用次数较少的ip地址有更大的可能性被用到
      - {"ip":ip,"times":0}
      - [{},{},{},{},{}],对这个ip的列表进行排序,按照使用次数进行排序
      - 选择使用次数较少的10个ip,从中随机选择一个

      - 检查ip的可用性
      - 可以使用requests添加超时参数,判断ip地址的质量
      - 在线代理ip质量检测的网站


    携带cookie请求
      - 携带一堆cookie进行请求,把cookie组成cookie池

    使用requests提供的session类来请求登陆之后的网站的思路
      - 实例化session
      - 先使用session发送请求,登录对网站,把cookie保存在session中
      - 再使用session请求登陆之后才能访问的网站,session能够自动的携带登录成功时保存在其中的cookie,进行请求

    不发送post请求,使用cookie获取登录后的页面
      - cookie过期时间很长的网站
      - 在cookie过期之前能够拿到所有的数据,比较麻烦
      - 配合其他程序一起使用,其他程序专门获取cookie,当前程序专门请求页面

    字典推导式,列表推到是
      cookies="anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; ln_uact=mr_mao_hacker@163.com; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"

    cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}


    [self.url_temp.format(i * 50) for i in range(1000)]


    获取登录后的页面的三种方式
    - 实例化session,使用session发送post请求,在使用他获取登陆后的页面
    - headers中添加cookie键,值为cookie字符串
    - 在请求方法中添加cookies参数,接收字典形式的cookie。字典形式的cookie中的键是cookie的name对应的值,值是cookie的value对应的值

    # coding=utf-8
    import requests
    
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36",
    }
    
    cookies="anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; ln_uact=mr_mao_hacker@163.com; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"
    cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}
    print(cookies)
    
    r = requests.get("http://www.renren.com/327550029/profile",headers=headers,cookies=cookies)
    
    #保存页面
    with open("renren3.html","w",encoding="utf-8") as f:
        f.write(r.content.decode())
    View Code
    # coding=utf-8
    import requests
    
    
    proxies = {"http":"http://163.177.151.23:80"}
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}
    
    r = requests.get("http://www.baidu.com",proxies=proxies,headers=headers)
    print(r.status_code)
    View Code
    # coding=utf-8
    import requests
    
    
    class TiebaSpider:
        def __init__(self, tieba_name):
            self.tieba_name = tieba_name
            self.url_temp = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"
            self.headers = {
                "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}
    
        def get_url_list(self):  # 1.构造url列表
            # url_list = []
            # for i in range(1000):
            #     url_list.append(self.url_temp.format(i*50))
            # return url_list
            return [self.url_temp.format(i * 50) for i in range(1000)]
    
        def parse_url(self, url):  # 发送请求,获取响应
            print(url)
            response = requests.get(url, headers=self.headers)
            return response.content.decode()
    
        def save_html(self, html_str, page_num):  # 保存html字符串
            file_path = "{}—第{}页.html".format(self.tieba_name, page_num)
            with open(file_path, "w", encoding="utf-8") as f:  # "李毅—第4页.html"
                f.write(html_str)
    
        def run(self):  # 实现主要逻辑
            # 1.构造url列表
            url_list = self.get_url_list()
            # 2.遍历,发送请求,获取响应
            for url in url_list:
                html_str = self.parse_url(url)
                # 3.保存
                page_num = url_list.index(url) + 1  # 页码数
                self.save_html(html_str, page_num)
    
    
    if __name__ == '__main__':
        tieba_spider = TiebaSpider("lol")
        tieba_spider.run()
    View Code
    # coding=utf-8
    import requests
    import json
    import sys
    
    query_string = sys.argv[1]
    
    headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Mobile Safari/537.36"}
    
    post_data = {
        "query":query_string,
        "from":"zh",
        "to":"en",
    }
    
    post_url = "http://fanyi.baidu.com/basetrans"
    
    r = requests.post(post_url,data=post_data,headers=headers)
    # print(r.content.decode())
    dict_ret = json.loads(r.content.decode())
    ret = dict_ret["trans"][0]["dst"]
    print("result is :",ret)
    View Code
  • 相关阅读:
    (转)linux下控制帐户过期的多种方法
    跟老男孩学Linx运维---web集群实战笔记
    (转)企业生产环境用户权限集中管理方案案例
    Linux 运维培训笔记
    (转)sudo配置文件/etc/sudoers详解及实战用法
    (转) RHEL7 忘记密码修改root密码
    (转)Mysql数据库之Binlog日志使用总结CentOS 7.x设置自定义开机启动,添加自定义系统服务
    git 删除远程分支
    crontab详解
    PHP数据库长连接mysql_pconnect用法
  • 原文地址:https://www.cnblogs.com/MR-allen/p/10583995.html
Copyright © 2011-2022 走看看