zoukankan      html  css  js  c++  java
  • 爬虫

    爬虫原理

    一、爬虫是什么

     

    1、什么是互联网?
          互联网就是由网络设备(网线,路由器,交换机,交换器等等)和一台计算机链接而成,像一张网一样。
    2、互联网建立的目的?
          互联网的核心价值在于数据的共享/传递,数据是从放于一台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。
    3、什么是上网?爬虫要做的是什么?
        我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。
        3.1 只不过,用户获取网络数据的方式是:
                       浏览器提交请求->下载网页代码->解析/渲染成页面。
    
        3.2 而爬虫程序要做的就是:
                      模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中
     
        3.1与3.2的区别在于:
             我们的爬虫程序只提取网页代码中对我们有用的数据
    
    4、总结爬虫
        4.1 爬虫的比喻:
          如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据
    
        4.2 爬虫的定义:
          向网站发起请求,获取资源后分析并提取有用数据的程序 

     

    二、爬虫的基本流程

    1、发送请求
          使用http库想目标站点发起请求,即发送一个request
          request包含:请求头,请求体等
    2、获取响应的内容
          如果服务器正常响应,则会得到一个response
          response包含:html,json,图片,视频等
    3、解析的内容
           解析html数据:正则表达式,第三方解析库Beautifulsoup,pyquery等
           解析json数据:json模块
           解析二进制:以b的方式写入文件
    4、保存数据
           数据库,文件

    三、请求与响应

    #http协议:http://www.cnblogs.com/linhaifeng/articles/8243379.html
    
    #Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
    
    #Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)
    
    #ps:浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

    四、request

    1、请求方式
            常用的请求方式:post,get
            其他请求方式:HEAD,PUT,DELETE,OPTHONS
    
            PS:用浏览器演示get与post的区别
                post与get请求最终 post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
            post请求的参数放在请求体内:
               可用浏览器查看,存放于form data内
               get请求的参数直接放在url后
    
    2、请求url
        url全称统一资源定位符,如一个网页文档,一张图片
        一个视频等都可以用url唯一来确定
    
        url编码
        https://www.baidu.com/s?wd=图片
        图片会被编码(看示例代码)
    
    
        网页的加载过程是:
        加载一个网页,通常都是先加载document文档,
        在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
    
    3、请求头
        User-agent:请求头中如果没有user-agent客户端配置,
        服务端可能将你当做一个非法用户
        host
        cookies:cookie用来保存登录信息
    
        一般做爬虫都会加上请求头
    
    
    4、请求体
        如果是get方式,请求体没有内容
        如果是post方式,请求体是format data
    
        ps:
        1、登录窗口,文件上传等,信息都会被附加到请求体内
        2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post 

    五、response

    1、响应状态

            200:代表成功
        301:代表跳转
        404:文件不存在
        403:权限
        502:服务器错误

    2、response header

     set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

    3、preview就是网页源代码

     最主要的部分,包含了请求资源的内容
        如网页html,图片
        二进制数据等

    爬虫最常用的工具:

           requests,beautifulsoup、pyquery

    import requests #pip3 install requests
    import re
    import hashlib
    import time
    
    movie_path=r'C:mp4'
    
    def get_page(url):
        try:
            response=requests.get(url)
            if response.status_code == 200:
                return response.text
        except Exception:
            pass
    
    def parse_index(index_page):
        urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
        for url in urls:
            if not url.startswith('http'):
                url='http://www.xiaohuar.com'+url
            yield url
    
    def parse_detail(detail_page):
        l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
        if l:
            movie_url=l[0]
            if movie_url.endswith('mp4'):
                yield movie_url
    
    def get_movie(url):
        try:
            response=requests.get(url)
            if response.status_code == 200:
                m=hashlib.md5()
                m.update(str(time.time()).encode('utf-8'))
                m.update(url.encode('utf-8'))
                filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
                with open(filepath,'wb') as f:
                    f.write(response.content)
                    print('%s 下载成功' %url)
        except Exception:
            pass
    
    def main():
        base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
        for i in range(5):
            url=base_url.format(page_num=i)
            index_page=get_page(url)
            detail_urls=parse_index(index_page)
            for detail_url in detail_urls:
                detail_page=get_page(detail_url)
                movie_urls=parse_detail(detail_page)
                for movie_url in movie_urls:
                    get_movie(movie_url)
    
    if __name__ == '__main__':
        main()
    爬取校花网视频的一种方式
    import requestes #pip3 install requests
    import re
    import hashlib
    import time
    from concurrent.futures import ThreadPoolExecutor
    
    pool=ThreadPoolExecutor(50)
    movie_path=r'C:mp4'
    
    def get_page(url):
        try:
            response=requests.get(url)
            if response.status_code == 200:
                return response.text
        except Exception:
            pass
    
    def parse_index(index_page):
        index_page=index_page.result()
        urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
        for detail_url in urls:
            if not detail_url.startswith('http'):
                detail_url='http://www.xiaohuar.com'+detail_url
            pool.submit(get_page,detail_url).add_done_callback(parse_detail)
    
    def parse_detail(detail_page):
        detail_page=detail_page.result()
        l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
        if l:
            movie_url=l[0]
            if movie_url.endswith('mp4'):
                pool.submit(get_movie,movie_url)
    
    def get_movie(url):
        try:
            response=requests.get(url)
            if response.status_code == 200:
                m=hashlib.md5()
                m.update(str(time.time()).encode('utf-8'))
                m.update(url.encode('utf-8'))
                filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
                with open(filepath,'wb') as f:
                    f.write(response.content)
                    print('%s 下载成功' %url)
        except Exception:
            pass
    
    def main():
        base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
        for i in range(5):
            url=base_url.format(page_num=i)
            pool.submit(get_page,url).add_done_callback(parse_index)
    
    if __name__ == '__main__':
        main()
    爬取校花网视频的第二种方式

     

  • 相关阅读:
    2013级机试D题解析
    关于C# 委托(delegate)与事件(event)的用法及事例
    ASP.NET 简单的柱形图实现(附带示例)
    jQuery 关于IE9上传文件无法进入后台问题的原因及解决办法(ajaxfileupload.js第四弹)
    jQuery 自制上传头像插件-附带Demo实例(ajaxfileupload.js第三弹)
    jQuery 关于ajaxfileupload.js插件的逐步解析(ajaxfileupload.js第二弹)
    ASP.NET 使用ajaxfileupload.js插件出现上传较大文件失败的解决方法(ajaxfileupload.js第一弹)
    jQuery 表格中实现“删除线”的增进方法
    Skype坑爹报错:“旧版本无法删除,请联络您的技术支持小组 ”的解决办法
    ASP.NET Button控件的UseSubmitBehavior属性引发的血案
  • 原文地址:https://www.cnblogs.com/mengqingjian/p/8289747.html
Copyright © 2011-2022 走看看