zoukankan      html  css  js  c++  java
  • 爬虫--三种数据解析方式

    数据解析方式一:正则

    数据解析方式二:xpath表达式

    数据解析方式三:bs4

    ======================================

    数据解析方式一:正则

    常见正则匹配:

    import re
    #提取出python
    key="javapythonc++php"
    re.findall('python',key)[0]
    #####################################################################
    #提取出hello world
    key="<html><h1>hello world<h1></html>"
    re.findall('<h1>(.*)<h1>',key)[0]
    #####################################################################
    #提取170
    string = '我喜欢身高为170的女孩'
    re.findall('d+',string)
    #####################################################################
    #提取出http://和https://
    key='http://www.baidu.com and https://boob.com'
    re.findall('https?://',key)
    #####################################################################
    #提取出hello
    key='lalala<hTml>hello</HtMl>hahah' #输出<hTml>hello</HtMl>
    re.findall('<[Hh][Tt][mM][lL]>(.*)</[Hh][Tt][mM][lL]>',key)
    #####################################################################
    #提取出hit. 
    key='bobo@hit.edu.com'#想要匹配到hit.
    re.findall('h.*?.',key)
    #####################################################################
    #匹配sas和saas
    key='saas and sas and saaas'
    re.findall('sa{1,2}s',key)
    #####################################################################
    #匹配出i开头的行,re.M是分行匹配
    string = '''fall in love with you
    i love you very much
    i love she
    i love her'''
    re.findall('^i.*',string,re.M)
    #####################################################################
    #匹配全部行,re.S是当做一行匹配
    string1 = """<div>静夜思
    窗前明月光
    疑是地上霜
    举头望明月
    低头思故乡
    </div>"""
    re.findall('.*',string1,re.S)

    需求:使用正则对糗事百科中的图片数据进行解析和下载
    import requests,re
    url = "https://www.qiushibaike.com/pic/"
    response = requests.get(url=url)
    page_text = response.text
    '''
    分析源码,解析的内容在class="thumb"的div下边的a标签下的img标签里
    <div class="thumb">
    <a href="/article/121159481" target="_blank">
    <img src="//pic.qiushibaike.com/system/pictures/1212/CIY.jpg" alt="xad">
    </a>
    </div>
    '''
    img_list = re.findall('<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>',page_text,re.S)
    # ['//pic.qiushibaike.com/system/pictures/1212/CIY.jpg','',....]
    # 将图片url进行拼接,拼接成完整的url
    for img_url in img_list:
      img_url = 'https:' + url
      # 获取图片二进制数据
      img_data = requests.get(url = url).content
      img_name = img_url.split('/')[-1]
      save_path = 'imgs'+img_name
      with open(save_path, 'wb') as fp:
        fp.write(img_data)
        print(img_name+'写入成功')

    数据解析方式二:xpath表达式

    1.下载:pip install lxml
    2.导包:from lxml import etree
    3.创建etree对象进行制定数据的解析
      -本地:tree = etree.parse('本地文件路径')
             tree.xpath('xpath表达式')
      -网络:tree = etree.HTML('网络请求到的页面数据
             tree.xpath('xpath表达式')


    常用xpath表达式:

    • 属性定位:

    #找到class属性值为song的div标签
    //div[@class="song"]

    • 层级&索引定位:

    #找到class属性值为tang的div的儿子标签ul下的第二个儿子标签li下的儿子标签a
    //div[@class="tang"]/ul/li[2]/a

    • 逻辑运算:

    #找到href属性值为空且class属性值为du的a标签
    //a[@href="" and @class="du"]

    • 模糊匹配:

    # 找到class属性包含ng的div标签
    //div[contains(@class, "ng")]
    # 找到class属性以ta开头的div标签
    //div[starts-with(@class, "ta")]

    • 取文本:

    # /表示获取某个标签下的文本内容
    //div[@class="song"]/p[1]/text()
    # //表示获取某个标签下的文本内容和所有子标签下的文本内容
    //div[@class="tang"]//text()

    • 取属性:

    # 找到class属性为tang的div下所有子孙li标签中第二个li标签下的儿子a标签的href属性
    //div[@class="tang"]//li[2]/a/@href

    xpath插件:就可以直接将xpath表达式作用于浏览器的网页当中
    安装:Chrome浏览器为例:更多工具-》扩展程序-》开启右上角的开发者模式-》xpath插件拖动到页面即可
    快捷键开启关闭xpath插件:Ctrl+shift+x


    需求:使用xpath对段子网中的段子内容和标题进行解析,持久化存储
    import requests
    from lxml import etree
    url = 'https://ishuo.cn/joke'
    response = requests.get(url)
    page_text = response.text
    tree = etree.HTML(page_text)
    # 获取所有li标签(段子内容和标题在li标签里)
    li_list = tree.xpath('//div[@id="list"]/ul/li')
    # 注意:Element类型对象可以继续调用xpath函数对该对象内部内容进行解析
    fp = open('duanzi.txt','w',encoding='utf8')
    for li in li_list:
      content=li.xpath('./div[@class="content"]/text()')[0]
      title = li.xpath('./div[@class="info"]/a/text()')[0]
      fp.write(title+":"+content+" ")

    数据解析方式三:bs4

    bs4--Beautiful是python独有,简单便捷和高效。
    1.环境安装:

      -用国外的源可能有问题
      - 需要将pip源设置为国内源,阿里源、豆瓣源、网易源等
      - windows
        (1)打开文件资源管理器(文件夹地址栏中)
        (2)地址栏上面输入 %appdata%
        (3)在这里面新建一个文件夹 pip
        (4)在pip文件夹里面新建一个文件叫做 pip.ini ,内容写如下即可
    [global]
    timeout = 6000
    index-url = https://mirrors.aliyun.com/pypi/simple/
    trusted-host = mirrors.aliyun.com
      - linux
        (1)cd ~
        (2)mkdir ~/.pip
        (3)vi ~/.pip/pip.conf
        (4)编辑内容,和windows一模一样
      - 需要安装:
        pip install bs4  ,  bs4在使用时候需要一个第三方库,把这个库也安装一下 pip install lxml
    2.使用流程:
      核心思想:将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或者属性去查找指定的节点内容
      - 导包:from bs4 import BeautifulSoup
      - 创建BeautiSoup对象:
      (1)html文档是本地文件:
        - soup = BeautifulSoup(open('本地文件'), 'lxml')
      (2)html文档是网络文件:
        - soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')
    3. 查找标签或属性:
      (1)根据标签名查找
        - soup.a 只能找到第一个符合要求的标签
      (2)获取属性
        - soup.a.attrs 获取a所有的属性和属性值,返回一个字典
        - soup.a.attrs['href'] 获取href属性
        - soup.a['href'] 也可简写为这种形式
      (3)获取内容
        - soup.a.string # 相当于/text()
        - soup.a.text # 相当于//text()
        - soup.a.get_text() # 相当于//text()
        【注意】如果标签还有标签,那么string获取到的结果为None,而其它两个,可以获取文本内容
      (4)find:找到第一个符合要求的标签
        - soup.find('a') 找到第一个符合要求的
        - soup.find('a', title="xxx")
        - soup.find('a', alt="xxx")
        - soup.find('a', class_="xxx")
        - soup.find('a', id="xxx")
      (5)find_all:找到所有符合要求的标签
        - soup.find_all('a')
        - soup.find_all(['a','b']) 找到所有的a和b标签
        - soup.find_all('a', limit=2) 限制前两个
      (6)根据选择器选择指定的内容
        soup.select('#feng')
        - 常见的选择器:标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器
        - 层级选择器:
        soup.select('div .dudu #lala .meme .xixi') 空格表示下面的子孙节点
        soup.select('div > p > a > .lala') >只是表示儿子节点
        【注意】select选择器返回永远是列表,需要通过下标提取指定的对象


    需求:爬取古诗文网中三国小说里的标题和内容

    import requests
    from bs4 import BeautifulSoup
    url = "http://www.shicimingju.com/book/sanguoyanyi.html"
    page_text = requests.get(url=url).text
    soup = BeautifulSoup(page_text, 'lxml')
    a_list = soup.select('.book-mulu > ul > li > a')
    # 注意:bs4.element.Tag对象可以继续用soup的方法进行解析内部数据
    fp = open('./sanguo.txt','w',encoding='utf8')
    for a in a_list:
      # 获取章节标题
      title = a.string
      content_url = "http://www.shicimingju.com"+a['href']
      get_content(content_url)
      fp.write(title+":"+content+" ")
      print("写入一个章节内容")
    def get_content(content_url):
      # 该函数根据标题的url获取标题内容
      page_text = requests.get(url=content_url).text
      soup = BeautifulSoup(page_text, 'lxml')
      soup.find('div',class_='chapter_content')
      return div.text

  • 相关阅读:
    sublime3使用
    内存缓存 ehcache
    一些服务端写代码的规范,很重要
    对于算法的一点思考
    使用单元测试引发的一些思考
    在多线程中使用spring的bean
    一个线上缓存异常
    java 中的同步机制
    微服务中的集成测试
    服务升级中的zookeeper
  • 原文地址:https://www.cnblogs.com/staff/p/10768489.html
Copyright © 2011-2022 走看看