zoukankan html css js c++ java

爬取数据并解析

爬虫文件中parse方法中写：

def parse(self, response):  # 解析，请求回来，自动执行parser，在这个方法中做解析
        # 解析 方式一：使用bs4解析
        # from bs4 import BeautifulSoup
        # soup=BeautifulSoup(response.text,'lxml')
        # soup.find_all(）

        # 方式二：使用内置的css解析器
        # css与xpath解析后的数据都放在列表中
        # 取第一个：extract_first()
        # 取出所有的extract()
        # css选择器取文本和属性：
            # .link-title::text
            # .link-title::attr(href)
        div_list = response.css('div.link-item')
        for div in div_list:
            title = div.css('.link-title::text').extract_first()
            url = div.css('.link-title::attr(href)').extract_first()
            if 'http' not in url:
                url = 'https://dig.chouti.com/'+url
            img_url = div.css('.image-scale::attr(src)').extract_first()
            if not img_url:
                img_url = div.css('.image-item::attr(src)').extract_first()
            print('''
            新闻标题：%s
            新闻连接：%s
            新闻图片：%s
            ''' % (title, url, img_url))

        # 方式三：使用内置的xpath解析
        # css与xpath解析后的数据都放在列表中
        # 取第一个：extract_first()
        # 取出所有的extract()
        # xpath选择器取文本和属性：
            # /text()
            # /@属性名
        div_list = response.xpath('//div[contains(@class,"link-item")]')
        for div in div_list:
            title = div.xpath('.//a[contains(@class,"link-title")]/text()').extract_first()
            url = div.xpath('.//a[contains(@class,"link-title")]/@href').extract_first()
            # if 'http' not in url:
            #     url = 'https://dig.chouti.com/' + url
            img_url = div.xpath('.//*[contains(@class,"image-scale")]/@src').extract_first()
            # if not img_url:
            #     img_url = div.xpath('.//*[contains(@class,"image-item")]/@src').extract_first()
            print('''
            新闻标题：%s
            新闻连接：%s
            新闻图片：%s
            ''' % (title, url, img_url))

查看全文

相关阅读:
【自制操作系统03】读取硬盘中的数据
 【自制操作系统02】环境准备与启动区实现
 【自制操作系统01】硬核讲解计算机的启动过程
 【30天自制操作系统】day06：中断
 java8 stream ,filter 等功能代替for循环
 如何评估工作量--三点估算
 python 错误AttributeError: 'module' object has no attribute 'AF_INET'
python入门学习
 mysql5.7.10和mysql5.5.39两个版本对于group by函数的处理差异
 jenkins 构建时，取消构建测试类

原文地址：https://www.cnblogs.com/baohanblog/p/12675679.html