zoukankan      html  css  js  c++  java
  • 用工具爬虎牙星秀VS用代码

    先来个工具操作

    1、获取链接https://www.huya.com/g/xingxiu

     2、删除字段、增加字段、开始采集

     3、启动

     4、运行中

     5、采的太多了我就停止了

     6、导出数据Excel格式

     

     7、查看本地文件

     8、导入到mysql数据库

     9、mysql配置

    10、选择导出设置

     11、查看mysql数据库里面的数据

     12、OK啦!好开心!!!

    用代码开始操作

    1、首先咱们创建个爬取的工程项目

    scrapy startproject huyaPro

     2、创建虫子

     3、settings配置文件里面修改

     4、先看下数据试试

    scrapy crawl huya

     5、复制ul的xpath

     6、分别定位标题、作者、热度

    import scrapy
    class HuyaSpider(scrapy.Spider):
    name = 'huya'
    start_urls = ['https://www.huya.com/g/xingxiu']
    def parse(self, response):
    # 复制ul的xpath并获取下面所有的li数据:
    li_list = response.xpath('//*[@id="js-live-list"]/li')
    # 定义空列表:
    all_data = []
    for li in li_list:
    # 获取标题:
    title = li.xpath('./a[2]/text()').extract_first()
    # 获取作者:
    author = li.xpath('./span/span[1]/i/text()').extract_first()
    # 获取热度:
    hot = li.xpath('./span/span[2]/i[2]/text()').extract_first()
    # 定义字典形式:
    dic = {
    "title": title,
    "author": author,
    "hot": hot
    }
    # 列表里面增加字典的数据:
    all_data.append(dic)
    return all_data
    7、存储到本地文件.csv格式

    终端执行命令:scrapy crawl huya -o huya.csv

     

     

     8、存储到mysql数据库

     

     9、items.py

     10、接下来管道处理

     11、配置文件开启管道

    12、爬取到本地

    终端执行命令:scrapy crawl huya

     13、mysql配置部分

     14、管道mysql

     15、后台查数据

     16、存储到redis

    17、升级redis版本

    pip install -U redis==2.10.6

     18、终端执行命令

    scrapy crawl huya

     19、查看redis库

    lrange huyaList 0 -1查看所有内容

  • 相关阅读:
    Mysql锁原理浅谈
    MySQL分库分表浅谈
    MySQL ORDER BY主键id加LIMIT限制走错索引
    表数据量影响MySQL索引选择
    配置supervisor管理beego应用
    9.Element-ui的校验规则Rules
    8.Element-ui日期组件上传到后台日期少一天解决办法
    23.POI导出
    22.访问jar包下资源路径里的文件
    21.Shiro在springboot与vue前后端分离项目里的session管理
  • 原文地址:https://www.cnblogs.com/zhang-da/p/13197072.html
Copyright © 2011-2022 走看看