zoukankan      html  css  js  c++  java
  • python爬虫

    爬虫

    以下内容纯自己理解的

    爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取,
    要是没有就是动态网页,要分析json等响应最后转换成python能懂得语言,解析数据 字典

    scrapy框架步骤

    1. scrapy startproject 项目名称
    2. scrapy genspider 爬虫名字 域名 爬虫名字不能是数字开头的最好是英文的
    3. 编写爬虫(敲代码)
    4. 运行爬虫 scrapy crawl 爬虫名字

    例子

    1. 创建项目框架scrapy startproject jobspider
    2. 创建爬虫scrapy genspider job 51job.com
    3. 编写爬虫
    4. 运行爬虫 scrapy crawl job

    循环的代码提取内容

    book = []
    for name,author in zip(name,author):
    book.append({'name': name,'author':author})
    return book

    scrapy crawl 项目名称(qd)-o book.csv/xml/json能拿到这些格式

    setting 里面要开启好多东西 包括pipelines
    PIPELINES的介绍。。。
    yield的使用,数据的操作

    xpath('内容提取信息的规则').extract()是获取数据 前面的是返回来的响应

    另一个爬虫框架 crawlscrapy
    scrapy genspider -t crawl 爬虫名字 域名

    和scrapy的区别是多了一个rules规则 这里是获取响应并且回传到parse_item 就相当于parse那个函数,同时可以进行多次的rules,响应返回来再做处理

    图片的便捷取出方法
    image

    middlewares 动态的ua
    动态代理

  • 相关阅读:
    图床_OpenStack-镜像服务
    图床_OpenStack-认证服务
    图床_OpenStack-基础环境
    #linux包之tcpdump之tcpdump命令
    利用OpenCms9提供的模块创建新站点
    Cocos2d-x3.0下实现循环列表
    Modbus读写模拟量寄存器具体解释
    C++ 实践总结
    spring Quartz基于配置文件和注解的实现
    EEPLAT学习
  • 原文地址:https://www.cnblogs.com/wkjava/p/12860216.html
Copyright © 2011-2022 走看看