zoukankan      html  css  js  c++  java
  • 爬虫原理和数据抓取

    1.网络爬虫,就是模拟客户端发送网络请求,接收请求相应,一种按照一定的规则,自动地抓取互联网信息的程序
    也就是说:只要是浏览器能做的事,原则上,爬虫都能做
    2.爬虫分为通用爬虫(通常指搜索引擎的爬虫)
    聚焦爬虫(针对特定网站的爬虫)
    3.http:超文本传输协议,默认端口号是80
    https:http+ssl(安全套接子层),默认端口号:443
    https比http更安全,但是性能更低
    4.ascii编码是一个字节,而unicode编码通常是2个字节
    utf-8是unicode实现方式之一
    5.requests的作用:发送网络请求,返回相应数据
    6.response.text和response.content的区别
    response.text
    类型:str
    解码类型:根据http头部对相应的编码做出有根据
    如何修改编码方式:response.encoding="gbk"
    response.content
    类型:bytes
    解码类型:没有指定
    如何修改编码方式:response.content.deocde("utf-8")

  • 相关阅读:
    ps入门
    ls命名 | Linux统计文件夹内的文件个数
    python打包成可执行文件
    装饰器
    poj 2752 Seek the Name, Seek the Fame
    字符串最大值
    次小生成树
    Selecting Courses
    poj 3461 Oulipo
    poj 2406 Power Strings
  • 原文地址:https://www.cnblogs.com/qinyr0725/p/10528058.html
Copyright © 2011-2022 走看看