zoukankan      html  css  js  c++  java
  • 浏览器伪装技术爬取csdn伪装技术

    友情提示:一般的网站都会有反爬虫技术,因此 想要爬取这些网站信息 就必须学会浏览器的伪装

    想要伪装成浏览器 则必须为爬虫添加浏览器报头信息  ,这些报头信息需要技术人员亲自从网站代码中复制

    例如csdn报头信息如下:

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36


    下面给出一个爬虫小实例:爬虫把csdn信息存入data中并输出data数量
     1 import urllib.request
     2 import re
     3 url="http://blog.csdn.net/"
     4 
     5 #伪装成浏览器报头  去浏览器中读代码找到 Use-Agent的值
     6 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36")
     7 #创建oenener对象
     8 opener=urllib.request.build_opener()
     9 opener.addheaders=[headers]
    10 #把opener添加为全局
    11 urllib.request.install_opener(opener)
    12 
    13 data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    14 print(len(data))
  • 相关阅读:
    设计模式(二)
    关于ICO
    js的中关于类的应用
    接口的实现顺序学习笔记[2]
    接口的继承学习笔记[1]
    设计模式(一)
    四种领域模型
    路径问题!!
    异步调用模式学习记录
    转:四人帮设计模式
  • 原文地址:https://www.cnblogs.com/du1269038969/p/9652955.html
Copyright © 2011-2022 走看看