zoukankan      html  css  js  c++  java
  • 爬虫

    爬虫:
    什么是爬虫:
    爬虫就是写一个程序,从互联网上抓取数据的过程
    Url模块:
    1:urlretrieve(url,filename):urlretrieve()模块有两个参数,url = 要爬取的网址
    filename = 本地的目录(本地的存储地址)
    2:urlcleanup() :将urlretrieve()产生的缓存清除
    3:info():将一些基本的环境展现出来(urllib.request.urlopen(url))
    此时调用info()可展现当前的环境
    4:getcode(),geturl():返回当前网页的状态码,getcode显示当前的状态码,200表示网页正常
    403表示网页有错
    5:超时设置:由于网速和对方服务器的问题,爬取网页时。都需要时间,
    有时间该网页长时间未响应,就判断为超时。file = urllib.request.urlopen('url',timeout = ?)
     
  • 相关阅读:
    A1035
    A1005
    A1073
    A1061
    A1058
    A1027
    A1019
    Java 操作临时文件创建与删除
    面试必会之HashMap源码分析
    springboot整合cxf框架启动报错
  • 原文地址:https://www.cnblogs.com/zxzx1/p/10902979.html
Copyright © 2011-2022 走看看