zoukankan      html  css  js  c++  java
  • python爬虫-入门-了解爬虫

    作为一个爬虫新手,我觉得首先要了解爬虫是的作用以及应用。

    作用:通过爬虫获取网页内的信息。包括:标题(title)图片(image)链接(url)等等

    应用:抽取所需信息,进行数据汇总及分析(从事网页测试、数据分析工作很容易用到)

    然后,了解一下爬虫前需要获取哪些信息。

    1.哪些网站爬取时有哪些限制

    检查robots文件,

    user-agent:  Badcrawler  禁止用户代理Badcrawler    user-agent  ·   允许用户代理访问

    crawl-delay:   5  用户代理在两次下载请求间给出5s抓取延迟

    Disallow: /trap  禁止访问/trap链接,如果访问此链接 会禁止访问端的访问权限

    Sitemap: http://example.webscraping.com/sitemap.xml  定义了一个文件Sitemap(网站地图)

    2.检查网站地图

    通过Sitemap文件可以帮爬虫定位最新的内容,而无需爬取每一个网页。当然,这个文件也会存在缺失,过期等不完整问题

    3.估算网站大小(这个比较复杂,暂时没看明白)

    估算网站的大小,使用正确的方法

    4.了解网站所用的技术及网站所有者


    #导入检查网站结构的技术类型模块
    import builtwith
    #导入协议或域名查询模块
    import whois
    parse = builtwith.parse('http://example.webscraping.com')
    print(parse)
    添加 builtwith 以及 whois 库
  • 相关阅读:
    【SpringBoot1.x】SpringBoot1.x 安全
    WebStorm快捷键(Mac版)
    iOS 容联离线消息推送
    iOS使用TestFlight进行内部和外部人员测试
    iOS Runtime常用方法整理
    模仿斗鱼直播
    一个很好用的侧滑框架ICSDrawerController实现的 QQ 侧滑及换肤功能
    swift3.0 项目引导页
    使用 swift3.0高仿新浪微博
    swift 监听键盘弹出的高度
  • 原文地址:https://www.cnblogs.com/xiaochige/p/10759371.html
Copyright © 2011-2022 走看看