zoukankan      html  css  js  c++  java
  • 爬虫 查看站点的个数和解析网站使用的技术栈和找到网站的所有者

    简介

    网站的个数可以作为自己要爬取时间的估算。
    技术栈可以知道自己要爬取的难度。

    网站的个数

    www.baidu.com 然后 输入 site:www.cnblogs.com 就可以知道 博客园大概有多少个页面了。 1000万个左右。

    识别网站所采用技术栈

    pip install builtwith

    import builtwith
    builtwith.parse('http://www.cnblogs.com')
    {'advertising-networks': ['DoubleClick for Publishers (DFP)'], 'javascript-frameworks': ['Vue.js', 'jQuery']}
    // 得知 采用的是vue 和 jquery。
    
    

    找到网站的所有者

    pip install python-whois

    import whois
    print(whois.whois('www.changeworld.shop'))
    {
      "domain_name": "CHANGEWORLD.SHOP",
      "registrar": "Bizcn.com,Inc",
      "whois_server": null,
      "referral_url": null,
      "updated_date": "2019-04-24 04:22:03",
      "creation_date": "2019-04-15 14:23:58",
      "expiration_date": "2020-04-15 23:59:59",
      "name_servers": [
        "NS1.BDYDNS.CN",
        "NS2.BDYDNS.CN"
      ],
      "status": "clientTransferProhibited https://icann.org/epp#clientTransferProhibited",
      "emails": null,
      "dnssec": "unsigned",
      "name": null,
      "org": null,
      "address": null,
      "city": null,
      "state": "Zhejiang",
      "zipcode": null,
      "country": "CN"
    }
    可以看出大致的信息。
    
    Hope is a good thing,maybe the best of things,and no good thing ever dies.----------- Andy Dufresne
  • 相关阅读:
    webpack-dev-server的使用及说明
    Web框架
    HTTP协议
    jQuery的使用
    发红包
    python操作mysql
    mysql索引与补充
    JavaScript之BOM操作
    JavaScript之DOM操作
    JavaScript之基础语法
  • 原文地址:https://www.cnblogs.com/eat-too-much/p/11559422.html
Copyright © 2011-2022 走看看