zoukankan      html  css  js  c++  java
  • python识别网站所用技术

      最近在学习一些python爬虫,我们要爬取一个站点,首先要去查看网站的robots协议,如果明确禁止抓取了要遵守,否则可能会带来麻烦。第二步我们要知道网站是用什么技术做的,如何通过python的方法来识别呢?可以用builtwith库来实现(注意是builtwith不是buildwith),当然前提是安装了python

      安装方法,win+r,cmd,输入如下代码

    pip install builtwith
    

      如果已经安装好了,会出现下面的提示

      进入python

    import builtwith
    
    builtwith.parse('https://abc.com')
    

      显示如下

       但builtwith毕竟是机器判断,有时不一定正确,只可作为参考

    import builtwith
    
    builtwith.parse('https://www.cnblogs.com/ytkah')
    

      运行结果如下,但是不一定准确

       ytkah最近写了比较多的woocommerce文章,所以它判断是wordpress创建的,其实这个是博客园的博客系统,是.net制作的,主页的底部就可以看到

       感兴趣的朋友可以安装测试一下

      

  • 相关阅读:
    git分支管理策略
    git解决冲突
    git分支创建和合并
    git连接远程库
    git删除文件
    git撤销修改
    4k测试网站
    Windows10通过TightVNC远程连接Ubuntu18.04
    robot报告合并输出
    python 传参中的*和**
  • 原文地址:https://www.cnblogs.com/ytkah/p/12365192.html
Copyright © 2011-2022 走看看