zoukankan      html  css  js  c++  java
  • 写一个简单的爬虫(博客)

              写一个简单的爬虫,用来爬去一个网站上的html,css这些静态文件,Python3.0实现,re模块写正则表达式来匹配页面上的js和css文件名,使用os模块创建存放文件的文件夹,代码如下:

            先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录,core(获取HTML的代码和工具代码文件,get_html.py,tools.py)

           1. start.py主要是运行主程序的,代码实现如下:

             

           2. get_html.py代码实现如下:

             

           3. tools.py主要实现文件写操作,代码如下:

            

           4.settings.py主要实现目标目录的拼接,代码如下:

           

           5.extra.py代码实现如下:

            

           

            

  • 相关阅读:
    POJ 2186 Popular Cows
    POJ 1364 King
    poj1811
    poj1404
    poj1781
    poj1386
    poj1442
    C#中调用IE打开某文档
    【观点】什么时候学习编程都不晚
    遍历DataTable内存数据的三种方法性能对比
  • 原文地址:https://www.cnblogs.com/wangguoyuan-09/p/7048037.html
Copyright © 2011-2022 走看看