写一个简单的爬虫（博客） - 走看看

zoukankan html css js c++ java

写一个简单的爬虫（博客）

写一个简单的爬虫，用来爬去一个网站上的html,css这些静态文件，Python3.0实现，re模块写正则表达式来匹配页面上的js和css文件名，使用os模块创建存放文件的文件夹，代码如下：

先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录，core(获取HTML的代码和工具代码文件，get_html.py,tools.py)

1. start.py主要是运行主程序的，代码实现如下：

2. get_html.py代码实现如下：

3. tools.py主要实现文件写操作，代码如下：



4.settings.py主要实现目标目录的拼接，代码如下：

5.extra.py代码实现如下：





查看全文

相关阅读:
CHANGE YOUR BROWSER’S USER AGENT STRING TO VIEW IPAD READY WEBSITES
javascript鼠标后面跟当前坐标
 四月上半月总结（雅虎面试+玩）
the way javascript create objects
Navigator 对象
 三月份总结（后台规范+面试）
SVN客户端使用教程
 44种IE css bug实例测试总结（转载）
处理兼容性问题(浮动)，以及解决方法
 调用网页头部和尾部的公共部分

原文地址：https://www.cnblogs.com/wangguoyuan-09/p/7048037.html

Copyright © 2011-2022 走看看