zoukankan html css js c++ java

爬虫

网站爬虫，主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题，保存到data目录下。具体如下：

import requests
import re
import os 
BASE_PATH = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
DATA_PATH = os.path.join(BASE_PATH, 'data')
#将爬虫下来的文章内容写入文件，需要写入文章的内容、编码
def write_content(filename, content, coding):
    with open(os.path.join(DATA_PATH, filename), 'w', coding) as fw:
        fw.write(content)

url = 'http://www.cnblogs.com/xxxx'
def get_html(url):
    #打开url并获取该url的所有html信息
    html_content = requests.get(url).text
    #从html_conten所有的html信息中匹配到所有博客的超链接地址
    href_list = re.findall(r'href="(.*)">(.*)</a>', html_content)
    for line in href_list:
        line_html = requests.get(line[0])
        content = line[1]  # 获取每篇文章的标题titile
        line_content = line_html.text  # 获取文章的内容
        line_conding = line_html.encoding  # 获取文章的编码格式
        # 写入文件
        write_content('%s.html' % content, line_content, line_conding)

if __name__ == '__main__':
    get_html(url)

网站爬虫，爬取http://tieba.baidu.com/p/2166231880内所有的图片并保持到本地。

待续

查看全文

相关阅读:
（14）模板的导入和继承
 （13）自定意义标签和过滤器（templatetags）
（12）模板语言-with
（11）模板语言-if判断
 （0）diango、ORM的语法
 python修炼12 -----协程
 python 修炼11 ----------线程进程
 线程进程定义
 Python基础之面向对象进阶
 Python ---------copy

原文地址：https://www.cnblogs.com/lhly/p/7105973.html