zoukankan      html  css  js  c++  java
  • 爬虫

    网站爬虫,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题,保存到data目录下。具体如下:

    import requests
    import re
    import os 
    BASE_PATH = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    DATA_PATH = os.path.join(BASE_PATH, 'data')
    #将爬虫下来的文章内容写入文件,需要写入文章的内容、编码
    def write_content(filename, content, coding):
        with open(os.path.join(DATA_PATH, filename), 'w', coding) as fw:
            fw.write(content)
    
    url = 'http://www.cnblogs.com/xxxx'
    def get_html(url):
        #打开url并获取该url的所有html信息
        html_content = requests.get(url).text
        #从html_conten所有的html信息中匹配到所有博客的超链接地址
        href_list = re.findall(r'href="(.*)">(.*)</a>', html_content)
        for line in href_list:
            line_html = requests.get(line[0])
            content = line[1]  # 获取每篇文章的标题titile
            line_content = line_html.text  # 获取文章的内容
            line_conding = line_html.encoding  # 获取文章的编码格式
            # 写入文件
            write_content('%s.html' % content, line_content, line_conding)
    
    if __name__ == '__main__':
        get_html(url)

    网站爬虫,爬取http://tieba.baidu.com/p/2166231880内所有的图片并保持到本地。

    待续

  • 相关阅读:
    Java入门第二阶段总结
    POj3017 dp+单调队列优化
    CH5701 开车旅行(倍增dp+set)
    dp优化---四边形不等式与决策单调性
    CH5E07 划分大理石(背包dp+二进制拆分)
    POJ1185 炮兵阵地(状压dp)
    CH5501 环路运输(单调栈)
    poj3585 Accumulation Degree(换根dp)
    CH5105 Cookies (线性dp)
    反射
  • 原文地址:https://www.cnblogs.com/lhly/p/7105973.html
Copyright © 2011-2022 走看看