zoukankan      html  css  js  c++  java
  • 爬虫

    网站爬虫,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章内容及标题,保存到data目录下。具体如下:

    import requests
    import re
    import os 
    BASE_PATH = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    DATA_PATH = os.path.join(BASE_PATH, 'data')
    #将爬虫下来的文章内容写入文件,需要写入文章的内容、编码
    def write_content(filename, content, coding):
        with open(os.path.join(DATA_PATH, filename), 'w', coding) as fw:
            fw.write(content)
    
    url = 'http://www.cnblogs.com/xxxx'
    def get_html(url):
        #打开url并获取该url的所有html信息
        html_content = requests.get(url).text
        #从html_conten所有的html信息中匹配到所有博客的超链接地址
        href_list = re.findall(r'href="(.*)">(.*)</a>', html_content)
        for line in href_list:
            line_html = requests.get(line[0])
            content = line[1]  # 获取每篇文章的标题titile
            line_content = line_html.text  # 获取文章的内容
            line_conding = line_html.encoding  # 获取文章的编码格式
            # 写入文件
            write_content('%s.html' % content, line_content, line_conding)
    
    if __name__ == '__main__':
        get_html(url)

    网站爬虫,爬取http://tieba.baidu.com/p/2166231880内所有的图片并保持到本地。

    待续

  • 相关阅读:
    [调参]batch_size的选择
    [调参]CV炼丹技巧/经验
    [Pytorch]Pytorch加载预训练模型(转)
    [PyTorch]论文pytorch复现中遇到的BUG
    [Opencv]图像的梯度与边缘检测(转)
    freemodbus移植、实例及其测试方法
    eclipse的C/C++开发搭建
    ROS安装
    U-boot移植
    QT开发实战一:图片显示
  • 原文地址:https://www.cnblogs.com/lhly/p/7105973.html
Copyright © 2011-2022 走看看