zoukankan      html  css  js  c++  java
  • 数据挖掘_通过字典列表批量抓取网页数据

    在进行网页数据抓取时我们要先安装一个模块 

    requests

    通过终端安装如下图

    因为我之前安装过了,所以不会显示安装进度条,安装也非常简单,如果你配置好环境变量的话,你只需要执行以下命令

    pip install requests
    

     如果提示要升级,就按下面升级pip

    pip install --upgrade pip
    

    安装完模块后我们正式开始进行数据爬取

    先说一下requests的用法,导入这个模块后,你只需要调用一下get方法,就能获取网页的内容了

    例如,爬取我的博客首页,这个单网页

    In [1]: import requests
    
    In [2]: resp = requests.get("http://www.susmote.com")
    
    In [3]: resp.encoding = "utf-8"
    
    In [4]: type(resp.text)
    Out[4]: str
    
    In [5]: content = resp.text[0:100]
    
    In [6]: print(content)
    <!DOCTYPE html>
    <html lang="zh-Hans">
    <head>
    	<meta http-equiv="Content-Type" content="text/html; ch
    

     首先导入,然后调用get方法,里面接你要爬取的网页

    注意:必须要加http:头,不然会报错

    然后在第三步,我们更改了默认编码,这个取决于你要爬取网页的编码格式,如果不更改,极大可能会出行乱码,或是一些没有看过的字符

    在第五步,我们把爬取网页内容的前50个字符赋值给了content,以便之后查看,因为网页内容太多,不能一次全部打印出来,所以我们决定切片输出一部分内容

    最后一步,我们打印出刚才保存的一部分内容

    前面只是提前熟悉一下爬取数据的步骤,接下来我们通过列表字典批量获取数据,然后把它保存为一个文件

    首先定义一个字典,存储我们要抓取页面的网址

    urls_dict = {
        '特克斯博客': 'http://www.susmote.com/',
        '百度': 'http://www.baidu.com',
        'xyz': 'www.susmote.com',
        '特克斯博客歌单区1': 'https://www.susmote.com/?cate=13',
        '特克斯博客歌单区2': 'https://www.susmote.com/?cate=13'
    }
    

    然后我们在定义一个列表,也是存储抓取页面的网址

    urls_lst = [
        ('特克斯博客', 'http://www.susmote.com/'),
        ('百度', 'http://www.baidu.com'),
        ('xyz', 'www.susmote.com'),
        ('特克斯博客歌单区1', 'https://www.susmote.com/?cate=13'),
        ('特克斯博客歌单区2', 'https://www.susmote.com/?cate=13')
    ]
    

    然后我们先利用字典来抓取

    代码如下:

    # 利用字典抓取
    crawled_urls_for_dict = set()
    for ind, name in enumerate(urls_dict.keys()):
        name_url = urls_dict[name]
        if name_url in crawled_urls_for_dict:
            print(ind, name, "已经抓取过了.")
        else:
            try:
                resp = requests.get(name_url)
            except Exception as e:
                print(ind, name, ":", str(e)[0:50])
                continue
            resp.encoding = "utf8"
            content = resp.text
            crawled_urls_for_dict.add(name_url)
            with open("bydict_" + name + ".html", 'w', encoding='utf8') as f:
                f.write(content)
                print("抓取完成 : {} {}, 内容长度为{}".format(ind, name, len(content)))
    

     首先定义一个空集合,以保存我们抓取完数据的网址,以避免重复抓取

    后面我们通过for循环和枚举,遍历每一个字典的键和值,把每一抓取的网址存进开始定义的集合crawled_urls_for_dict

    然后我们判断要抓取的网址,是否已经保存在集合中,如果存在,就输出已经抓取过了

    如果没有,再进行后面的操作,在这里我们为了防止程序出错,影响程序的整体运行,我们在这里使用了try except 语句来打印出错的异常,这样能保证程序能完整运行

    然后无非和我之前说的一样,改编码格式,暂时保存内容

    只是最后我们通过创建一个文件来保存爬取下来的网页文件,这个我就不详细解释了,无非就是加了个后缀

    在后面我们打印抓取的网页地址

    for u in crawled_urls_for_dict:
        print(u)
    

    然后我们利用列表来抓取数据

    代码如下

    # 利用列表抓取
    crawled_urls_for_list = set()
    for ind, tup in enumerate(urls_lst):
        name = tup[0]
        name_url = tup[1]
        if name_url in crawled_urls_for_list:
            print(ind, name, "已经抓取过了.")
        else:
            try:
                resp = requests.get(name_url)
            except Exception as e:
                print(ind, name, ":", str(e)[0:50])
                continue
            resp.encoding = "utf8"
            content = resp.text
            crawled_urls_for_list.add(name_url)
            with open('bylist_' + name + ".html", "w", encoding='utf8') as f:
                f.write(content)
                print("抓取完成:{} {}, 内容长度为{}".format(ind, name, len(content)))
    

     原理上跟前面的字典一样,我就不做过多解释了

    只是要注意这是一个嵌套的列表,遍历的时候要注意一下

    最后也是一样

    for u in crawled_urls_for_list:
        print(u) 
    

     打印抓取过的数据

    运行结果如下图

    susmotedeMacBook-Air:FirstDatamining susmote$ python main.py
    抓取完成 : 0 特克斯博客, 内容长度为26793
    抓取完成 : 1 百度, 内容长度为2287
    2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
    抓取完成 : 3 特克斯博客歌单区1, 内容长度为21728
    4 特克斯博客歌单区2 已经抓取过了.
    http://www.susmote.com/
    http://www.baidu.com
    https://www.susmote.com/?cate=13
    ------------------------------------------------------------
    抓取完成:0 特克斯博客, 内容长度为26793
    抓取完成:1 百度, 内容长度为2287
    2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
    抓取完成:3 特克斯博客歌单区1, 内容长度为21728
    4 特克斯博客歌单区2 已经抓取过了.
    http://www.susmote.com/
    http://www.baidu.com
    https://www.susmote.com/?cate=13
    

     文件目录变化如下 

    用浏览器打开如下图

    特克斯博客 www.susmote.com 

    百度网站    www.baidu..com

     到这里,简单的数据抓取就讲完了

    欢迎访问我的官网

    www.susmote.com

  • 相关阅读:
    3.1按钮
    2.1线性布局
    2.2相对布局
    1.4Activity保存现场状态
    1.1Activity跳转与传值
    1.2Activity返回值
    1.3Activity生命周期
    WebSocket
    Jms消费者模式
    课堂实践5-31
  • 原文地址:https://www.cnblogs.com/susmote/p/8879604.html
Copyright © 2011-2022 走看看