zoukankan      html  css  js  c++  java
  • Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息。抓取网页中实用的信息
    一般的爬虫架构为:
    这里写图片描写叙述
    在python爬虫之前先要对网页的结构知识有一定的了解。如网页的标签,网页的语言等知识,推荐去W3School:
    W3school链接进行了解
    在进行爬虫之前还要有一些工具:
    1.首先Python 的开发环境:这里我选择了python2.7,开发的IDE为了安装调试方便选择了用VS2013上的python插件,在VS上进行开发(python程序的调试与c的调试几乎相同较为熟悉)。
    2.网页源代码的查看工具:尽管每个浏览器都能进行网页源代码的查看。但这里我还是推荐用火狐浏览器和FirBug插件(同一时候这两个也是网页开发者必用的工具之中的一个);
    FirBug插件的安装能够在右边的加入组件中安装;

    其次来看试着看网页的源代码,这里我以我们要爬取的篮球数据为例:
    如我要爬取网页中的Team Comparison表格内容为例:
    这里写图片描写叙述
    先右键选中如我要爬取的比分32-49。点击右键选择选择用firBug查看元素,(FirBug的另一个优点是在查看源代码时会在网页上显示源代码所显示的样式,在网页中我的位置及内容)网页下方就会跳出网页的源代码以及32-49比分所在的位置及源代码例如以下图:
    这里写图片描写叙述
    能够看到32-49为网页的源代码为:

    <td class="sdi-datacell" align="center">32-49</td>

    当中td为标签的名字,class为类的名字,align为格式,32-49为标签的内容,为我们要爬取的内容;
    但相似的标签以及类的名字在同一个网页中有非常多,光靠这两个元素无法爬下我们所须要的数据,这时就须要查看这一标签的父标签,或再上一级的标签来提取很多其它我们要爬取数据的特征。来过滤其它我们所不要爬取的数据。如我们这里选取这张表格所在的标签作为我我们进行筛选的第二个
    特征:

    <div class="sdi-so">
    <h3>Team Comparison</h3>

    再来我们来分析网页的URL:
    如我们要爬取的网页的URL为:

    http://www.covers.com/pageLoader/pageLoader.aspx?page=/data/nba/matchups/g5_preview_12.html

    由于有搭站点的经验,所以能够这里
    www.covers.com为域名。
    /pageLoader/pageLoader.aspxpage=/data/nba/matchups/g5_preview_12.html。可能为放在服务器上的网页根文件夹的/pageLoader/pageLoader.aspx?

    page=/data/nba/matchups/地址中的网页。
    为了管理方便。同样类型的网页都会放在同一个文件夹下。以相似的命名方式命名:如这边的网页是以g5_preview_12.html命名的所以相似的网页会改变g5中的5,或者_12 中的12,通过改变这两个数字,我们发现相似网页能够改变12数字来得到,
    再来学习爬虫:
    这里python爬虫主要用到了
    urllib2
    BeautifulSoup
    这两个库。BeautifulSoup的具体文档能够在下面站点中查看:
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
    在爬取网页时:
    先要打开网页,然后在调用beautifulSoup库进行网页的分析,再用如.find函数找到要刚刚我们分析的特征所在的位置,并用.text来获取标签的内容即我们所要爬取的数据
    如我们对比下面代码来进行分析:

      response=urllib2.urlopen(url)
        print response.getcode()
        soup=BeautifulSoup(
                                    response,
                                    'html.parser',
                                    from_encoding='utf-8' 
                                    )
        links2=soup.find_all('div',class_="sdi-so",limit=2)
        cishu=0
        for i in links2:
            if(cishu==1):
                two=i.find_all('td',class_="sdi-datacell")
                for q in two:
                    print q.text
                    table.write(row,col,q.text)
                    col=(col+1)%9
                    if(col==0):
                        row=row+1
                row=row+1
                file.save('NBA.xls')
            cishu=cishu+1

    urllib2.urlopen(url)为打开网页;
    print response.getcode()为測试网页能否被打开;
    soup=BeautifulSoup(
    response,
    ‘html.parser’,
    from_encoding=’utf-8’
    )
    为代用Beautiful进行网页的分析。
    links2=soup.find_all(‘div’,class_=”sdi-so”,limit=2)为进行特征值的查询与返回
    当中我们要查找’div’,class_=”sdi-so”,的标签,limit=2为限制找两个(这是为过滤其它相似的标签)

     for i in links2:
            if(cishu==1):
                two=i.find_all('td',class_="sdi-datacell")
                for q in two:
                    print q.text
                    table.write(row,col,q.text)
                    col=(col+1)%9
                    if(col==0):
                        row=row+1
                row=row+1

    为在找到的’div’,class_=”sdi-so”,的标签中再进行对应的如’td’,class_=”sdi-datacell”标签的查找;
    q.text为返回我们所要的数据
    这里 row=row+1,row=row+1为我们将数据写入到excel文件时文件格式的整理所用的;
    接下来是对抓取数据的保存:
    这里我们用了excel来保存数据用到了包:
    xdrlib,sys, xlwt
    函数:
    file=xlwt.Workbook()
    table=file.add_sheet(‘shuju’,cell_overwrite_ok=True)
    table.write(0,0,’team’)
    table.write(0,1,’W/L’)
    table.write(row,col,q.text)
    file.save(‘NBA.xls’)
    为最主要的excel写函数,这里不再累述;
    最后我们爬下来数据保存格式后样式为:
    这里写图片描写叙述
    NICE
    这里写图片描写叙述

    我所觉得最深沉的爱。莫过于分开以后。我将自己,活成了你的样子。

  • 相关阅读:
    解决RobotFramework的关键字不能高亮的问题
    使用Python遇到:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte 问题
    通过Jekins执行bat脚本始终无法完成
    Can not find the tag library descriptor for "http://java.sun.com/jsp/jstl/core"
    [转]The superclass "javax.servlet.http.HttpServlet" was not found on the Java Build Path
    HDU 2686 MCMF
    HDU 4278 卡特兰,区间DP
    POJ 2985 名次树
    POJ 2531 深搜剪枝
    Uva 10061 进制问题
  • 原文地址:https://www.cnblogs.com/zsychanpin/p/7402839.html
Copyright © 2011-2022 走看看