zoukankan html css js c++ java

Python爬虫--2019大学排名数据抓取

准备工作

输入：大学排名URL连接
输出：大学排名信息屏幕输出
所需要用到的库：requests，bs4

思路

获取网页信息
提取网页中的内容并放到数据结构中
利用数据结构展示并输出结果

程序设计

定义函数getHTMLText()获取网页信息
定义函数UnivList()放入数据结构
定义函数printUnivList()输出到屏幕

总体而言：

写出需要自定义的函数，制作出总体的框架
写出主函数框架，实现功能
最后调用函数

步骤

查看url源代码

分析源代码，查看需要爬取的内容在什么位置

从图片中可以看出，排名信息是在<tbody>标签
具体的信息是在<tr>标签下的<td>标签内的string

定义函数getHTMLText

def getHMLText(url):
    '''
    获取url信息，输出url的内容，来抓取网页的信息
    '''
    try:
        r = request.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "抓取失败！"

定义函数UnivList()

def UnivList(ulist, html):
    '''
    提取html中的数据，放入到ulist列表，完成数据提取
    '''
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):  # 判断tr的子节点是否为非属性字符串
            tds = tr('td')
            # print(tds)
            # print('#' * 30)
            # print(tds[0], tds[0].string)
            # print('#' * 30)
            # print(tds[1], tds[1].string)
            # print('#' * 30)
            # print(tds[2], tds[2].string)
            # print('#' * 30)
            # print(tds[3], tds[3].string)
            ulist.append([tds[0].string, tds[1].string, tds[3].string, tds[2].string])

定义函数printUnivList()

def printUnivList(ulist, num):
    '''
    将ulist列表信息打印，num表示打印前多少排名的学校
    '''
    print("{:^3}	{:^10}	{:^20}	{:^30}".format("排名", "学校名称", "总分", '地址'))
    for i in range(num):
        u = ulist[i]
        print("{:^3}	{:^10}	{:^20}	{:^30}".format(u[0], u[1], u[2], u[3]))

主函数main()

def main():
    '''
    实现整个代码
    '''
    ulist = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
    html = getHTMLText(url)
    UnivList(ulist, html)
    printUnivList(ulist, 100)

调用主函数

main()

完整代码

import requests
import bs4
from bs4 import BeautifulSoup
def getHMLText(url):
    '''
    获取url信息，输出url的内容，来抓取网页的信息
    '''
    try:
        r = request.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "抓取失败！"

def UnivList(ulist, html):
    '''
    提取html中的数据，放入到ulist列表，完成数据提取
    '''
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):  # 判断tr的子节点是否为非属性字符串
            tds = tr('td')
            # print(tds)
            # print('#' * 30)
            # print(tds[0], tds[0].string)
            # print('#' * 30)
            # print(tds[1], tds[1].string)
            # print('#' * 30)
            # print(tds[2], tds[2].string)
            # print('#' * 30)
            # print(tds[3], tds[3].string)
            ulist.append([tds[0].string, tds[1].string, tds[3].string, tds[2].string])

def printUnivList(ulist, num):
    '''
    将ulist列表信息打印，num表示打印前多少排名的学校
    '''
    print("{:^3}	{:^10}	{:^20}	{:^30}".format("排名", "学校名称", "总分", '地址'))
    for i in range(num):
        u = ulist[i]
        print("{:^3}	{:^10}	{:^20}	{:^30}".format(u[0], u[1], u[2], u[3]))


def main():
    '''
    实现整个代码
    '''
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 100)

main()

查看全文

相关阅读:
博客园电子期刊2009年6月刊发布
 今晚22:30~23:00博客程序更新
 博客园上海俱乐部活动通知（2009613）
【意见征集补充】09'博客园T恤设计
 C# WinForm webBrowser 内嵌网页的按钮的OnClientClick事件的return false 在webBrowser中绑定onclick事件后失效的变通解决办法
 [转]VS2008中开发智能设备程序的一些总结收藏1
[转]C#访问SQLite数据库
 [转]VS C# 怎么调试调试服务？
[转]弹出窗口刷新它的父页面后。出现不重新发送信息，则无法刷新网页
 [转]外部css文件中的 BACKGROUNDIMAGE: url(..\image.gif)指定的背景图像无法显示,谁有好主意?

原文地址：https://www.cnblogs.com/moniter/p/12334232.html