zoukankan html css js c++ java

Python爬虫小实例：爬高校排名

程序目的：获取大学排名网页内容，并格式化输出。

读懂以下程序需提前了解requests库和BeautifulSoup库，在《网络爬虫与信息提取课程》有提供相关知识。

from bs4 import BeautifulSoup
import bs4
import requests

def getHTMLText(url):
    try:
        r = requests.get(url)    # 得到的r是一个包含服务器资源的Response对象
        r.raise_for_status()     # 如果状态码不是200，则抛出异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, 'html.parser')  # 解析html文档的内容
    for tr in soup.find('tbody').children:     # 循环遍历'tbody'标签中的所有儿子标签或字符串
        if isinstance(tr, bs4.element.Tag):    # 如果是标签
            tds = tr('td')                     # 找到该标签下的所有'td'标签，返回形式为列表
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
    tplt = '{0:^10}	{1:{3}^10}	{2:^10}'
    print(tplt.format('排名', '学校名称', '总分', chr(12288)))    # chr(12288)是中文空格。这里的意思是用中文空格填充
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2], chr(12288)))

if __name__ == '__main__':
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)

运行结果：

查看全文

相关阅读:
httprunner 3.x--参数化parameters（参数和值多对一，多对多，一对一等）,csv文件
 httprunner 3.x--variables变量和声明(变量和值一一对应)
httprunner 3.x 带参数接口测试（get方法）
appium安装（windows7）
httprunner 3运行报错AttributeError: module 'allure' has no attribute 'severity_level'
jmespath用法
 httprunner3.x 测试用例应用/变量传递（测试用例编写）
Python框架之Tornado（一）
Python之Web框架
 Python 装饰器（进阶篇）

原文地址：https://www.cnblogs.com/picassooo/p/12643721.html