zoukankan html css js c++ java

Python 中国大学排名定向爬虫

代码来自于中国大学Mooc北京理工大学Pythont教学团队：https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=detail&id=1211970249&cid=1215042961

1.函数版

#中国大学定向爬虫
import requests
from bs4 import BeautifulSoup
import bs4
     
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
     
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[3].string])
     
def printUnivList(ulist, num):
    tplt = "{0:^10}	{1:{3}^10}	{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
         
def main():
    uinfo = []
    #url = 'https://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

2.修改无函数版用于学习

#中国大学定向爬虫
import requests
from bs4 import BeautifulSoup
import bs4

ulist = [] 
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
try:
    r = requests.get(url, timeout=30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
except:
    print("爬取失败")
html = r.text
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
    if isinstance(tr, bs4.element.Tag):
       tds = tr('td')
       ulist.append([tds[0].string, tds[1].string, tds[3].string])
     
tplt = "{0:^10}	{1:{3}^10}	{2:^10}"
print(tplt.format("排名","学校名称","总分",chr(12288))) #使得中文对齐
num = 20
for i in range(num): #打印前20名
    u=ulist[i]
    print(tplt.format(u[0],u[1],u[2],chr(12288)))
print("爬取完毕")

转载仅为学习，不会商用。
欢迎转载原创，附文链接。

查看全文

相关阅读:
java实现简单web服务器(分析+源代码)
Java中常见的5种WEB服务器介绍
 Android ViewDragHelper完全解析自定义ViewGroup神器
 设置SVN,Git忽略MAC的.DS_Store文件的方法
 Android中图片大小和屏幕密度的关系讲解
 Android组件化方案及组件消息总线modular-event实战
 机器学习在美团配送系统的实践：用技术还原真实世界
 智能支付稳定性测试实战
 数据库智能运维探索与实践
 【人物志】技术十年：美团第一位前端工程师潘魏增

原文地址：https://www.cnblogs.com/xdd1997/p/11743826.html