zoukankan      html  css  js  c++  java
  • python爬虫实战:爬取中国大学排名网站的 2019年中国大学排名情况

    爬取这个网页:软科中国最好大学排名2019

    #采用bs4--Beautiful库实现
    import requests
    from bs4 import BeautifulSoup
    import bs4
    
    #得到网页内容
    def getHTMLText(url):
        try:
            r = requests.get(url,timeout=30)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            return "获取网页内容失败!"
    
    #获取大学信息,将其储存在列表
    def fillUnivList(ulist,html):
        soup = BeautifulSoup(html,"html.parser")
        for tr in soup.find('tbody').children:
            if isinstance(tr,bs4.element.Tag):
                tds = tr('td')
                ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
    
    #打印结果
    def printUnivList(ulist,num):
        tplt = "{0:^10}	{1:{4}^10}	{2:^10}	{3:^10}"
        print(tplt.format("排名","学校名称","省市","总分",chr(12288)))
        for i in range(num):
            u = ulist[i]
            print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))
    
    def main():
        uinfo = []
        url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html"
        html = getHTMLText(url)
        fillUnivList(uinfo,html)
        printUnivList(uinfo,20)
    
    if __name__=="__main__":
        main()

     运行结果:

  • 相关阅读:
    搭建Android开发环境(linux x86_64)
    prisoner of love
    今天火箭和太阳打架了?
    归途,奋斗的起点
    年轻的希望
    老师:节日快乐!
    今天是我的生日吗?
    我亲爱的弟弟
    我的08,期盼09
    只是向往
  • 原文地址:https://www.cnblogs.com/Romantic-Chopin/p/12451041.html
Copyright © 2011-2022 走看看