zoukankan      html  css  js  c++  java
  • 自己设计大学排名-数据库实践

    今天我们来学习以下有关于数据提取以及数据库的一些知识,

    我们知道其实数据库是一个非常神奇的存在,它是是按照 数据结构来组织、 存储和管理数据的仓库

    我们可以使用它对数据进行储存和管理!

    下面是有关于sqlite3的学习,SQLite3 可使用 sqlite3 模块与 Python 进行集成。

    这是一个环境自带的函数库,所以在编写代码时直接import就行啦~

    我们有一些可以学习的语句:

    语句 内容
    sqlite3.connect(database [,timeout ,other optional arguments]) 该 API 打开一个到 SQLite 数据库文件 database 的链接。timeout 参数表示连接等待锁定的持续时间,直到发生异常断开连接。timeout 参数默认是 5.0(5 秒)。如果给定的数据库名称 filename 不存在,则该调用将创建一个数据库。如果您不想在当前目录中创建数据库,那么您可以指定带有路径的文件名,这样您就能在任意地方创建数据库。
    connection.cursor([cursorClass]) 该例程创建一个 cursor,将在 Python 数据库编程中用到。
    cursor.execute(sql [, optional parameters]) 该例程执行一个 SQL 语句。该 SQL 语句可以被参数化(即使用占位符代替 SQL 文本)。sqlite3 模块支持两种类型的占位符:问号和命名占位符(命名样式)。
    connection.execute(sql [, optional parameters]) 该例程是上面执行的由光标(cursor)对象提供的方法的快捷方式,它通过调用光标(cursor)方法创建了一个中间的光标对象,然后通过给定的参数调用光标的 execute 方法。
    cursor.executemany(sql, seq_of_parameters) 该例程对 seq_of_parameters 中的所有参数或映射执行一个 SQL 命令。
    connection.executemany(sql[, parameters]) 该例程是一个由调用光标(cursor)方法创建的中间的光标对象的快捷方式,然后通过给定的参数调用光标的 executemany 方法。
    cursor.executescript(sql_script) 该例程一旦接收到脚本,会执行多个 SQL 语句。它首先执行 COMMIT 语句,然后执行作为参数传入的 SQL 脚本。所有的 SQL 语句应该用分号(;)分隔。
    connection.executescript(sql_script) 该例程是一个由调用光标(cursor)方法创建的中间的光标对象的快捷方式,然后通过给定的参数调用光标的 executescript 方法。
    connection.total_changes() 该例程返回自数据库连接打开以来被修改、插入或删除的数据库总行数。

    还有很多实用的语句可以使用哦~

    接下来我们来生成一个数据库(database)吧~代码如下:

    import sqlite3
    
    conn = sqlite3.connect('test.db')
    
    print ("Opened database successfully")

    这时如果原本没有数据库就会创建一个:

    接下来我们可以通过创建表以及做出显示来导入数据啦,当然我们还有许多方法可以对现有的数据库进行修改!

    我们可以在COMPANY 表中增加记录,通过insert插入数据,通过delete删除记录,通过select显示记录等等等……

    进入下一个部分,我们利用爬虫爬取最好大学网上对于2018年全国各大高校的各项指标的排名及综合状况:

    # -*- coding: utf-8 -*-
    """
    Spyder Editor
    
    This is a temporary script file.
    """
    import requests
    import pandas as pd
    import numpy as np
    from bs4 import BeautifulSoup
    import sqlite3
    allUniv=[]
    def getHTMLText(url):
        try:
            r=requests.get(url,timeout=30)
            r.raise_for_status()
            r.encoding = 'utf-8'
            return r.text
        except:
            return ""
    def fillUnivList(soup):
        data = soup.find_all('tr')
        for tr in data:
            ltd = tr.find_all('td')
            if len(ltd)==0:
                continue
            singleUniv = []
            for td in ltd:
                singleUniv.append(td.string)
            allUniv.append(singleUniv)
    def printUnivList(num):
        with open(r'C:UsersDELLDesktop	est.txt','w') as f:
            f.write("{1:^2}{2:{0}^10}{3:{0}^4}{4:{0}^8}{5:{0}^6}
    ".format((chr(12288)),"排名","学校名称","省市","总分","培训规模"))
            for i in range(num):
                u=allUniv[i]
                f.write("{1:^4}{2:{0}^10}{3:{0}^5}{4:{0}^8.1f}{5:{0}^10}
    ".format((chr(12288)),u[0],u[1],u[2],eval(u[3]),u[6]))
            f.close()
        if 1:
            print("successful")
        else:
            print("fail")
    
    def main(num):
        url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
        html = getHTMLText(url)
        soup = BeautifulSoup(html,"html.parser")
        fillUnivList(soup)
        printUnivList(num)
    
    main(600)

    这是爬取了其中对前600名高等院校的“培训规模”的情况,最终我们将数据导入一个文本文件中(.txt):

    查询“广东技术师范学院”的排名和得分信息,我们有下面的代码:

    import requests
    from bs4 import BeautifulSoup
    allUniv=[]
    def getHTMLText(url):
        try:
            r=requests.get(url,timeout=30)
            r.raise_for_status()
            r.encoding = 'utf-8'
            return r.text
        except:
            return ""
    def fillUnivList(soup):
        data = soup.find_all('tr')
        for tr in data:
            ltd = tr.find_all('td')
            if len(ltd)==0:
                continue
            singleUniv = []
            for td in ltd:
                singleUniv.append(td.string)
            allUniv.append(singleUniv)
    def printUnivList(num):
        a="广东技术师范学院"
        print("{1:^4}{2:{0}^8}{3:{0}^6}{4:{0}^6}{5:{0}^8}".format((chr(12288)),"排名","学校名称","省市","总分","培训规模"))
        for i in range(num):
            u=allUniv[i]
            if a in u:
                print("{1:^4}{2:{0}^10}{3:{0}^5}{4:{0}^8.1f}{5:{0}^10}".format((chr(12288)),u[0],u[1],u[2],eval(u[3]),u[6]))
    def main(num):
        url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
        html = getHTMLText(url)
        soup = BeautifulSoup(html,"html.parser")
        fillUnivList(soup)
        printUnivList(num)
    main(600)

    于是我们在海量的信息中就能够找到我们学校的排名得分啦~

    进一步地,我们调查一下广东省的高校的排名和得分情况,顺便对其中一项指标进行比较,只要将上述的代码中a这个参数的变量改为“广东”,即寻找所有关于广东省内的院校就能得到,同时改变爬虫爬取的内容:

    def printUnivList(num):
        a="广东技术师范学院"
        print("{1:^4}{2:{0}^8}{3:{0}^6}{4:{0}^6}{5:{0}^8}".format((chr(12288)),"排名","学校名称","省市","总分","培训规模"))
        for i in range(num):
            u=allUniv[i]
            if a in u:
                print("{1:^4}{2:{0}^10}{3:{0}^5}{4:{0}^8.1f}{5:{0}^10}".format((chr(12288)),u[0],u[1],u[2],eval(u[3]),u[6]))

    于是有下述结果:

    (篇幅问题,并没有完全给出结果)

  • 相关阅读:
    【WebService】WebService之WSDL文档深入分析(三)
    Android开发——发布第三方库到JitPack上
    Android破解学习之路(七)—— 乐秀视频编辑 内购破解 专业版 价值40元的破解
    Android破解心得——记学习七少月安卓大型安全公开课
    【转】Android播放音频MediaPlayer的几种方式介绍
    Android开发——EditText的属性使用
    Android开发——Fragment的简单使用总结
    Android开发——签名包的生成
    Android Stuido xml使用app属性没有提示代码
    Android开发——设置界面的创建
  • 原文地址:https://www.cnblogs.com/iconangle/p/10925127.html
Copyright © 2011-2022 走看看