zoukankan      html  css  js  c++  java
  • 实现MongoDB数据库的简单操作

    一,先来介绍MongoDB的简单知识,请点击先下面链接

    https://www.cnblogs.com/liyanyinng/p/10922204.html

    二,测试MongoDB

    下面以中国最好大学排名为例,从网上爬取数据并存为csv文件

     1 # -*- coding: UTF-8 -*-
     2 import requests
     3 import pandas as pd
     4 from bs4 import BeautifulSoup
     5 allUniv=[]                          #建立二维数组储存
     6 def getHTMLText(url):               #获取网页Text内容
     7     try:
     8         r=requests.get(url,timeout=30)
     9         r.raise_for_status()
    10         r.encoding='utf-8'
    11         return r.text
    12     except:
    13         return ""
    14 def fillUnivList(soup):             #寻找单个大学的数据
    15     data=soup.find_all('tr')        #寻找一行的开头
    16     for tr in data:
    17         ltd=tr.find_all('td')       #寻找一格
    18         if len(ltd)==0:
    19             continue
    20         singleUniv=[]
    21         for td in ltd:               #对每格数据进行存储
    22             singleUniv.append(td.string)
    23         allUniv.append(singleUniv)
    24         text=pd.DataFrame(allUniv)
    25         text.to_excel("D:\CFUB.xlsx",encoding="GBK")
    26 def printUnivList(num):            #输出数据兼格式
    27     print("{1:^2}{2:{0}^10}{3:{0}^6}{4:{0}^4}{5:{0}^10}"
    28           .format(chr(12288),"排名","学校名称","省市","总分","培养规模"))
    29     for i in range(num):
    30         u=allUniv[i]           
    31         print("{1:^4}{2:{0}^10}{3:{0}^5}{4:{0}^8.1f}{5:{0}^10}".format
    32              (chr(12288),u[0],u[1],u[2],eval(u[3]),u[6])) 
    33 def main(num):     #{}里表示占用多少个字符
    34     url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
    35     html=getHTMLText(url)
    36     soup=BeautifulSoup(html,"html.parser")
    37     fillUnivList(soup)
    38     printUnivList(num)
    39 main(50)

    再来看看效果:

    2、把爬取到的数据存入MongoDB数据库

     1 from bs4 import BeautifulSoup
     2 import pandas as pd
     3 import pymongo
     4 import requests
     5 def getHTMLText(url):               #获取网页Text内容
     6     try:
     7         r=requests.get(url,timeout=30)
     8         r.raise_for_status()
     9         r.encoding='utf-8'
    10         return r.text
    11     except:
    12         return ""
    13     
    14 def fillUnivList(soup):             #寻找单个大学的数据
    15     data=soup.find_all('tr')        #寻找一行的开头
    16     for tr in data:
    17         ltd=tr.find_all('td')       #寻找一格
    18         if len(ltd)==0:
    19             continue
    20         singleUniv=[]
    21         for td in ltd:               #对每格数据进行存储
    22             singleUniv.append(td.string)
    23         save_list_to_Mongodb(singleUniv)
    24 
    25 def client_Mongodb(port, path):
    26     myclient = pymongo.MongoClient(host='localhost', port=port)  # 连接
    27     my_set = myclient.path  # 连接path,如果没有则创建一个数据库
    28     return my_set
    29 
    30 def save_mongo(result):
    31     myclient = pymongo.MongoClient(host='localhost', port=27017)
    32     my_set = myclient.CFUS
    33     try:
    34         if my_set.product.insert_one(result): #如果保存成功
    35             pass#print("数据保存成功")
    36     except Exception:
    37         print("数据保存失败")
    38 
    39 def save_list_to_Mongodb(lists):
    40     my_set = client_Mongodb(27017, 'CFUS')
    41     product = {
    42         '排名': lists[0],
    43         '学校名称': lists[1],
    44         '省份': lists[2],
    45         '总分': lists[3],
    46         '生源质量(新生高考成绩得分)': lists[4],
    47         '培养结果(毕业生就业率': lists[5],
    48         '社会声誉(社会捐赠收入·千元': lists[6],
    49         '科研规模(论文数量·篇)': lists[7],
    50         '科研质量(论文质量·FWCI)': lists[8],
    51         '顶尖成果(高被引论文·篇)': lists[9],
    52         '顶尖人才(高被引学者·人)': lists[10],
    53         '科技服务(企业科研经费·千元': lists[11],
    54         '成果转化(技术转让收入·千元)': lists[12],
    55         '学生国际化(留学生比例)': lists[13],
    56         }  # 字典类型数据
    57     save_mongo(product)
    58 
    59 def main():
    60     url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
    61     html = getHTMLText(url)
    62     soup = BeautifulSoup(html, "html.parser")
    63     fillUnivList(soup)
    64     print("完成")
    65     for i in pymongo.MongoClient(host='localhost', port=27017).University.ranking.product.find():
    66         print(i)  # 输出
    67 main()

    再来查看期效果:

    如此,爬取的数据就存进了数据库了

    4、对数据库的数据进行提取

    可在上面的代码中追加下面的代码,即可按照指定的信息提取数据

    1 myquery = {"学校名称": "广东技术师范大学"}
    2 for i in pymongo.MongoClient(host='localhost', port=27017).CFUS.product.find(myquery):
    3     print(i)

    查看效果:

     再追加下面代码,其实就是修改了信息

    1 myquery = {"省份": "广东"}
    2 for i in pymongo.MongoClient(host='localhost', port=27017).CFUS.product.find(myquery):
    3     print(i)

    查看效果:

    这样就可以完成对数据库的一些操作了

  • 相关阅读:
    基础Linux命令总结
    [博客美化]新年啦,给自己博客加个雪花效果吧~
    自制操作系统Antz(5)——深入理解保护模式与进入方法
    自制操作系统Antz(4)——进入保护模式 (下) 实现内核并从硬盘载入
    自制操作系统Antz(3)——进入保护模式 (中) 直接操作显存
    自制操作系统Antz(2)——进入保护模式 (上) jmp到保护模式
    自制操作系统Antz(1)——Boot Sector
    Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
    Kali Day01 --- arpspoof命令进行断网攻击(ARP欺骗)
    手写杀毒软件——放心的安全卫士
  • 原文地址:https://www.cnblogs.com/liyanyinng/p/10940344.html
Copyright © 2011-2022 走看看