zoukankan      html  css  js  c++  java
  • 爬虫综合大作业

    作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159

    可以用pandas读出之前保存的数据:

    newsdf = pd.read_csv(r'F:duymgzccnews.csv')

    一.把爬取的内容保存到数据库sqlite3

    import sqlite3
    with sqlite3.connect('gzccnewsdb.sqlite') as db:
    newsdf.to_sql('gzccnews',con = db)

    with sqlite3.connect('gzccnewsdb.sqlite') as db:
    df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)

     

    保存到MySQL数据库

    • import pandas as pd
    • import pymysql
    • from sqlalchemy import create_engine
    • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
    • engine = create_engine(conInfo,encoding='utf-8')
    • df = pd.DataFrame(allnews)
    • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)
    !pip install PyMySQL
    
    !pip install sqlalchemy
    
    import pymysql
    from sqlalchemy import create_engine
    coninfo='mysql+pymysql://root:@localhost:3306/gzccnews?charset=utf8'
    engine=create_engine(coninfo,encoding='utf-8')
    
    newsdf.to_sql(name='news',con=engine,if_exists='append',index=False,index_label='id')
    
    newsdf.to_sql(name='news',con=engine,if_exists='append',index=False)
    conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='',db='gzccnews',charset='utf8')

     

    二.爬虫综合大作业

    1. 选择一个热点或者你感兴趣的主题。
    2. 选择爬取的对象与范围。
    3. 了解爬取对象的限制与约束。
    4. 爬取相应内容。
    5. 做数据分析与文本分析。
    6. 形成一篇文章,有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
    7. 文章公开发布。

    参考:


    32个Python爬虫项目


    都是谁在反对996?


    Python和Java薪资最高,C#最低!


    给《流浪地球》评1星的都是什么心态?


    《都挺好》弹幕数据,比剧情还精彩?


    爬了自己的微信好友,原来他们是这样的人……

    春节人口迁徙大数据报告!

    七夕前消费趋势数据

    爬了一下天猫上的Bra购买记录,有了一些羞羞哒的发现...

    Python做了六百万字的歌词分析,告诉你中国Rapper都在唱些啥

    分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

    十二星座的真实面目

    唐朝诗人之间的关系到底是什么样的?

    中国姓氏排行榜

    三.爬虫

    数据爬取

    现在猫眼电影网页似乎已经全部服务端渲染了,没有发现相应的评论接口,参考了之前其他文章中对于猫眼数据的爬取方法,找到了评论接口!

    https://api.bilibili.com/x/v2/reply?type=1&oid=37942085&sort=0&_=1557108277117&pn=

     

    接下来爬取评论:

    最终我们获取到了大约796条数据

    数据分析

    数据分析我们使用了百度的pyecharts、excel以及使用wordcloud生成词云

    评论分布城市

    由图中可以看出主要分布在各大一线、新一线城市,对于杭州为何会排在第17的位置,我觉得可能是大家都用淘票票的缘故吧!

    接下来是评分占比情况

    由图中可以看出,评分在4以上的占比达到了94%,而平均评分也达到4.68分!!!

    再来看一下各城市评分情况:

    词云代码

    词云出现较多的是好看、特效、剧情、震撼等,可以看出大家对此电影对特效和剧情还是十分认同的

    四、总结:

    经过对哔哩哔哩电影上《海王》这部电影的部分评论的爬取、分析、数据可视化之后,从中总结出对电影的感想:

    《海王》这部电影从剧情上来看,编排得非常完美和符合逻辑,如果说电影里的海王,他了解陆地也了解海洋的话,那么温才他了解美国也了解中国;从特技上来看呢,也堪比《阿凡达》、《魔戒》。这些都是我们没有幻想到的世界,都是我们无法预测的神秘。只有您无法预测剧情和无法预知特效,才算是震撼,才能算是好电影。所以任何人要想在自己的生涯中获得成功,首先要突破的障碍不是技能,不是知识,不是地位,而是自己

  • 相关阅读:
    在maven工程指定java版本并指定编码格式
    Spring boot 静态资源访问
    Spring Boot 11 : Redis
    Java 计算均值
    Spring Boot 12 : AOP
    Spring Boot 11 : 配置文件读取
    Java文本标签处理
    Spring Boot 10:处理Json数据中的null值
    Spring Cloud 7:Gateway
    Spring Cloud 6:服务消费
  • 原文地址:https://www.cnblogs.com/lxyu/p/10775490.html
Copyright © 2011-2022 走看看