zoukankan      html  css  js  c++  java
  • 爬虫综合大作业

    作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

    一.把爬取的内容保存取MySQL数据库

    • import pandas as pd
    • import pymysql
    • from sqlalchemy import create_engine
    • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
    • engine = create_engine(conInfo,encoding='utf-8')
    • df = pd.DataFrame(allnews)
    • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)

    二.爬虫综合大作业

    1. 选择一个热点或者你感兴趣的主题。
    2. 选择爬取的对象与范围。
    3. 了解爬取对象的限制与约束。
    4. 爬取相应内容。
    5. 做数据分析与文本分析。
    6. 形成一篇文章,有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
    7. 文章公开发布。

    参考:

    32个Python爬虫项目

    都是谁在反对996?

    Python和Java薪资最高,C#最低!

    给《流浪地球》评1星的都是什么心态?

    《都挺好》弹幕数据,比剧情还精彩?

    爬了自己的微信好友,原来他们是这样的人……

    春节人口迁徙大数据报告!

    七夕前消费趋势数据

    爬了一下天猫上的Bra购买记录,有了一些羞羞哒的发现...

    Python做了六百万字的歌词分析,告诉你中国Rapper都在唱些啥

    分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

    十二星座的真实面目

    唐朝诗人之间的关系到底是什么样的?

    中国姓氏排行榜

    三.爬虫注意事项

    1.设置合理的爬取间隔,不会给对方运维人员造成压力,也可以防止程序被迫中止。

    • import time
    • import random
    • time.sleep(random.random()*3)

    2.设置合理的user-agent,模拟成真实的浏览器去提取内容。

    1. 首先打开你的浏览器输入:about:version。
    2. 用户代理:
    3. 收集一些比较常用的浏览器的user-agent放到列表里面。
    4. 然后import random,使用随机获取一个user-agent
    5. 定义请求头字典headers={’User-Agen‘:}
    6. 发送request.get时,带上自定义了User-Agen的headers

    3.需要登录

    发送request.get时,带上自定义了Cookie的headers

    headers={’User-Agen‘:  

    'Cookie':    }

    4.使用代理IP

    通过更换IP来达到不断高 效爬取数据的目的。

    headers = {
        "User-Agent": "",
    }
    proxies = {
        "http": " ",
        "https": " ",
    }
    response = requests.get(url, headers=headers, proxies=proxies)

    四、爬取豆瓣的影评

    爬取《流浪地球》的好、中、差短评并分词分析。

    import os
    import requests
    import codecs
    from bs4 import BeautifulSoup
    
    # 给请求指定一个请求头来模拟chrome浏览器
    global headers
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
    server = 'https://movie.douban.com/subject/26266893/comments'
    # 定义存储位置
    global save_path
    save_path = os.getcwd()+"\Text\"+'短评_差评.txt'
    global page_max
    page_max = 25
    global comments
    comments = ''
    
    
    # 获取短评内容
    
    def get_comments(page):
    
        req = requests.get(url=page)
        html = req.content
        html_doc = str(html, 'utf-8')
        bf = BeautifulSoup(html_doc, 'html.parser')
        comment = bf.find_all(class_="short")
        for short in comment:
            global comments
            comments = comments + short.text
    
    # 写入文件
    def write_txt(chapter, content, code):
        with codecs.open(chapter, 'a', encoding=code)as f:
            f.write(content)
    
    # 主方法
    def main():
        for i in range(0, page_max):
            try:
                page = server + '?start='+str(i*20)+'&limit=20&sort=new_score&status=P&percent_type=1'
                get_comments(page)
                write_txt(save_path, comments, 'utf8')
            except Exception as e:
    
                print(e)
    
    if __name__ == '__main__':
        main()
    爬取内容

     

    以下为各类高频词分析

    # -*- coding: utf-8 -*-
    """
    
    @author: Rozmin
    """
    
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    import jieba
    
    txt = open(r'短评_差评.txt', 'r', encoding='utf-8').read()
    s = [line.strip() for line in open('CIyun.txt', encoding='utf-8').readlines()]
    jieba.load_userdict(s)
    wordcut = jieba.lcut(txt)
    wdict = {}
    for word in wordcut:
        if word not in s:
            if len(word) == 1:
                continue
            else:
                wdict[word] = wdict.get(word, 0) + 1
    wc = list(wdict.items())
    wc.sort(key=lambda x: x[1], reverse=True)
    for i in range(25):
        print(wc[i])
    cut_text = " ".join(wordcut)
    'print(cut_text)'
    mywc = WordCloud(font_path='msyh.ttc').generate(cut_text)
    plt.imshow(mywc)
    plt.axis("off")
    plt.show()

    抓取高频词前30

    import jieba
    import os
    
    txt = open(os.getcwd()+"\Text\"+"短评_好评.txt","r", encoding='utf-8').read()
    words = jieba.lcut(txt)
    counts = {}
    
    for word in words:
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word, 0) + 1
    
    items = list(counts.items())
    items.sort(key=lambda x: x[1], reverse=True)
    
    for i in range(0, 1):
        word, count = items[i]
    print("{0:<6}{1:>6}".format(word, count))

    好评的高频词分析:

     中评的高频词分析:

    差评的高频词分析:

    前十好评高频出现词汇:

    前十中评高频出现词汇:

    前十差评高频出现词汇:

    前十高频词汇分析基本没有任何参考价值,基本就是科幻、地球、特效、电影,这些都是电影的基本元素,其它的都是一些中性词汇。

    然后,分析了11-30的高频词汇,提取了部分关键词:

    好评:

    中评:

    差评:

    总结

    同类评分电影中,小破球的一星占比出奇的高。不管是意识形态还是商业利益,《流浪地球》注定要被美分狗和《战狼》PTSD 患者往死里整。《流浪地球》的评价问题已经不仅仅是一部电影的问题。《流浪地球》的口碑一度遭遇了严重下滑,更有人在豆瓣评分上恶意刷评价、改评价,导致电影评分从最初的高分8.5一下狂跌至7.9分。

  • 相关阅读:
    ListCtr 每一行都加上选择框
    VC中MFC check box的用法
    第二章 掌握C++(2)C++的特性(上)
    第二章 掌握C++(1)从结构到类
    道路横断面设计
    第一章 Windows程序内部运行机制(5)动手编写一个Windows程序
    第一章 Windows程序内部运行机制(4)WinMain函数(续)
    将div旋转任意角度
    地址栏图标修改
    script 错误
  • 原文地址:https://www.cnblogs.com/mofan2233/p/10786703.html
Copyright © 2011-2022 走看看