zoukankan      html  css  js  c++  java
  • 林文豪————第一次个人编程作业

    博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
    作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
    作业目标 1. 爬取电视剧《在一起》的评论 2.数据处理 3.生成词云 4.将代码上传到Github
    作业源代码 https://github.com/KKBKKO/first-personal-work
    学号 211806122
    步骤 花费时间
    1.采集影评数据 3h
    2.处理数据 4h
    3.数据生成词云图 2h
    4.上传到Github 1h

    1.评论爬取
    (1)打开腾讯视频搜索电视剧《在一起》,点击进入评论区。

    (2)对网页的request请求进行分析,可以发现网页是异步加载的。

    (3)查看更多评论得到新的响应。

    (4)打开控制台,点开network,可以得到当前页面的resquest-url,多次刷新查看评论并进行观察,会发现每次都会有一个V2开头的标签,点开可以发现评论信息。

    (5)会发现url的规律,变化的只有尾部的数字和"cursor="后面的数字,于是可以根据这个进行爬取数据了,并把它保存在txt文件中。

    2.数据处理
    使用正则爬取

    获得评论

    3.生成词云

    4.上传到Github
    ·通过命令进入到自己需要操作的文件夹内,进入master模式。
    ·连接我的github仓库
    ·输入"git clone"仓库HTTPS地址,将远程仓库的项目克隆到本地仓库

    cd进入first-personal-work文件,"git branch -a"查看所有分支
    输入"git checkout crawl"切换分支

    输入"git add 文件名",将文件添加到暂存区

    个人感悟
    这次的个人编程作业对我来说着实有着不小的难度,通过网上查询资料与向同学请教才跌跌撞撞出来,认识到了自己的欠缺与不足。通过这次的任务,也了解到了很多有趣实用的知识,希望开学后可以更好的进行学习。未来的路还很长,希望自己可以一路披荆斩棘,攻克一个又一个的难关。

  • 相关阅读:
    <锋利的jQuery>读书笔记
    OpenStack虚拟机冷迁移与热迁移
    oh-my-zsh安装和简单定制
    sqlalchemy查询结果类型简析
    python 错误捕获机制分析
    《JavaScript.DOM》读书笔记
    <HTML深入浅出> 读书笔记
    Python多任务—进程
    Python多任务—线程
    Go的流程控制
  • 原文地址:https://www.cnblogs.com/kkbkl/p/14447038.html
Copyright © 2011-2022 走看看