爬虫综合大作业

zoukankan html css js c++ java

爬虫综合大作业
爬虫综合大作业

作业要求来自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159

可以用pandas读出之前保存的数据：见上次博客爬取全部的校园新闻并保存csv

newsdf = pd.read_csv(r'F:duymgzccnews.csv')

一.把爬取的内容保存到数据库sqlite3

import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
newsdf.to_sql('gzccnews',con = db)

with sqlite3.connect('gzccnewsdb.sqlite') as db:
df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)

保存到MySQL数据库
- import pandas as pd
- import pymysql
- from sqlalchemy import create_engine
- conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
- engine = create_engine(conInfo,encoding='utf-8')
- df = pd.DataFrame(allnews)
- df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False）
成功保存：

二.爬虫综合大作业
1. 选择一个热点或者你感兴趣的主题。
2. 选择爬取的对象与范围。
3. 了解爬取对象的限制与约束。
4. 爬取相应内容。
5. 做数据分析与文本分析。
6. 形成一篇文章，有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
7. 文章公开发布。
参考：

32个Python爬虫项目

都是谁在反对996？

Python和Java薪资最高，C#最低！

给《流浪地球》评1星的都是什么心态？

《都挺好》弹幕数据，比剧情还精彩？

爬了自己的微信好友，原来他们是这样的人……

春节人口迁徙大数据报告！

七夕前消费趋势数据

爬了一下天猫上的Bra购买记录，有了一些羞羞哒的发现...

Python做了六百万字的歌词分析，告诉你中国Rapper都在唱些啥

分析了42万字歌词后，终于搞清楚民谣歌手唱什么了

十二星座的真实面目

唐朝诗人之间的关系到底是什么样的？

中国姓氏排行榜

三.爬虫注意事项

1.设置合理的爬取间隔，不会给对方运维人员造成压力，也可以防止程序被迫中止。
- import time
- import random
- time.sleep(random.random()*3)
2.设置合理的user-agent，模拟成真实的浏览器去提取内容。
1. 首先打开你的浏览器输入：about:version。
2. 用户代理:
3. 收集一些比较常用的浏览器的user-agent放到列表里面。
4. 然后import random，使用随机获取一个user-agent
5. 定义请求头字典headers={’User-Agen‘：}
6. 发送request.get时，带上自定义了User-Agen的headers
3.需要登录

发送request.get时，带上自定义了Cookie的headers

headers={’User-Agen‘：

'Cookie': }

4.使用代理IP

通过更换IP来达到不断高效爬取数据的目的。

headers = {

    "User-Agent": "",

}

proxies = {

    "http": " ",

    "https": " ",

}

response = requests.get(url, headers=headers, proxies=proxies)

python大作业之--使用python爬取微信好友

01 准备工作

运行平台：Windows 10
Python版本：Python3.7

首先链接
```
返回实时日期
```
```
返回影片票房
```
```
创建文件
```
输出结果

根据获取到画词云

输出结果
查看全文

相关阅读:
日期和时间运算：上月最后一天
 SY全局系统字段
 内表、结构赋值转换规则
 基本类型赋值转换规则表
 嵌套结构使用：struc1-struc2-XXX
TYPES、DATA、TYPE、LIKE、CONSTANTS、STATICS、TABLES
ABAP WRITE、WRITE TO、FORMAT语句
 ABAP DESCRIBE语句
 数据词典与ABAP类型映射
 Field+offset(len)

原文地址：https://www.cnblogs.com/zhouyihan/p/10836198.html