我们计划抓取的数据:杭州的天气信息
实现数据抓取的逻辑:使用python 请求 URL,会返回对应的 HTML 信息,我们解析 html,获得自己需要的数据。(很简单的逻辑)
第一步:创建 Python 文件
data:image/s3,"s3://crabby-images/c04f1/c04f11e0f96bb7cc61524e28141fc4f790971c1a" alt=""
写第一段Python代码
data:image/s3,"s3://crabby-images/d162c/d162c6d6abb265f27db476317381ce3e1d298336" alt=""
这段代码类似于 Java 中的 Main 方法。可以直接鼠标右键,选择 Run。
data:image/s3,"s3://crabby-images/0fe70/0fe709d3db4c987cf206757ef11d93943ad92130" alt=""
第二步:请求RUL
python 的强大之处就在于它有大量的模块(类似于Java 的 jar 包)可以直接拿来使用。
我们需要安装一个 request 模块: File - Setting - Product - Product Interpreter
data:image/s3,"s3://crabby-images/bda3c/bda3c47504da63ba7e300670bcaa5e6b8536035a" alt=""
data:image/s3,"s3://crabby-images/fb131/fb13197db6833872dd7936275b92b0a3db7c4a72" alt=""
点击如上图的 + 号,就可以安装 Python 模块了。搜索 requests 模块(有 s 噢),点击 Install。
data:image/s3,"s3://crabby-images/74ef2/74ef2e5c7c1c1e4ed5f0af1096e431452f553e80" alt=""
我们顺便再安装一个beautifulSoup4 和 pymysql模块,beautifulSoup4 模块是用来解析 html 的,可以对象化 HTML 字符串。pymysql 模块是用来连接 mysql 数据库使用的。
data:image/s3,"s3://crabby-images/e9a4a/e9a4a5dacbddffb98576b2aa4b2fa4a71c7a0ac4" alt=""
data:image/s3,"s3://crabby-images/c2384/c23845fdbb2664cb04d1d76796e8efca4736fad7" alt=""
相关的模块都安装之后,就可以开心的敲代码了。
定义一个 getContent 方法:
data:image/s3,"s3://crabby-images/87e28/87e28b8d925ba251f1122e9ada261239bc9e9201" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/c2dee/c2dee5ae356ac96079e3253d278c6ddc9c211a31" alt=""
第三步:分析页面数据
定义一个 getData 方法:
data:image/s3,"s3://crabby-images/ae108/ae108450c48f48eed4f467b5297f21c54e007a48" alt=""
上面的解析其实就是按照 HTML 的规则解析的。可以打开杭州天气在开发者模式中(F12),看一下页面的元素分布。
data:image/s3,"s3://crabby-images/ff1af/ff1af863762eae24935528f905302bff0ee64204" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/e235e/e235e1631aa3cf8721794d0696964c8bb6e3429f" alt=""
数据写入excel
现在我们已经在 Python 中拿到了想要的数据,对于这些数据我们可以先存放起来,比如把数据写入 csv 中。
定义一个 writeDate 方法:
data:image/s3,"s3://crabby-images/d7c9c/d7c9c191a4fac87fa283878e44f1184721cf6800" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/c5545/c55459547ed51b3c97e2a8cba2a551e1b175f2a9" alt=""
执行之后呢,再指定路径下就会多出一个 weather.csv文件,可以打开看一下内容。
data:image/s3,"s3://crabby-images/703fa/703faf5a05aca469897138b0d4a67004d485bc27" alt=""
data:image/s3,"s3://crabby-images/7362c/7362c681603d597b1af02c5bf6433e6cc494a1aa" alt=""
到这里最简单的数据抓取--储存就完成了。