爬虫常用相关库 - 走看看

zoukankan html css js c++ java

爬虫常用相关库

1.爬取数据的库和框架：urllib2和urllib, urllib3, requests, 框架：scrapy 和分布式爬取库 scrapy-redis

2.解析html数据的：正则， xpath(语言) BeautifulSoup4

3.解析json数据的库：JsonPath

4.json通用提取数据方式是：先转换成python中字典，根据key取值，json库

5.数据分析的库：numpy, pandas

6.可视化的库：Matplotlib

7.数据存储：文件，mysql, mongodb, redis

注意：urllib2在python3中被改为 urllib.request ; python解释器自带urllib和urllib2 这两个库；

查看全文

相关阅读:
Random类
 类型转换
 一个简单的Web登录程序
 第一个Servlet程序
 使用MyEclipse开发服务器的部署方式（续）
MyEclipse配置
 Tomact问题
 Tomact配置
 HTTP基础：URL格式、 HTTP请求、响应、消息
 关闭二维码

原文地址：https://www.cnblogs.com/guo-s/p/13954205.html

Copyright © 2011-2022 走看看