关于爬虫 - 走看看

zoukankan html css js c++ java

关于爬虫

技术选型

scrapy VS requests+beautifulsoup

1.　requests+beautifulsoup都是库，而scrapy是框架

2.　scrapy框架中可以加入requests+beautifulsoup

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优势

4.　scrapy方便扩展，提供了很多内置的功能

5.　scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢

网页分类

1.　静态网页

2.　动态网页

3.　webservice(rest api)

爬虫的作用

1.　搜索引擎：Googel、百度、垂直领域搜索引擎

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

关于Python爬虫，我们需要学习的有

1. Python基础语法学习（基础知识）

2. HTML页面的内容抓取（数据抓取）

3. HTML页面的数据提取（数据清洗）

4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

查看全文

相关阅读:
git push时提示"fatal: The current branch master has no..."
git push时提示"Everything up-to-date"
图解vim常用命令
 总结下git中一些常用命令
 SVN服务端的版本对比及创建仓库时的注意事项
 bootstrap字体图标不正常显示的原因
 bigdata_Hadoop jps出现process information unavailable提示解决办法
 bigdata_批量机器执行通用脚本
 bigdata_ambari修改hiveserver_metastore链接库（从0.14 升级到1.2.1 ）
bigdata_一篇文看懂Hadoop

原文地址：https://www.cnblogs.com/twodog/p/12135716.html

Copyright © 2011-2022 走看看