关于爬虫 - 走看看

zoukankan html css js c++ java

关于爬虫

技术选型

scrapy VS requests+beautifulsoup

1.　requests+beautifulsoup都是库，而scrapy是框架

2.　scrapy框架中可以加入requests+beautifulsoup

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优势

4.　scrapy方便扩展，提供了很多内置的功能

5.　scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢

网页分类

1.　静态网页

2.　动态网页

3.　webservice(rest api)

爬虫的作用

1.　搜索引擎：Googel、百度、垂直领域搜索引擎

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

关于Python爬虫，我们需要学习的有

1. Python基础语法学习（基础知识）

2. HTML页面的内容抓取（数据抓取）

3. HTML页面的数据提取（数据清洗）

4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

查看全文

相关阅读:
verilog学习（1）基本语法
 DC学习（11）综合产生的文件
 DC学习（10）其他的时序约束选项
 DC学习（9）综合后处理时序分析
 DC学习（8）综合与优化
 DC学习（7）环境和面积约束
 DC学习（6）基本时序约束之路径2时钟的建模与约束
 今天突发奇想写了一个小工具，CSDN文章目录生成器
 莫逸风CSDN文章目录
 Oracle基本用法（一）

原文地址：https://www.cnblogs.com/twodog/p/12135717.html

Copyright © 2011-2022 走看看