python爬虫 - 走看看

zoukankan html css js c++ java

python爬虫
爬虫

以下内容纯自己理解的

爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取，
要是没有就是动态网页，要分析json等响应最后转换成python能懂得语言，解析数据字典

scrapy框架步骤
1. scrapy startproject 项目名称
2. scrapy genspider 爬虫名字域名爬虫名字不能是数字开头的最好是英文的
3. 编写爬虫（敲代码）
4. 运行爬虫 scrapy crawl 爬虫名字
例子
1. 创建项目框架scrapy startproject jobspider
2. 创建爬虫scrapy genspider job 51job.com
3. 编写爬虫
4. 运行爬虫 scrapy crawl job
循环的代码提取内容

book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book

scrapy crawl 项目名称（qd）-o book.csv/xml/json能拿到这些格式

setting 里面要开启好多东西包括pipelines
PIPELINES的介绍。。。
yield的使用，数据的操作

xpath('内容提取信息的规则').extract（）是获取数据前面的是返回来的响应

另一个爬虫框架 crawlscrapy
scrapy genspider -t crawl 爬虫名字域名

和scrapy的区别是多了一个rules规则这里是获取响应并且回传到parse_item 就相当于parse那个函数，同时可以进行多次的rules，响应返回来再做处理

图片的便捷取出方法
image

middlewares 动态的ua
动态代理
查看全文

相关阅读:
Solr 配置中文分词器 IK
Solr 访问 403 错误
 阿里巴巴在线代码检查工具
 『调错』OGG Error opening module ggjava_ue.dll
『取巧』VS2015试用期过后继续试用
 『开源』设置系统主音量（0~100 静音） VolumeHelper 兼容 Xp Win7 .Net 20 AnyCPU
『尝试』随手绘制几张点阵图片
 『实用』过滤字符串中的幽灵字符
 『转载』从内存资源中加载C++程序集：CMemLoadDll
『开源重编译』System.Data.SQLite.dll 自适应 x86 x64 AnyCPU 重编译

原文地址：https://www.cnblogs.com/wkjava/p/12860216.html

Copyright © 2011-2022 走看看