使用scrapy框架爬取自己的博文（3） - 走看看

zoukankan html css js c++ java

使用scrapy框架爬取自己的博文（3）
　　既然如此，何不再抓一抓网页的文字内容呢？

　　谷歌浏览器有个审查元素的功能，就是按树的结构查看html的组织形式，如图：

　　

这样已经比较明显了，博客的正文内容主要在div 的class = cnblogs_post_body 的字段p中，xpath秒杀搞定的节奏。

sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract()

直接在scrapy框架下运行的话一来慢，二来错了范围太大也不知道哪里的问题，用ipython的shell 命令比较直接！

scrapy shell http://www.cnblogs.com/huhuuu/p/3709336.html

然后会返回一个选择器的实例对象sel，直接对sel处理就可以了。

sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract() 的结果：

看来这个表达式起作用了

然后把它写到自己的spider中运行，

有个空格符‘xa0’好像编译器支持的不好，没事，忽略就好
for data in item['description']: strTmp ='' for i in data: if (i != u'xa0'): #'xa0'这个字符编译器不能识别，所以处理掉 #print i strTmp += i print strTmp
再运行，每篇博客的内容都爬取过来了，ok，爬取网页内容的任务完成！
查看全文

相关阅读:
Java中-classpath和路径的使用
 总是分不清
 Maven Web项目部署到Tomcat下问题
 一、数据设计规范
 一、入职学习
 一、服务器控件
 WebApiThrottle限流框架
 一、接口的规则
 一、免费API调用
 十、锁

原文地址：https://www.cnblogs.com/huhuuu/p/3709573.html

Copyright © 2011-2022 走看看