Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

zoukankan html css js c++ java

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手

1、爬取的单页面还是这个rooturl：http://blog.csdn.net/column/details/why-bug.html

2、用requests的 get方法添加一个header 请求rooturl获得网站源代码不添加header源代码里面是抓不到内容的

3、用lxml下的etree.HTML()方法将requests请求的html源码（html变量）返回给seletor这个对象

4、分析网页结构找到能够包含文章url和标题内容的区域调用返回的selector.xpath()方法返回一个Element类型对象的列表infos

5、定义一个空列表titlelists,这个大列表用来保存第6步取出的 titleurls列表和文章titlenames列表用zip函数整理成titlelist列表元素为（titleurl,titlename）元组的一个列表进而添加进大列表titlelists

6、大列表titlelists 此时的数据类型是列表每一个元素为一个小列表小列表元素为元组进行遍历切片之前用的是enumerate 方法取索引和内容现在用titlelists.index(i)方法取索引

代码如下：
#coding:utf-8 from lxml import etree import requests import sys reload(sys) sys.setdefaultencoding('utf8') rooturl='http://blog.csdn.net/column/details/why-bug.html' headers={'User-Agent':'Chrome'} req=requests.get(rooturl,headers=headers) req.encoding='utf-8' html=req.text selector=etree.HTML(html) infos=selector.xpath('//ul[@class="detail_list"]/li') titlelists=[] for info in infos: titleurls=info.xpath('h4/a/@href') titlenames=info.xpath('h4/a/text()') titlelist=zip(titleurls,titlenames) titlelists.append(titlelist) print '爬取完毕，一共爬取了%s篇文章' % len(titlelists) for i in titlelists: print '第%s篇文章为：【%s】,链接：%s' % (titlelists.index(i)+1,i[0][1],i[0][0])
　

　
查看全文

相关阅读:
找上海或深圳塑胶模具工作
 词典新选择网易推出有道[注意第二幅图中的红框]
《天气与生活》修正版已发布，以后将由南海维护
 JQuery发布1.2.3
网游产业的公关
 使用ExtJS，失去的将比得到的还多
 养成习惯，解放大脑
 Vancl网上购衫体验
 深圳人均GDP过一万美元随想
 DateChooser ASP.NET 2.0版之实用版

原文地址：https://www.cnblogs.com/Mr-Cxy/p/6298169.html