还没被玩坏的robobrowser(6)——follow_link - 走看看

zoukankan html css js c++ java

还没被玩坏的robobrowser(6)——follow_link
背景

在做spider的时候，我们经常会有点击链接的需求。

考虑这样的一个简单spider：获取qq.com主页上的今日话题中的内容。

一般思路是先去qq.com首页上找到今日话题的链接，然后点击这个链接到内容页面，最后抓取里面的内容就好了。

这一节里我们就要实现这个功能。

预备知识

robobrowser的follow_link方法可以点击链接并自动完成跳转。

代码
```
#coding: utf-8
import re
from robobrowser import RoboBrowser

url = 'http://www.qq.com/'
b = RoboBrowser(history=True)
  b.open(url)

# 获取今日话题这个link
  today_top = b.find(id='todaytop').a  
  print today_top['href']

  b.follow_link(today_top)

# 这个时候已经跳转到了今日话题的具体页面了

# 打印标题
  title = b.select('.hd h1')[0]
  print '*************************************'
  print title.text
  print '*************************************'

# 打印正文内容
  print b.find(id='articleContent').text
```
讨论

注意一下follow_link的用法。一般来说都是用find/select/find_all方法过滤出相应的链接，然后调用b.follow_link(link)的方式去点击该链接。

文本版权归乙醇所有，欢迎转载，但请标明出处。

下一节: 提交表单
查看全文

相关阅读:
喜马拉雅第三方客户端开发（接口和接口数据解析）。
jquery-easyui中datagrid扩展，隐藏显示表头功能
 backbone ，jQuery-easyui，knockoutjs的整合使用
 WPF中的瀑布流布局（TilePanel）控件
 使用this.$refs['formName'].resetFields()无法重置表单
 js获取json对象的key值
 Hash表算法详解
 Redis入门
 ASP.Net 下载大文件的实现
 后端生成二维码

原文地址：https://www.cnblogs.com/nbkhic/p/4216146.html

Copyright © 2011-2022 走看看