分布式爬虫(5)：微博数据爬取 - 走看看

zoukankan html css js c++ java

分布式爬虫(5)：微博数据爬取
一、使用Selenium+Phantoms来抓取数据

　　　　1.登录：最重要的是设置User-Agent，否则无法转跳链接　
from selenium.webdriver.common.desired_capability import DesiredCapabilities
user_agent=(
　　"Mozilla/5.0()"

)
　　　　2.输入用户名和密码：
<input id="loginname" type="text" class="W input" maxlength="128" autocomplete="off" action-data="text=........" name="username" node-type="username" tabindex="1">
　　　　(1)为了与微博内容交互，需要用到javascript

　　　　　　相关的javascript代码：

　　　　　　document.getElementById('loginname').value='abc'

　　　　　　document.getElementsByName('password')[0].value='abc'

　　　　　　通过Selenium提供的send_keys来进行传递value

　　　　　　driver.find_element_by_id('loginname').send_keys(username)

　　　　　　driver.find_element_by_name('password').send_keys(password)

二、微博接口分析

三、直接调用微博API来抓取

四、表单及登录

四、表单及登录
查看全文

相关阅读:
作业1-四则运算题目生成程序
 实验四决策树算法及应用
 实验三朴素贝叶斯算法及应用
 自定义博客园背景
 机器学习实验二 K-近邻算法及应用
 机器学习实验一感知器及其运用
 实验三面向对象分析与设计
 实验二结构化分析与设计
 实验一：软件开发文档与工具的安装与使用
 朴素贝叶斯学习日志——简单案例python计算过程

原文地址：https://www.cnblogs.com/bigdata-stone/p/9861479.html

Copyright © 2011-2022 走看看