网络爬虫 - 走看看

zoukankan html css js c++ java

网络爬虫
网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。常见的爬虫工具有：正则表达式、Selenuim、Beautifulsoup等。本例将利用selenium库做一个很简单的例子-爬区百度首页、输出标题、截屏保存、输出百度新闻栏。本实验在LUbuntu16.10上运行。
1.安装selenium库：
```
# pip install selenium
```
如果没有pip工具，可先安装apt install pip。另外安装selenium，pip需要的版本为9.0.1，所以对pip进行升级。
2.安装相应浏览器：
selenium库支持谷歌、Firefox、IE等。
3.例子代码如下：
```
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print (data)
driver.save_screenshot('baidu.png')
word = driver.find_element_by_id("u1")
print word.text
```
4.运行程序：
```
# Python *.py
```
如果系统没有安装geckodriver，会报错：Geckodriver executable needs to be in PATH。这是因为geckodriver是一原生态的第三方浏览器，对于selenium3.x版本都会使用geckodriver来驱动firefox。Geckodirver的下载地址：https://github.com/mozilla/geckodriver/releases，根据系统选择相应的版本。解压完毕之后，可将geckodriver拷贝至/usr/bin下，或者在PATH环境变量中加入geckodriver的路径：
export PATH=/your geckodriver’s path:$PATH
重新执行即可。
查看全文

相关阅读:
ThinkPHP框架知识（比较全的知识）
利用smarty模板（登录、有关信息操作等功能）
从零开始学习Node.js例子七发送HTTP客户端请求并显示响应结果
 从零开始学习Node.js例子六 EventEmitter发送和接收事件
 从零开始学习Node.js例子五服务器监听
 从零开始学习Node.js例子四多页面实现数学运算续二(client端和server端)
从零开始学习Node.js例子四多页面实现数学运算续一(使用connect和express框架)
从零开始学习Node.js例子四多页面实现数学运算
 从零开始学习Node.js例子三图片上传和显示
 从零开始学习Node.js例子二文本提交与显示

原文地址：https://www.cnblogs.com/mrxsc/p/7453277.html

Copyright © 2011-2022 走看看