爬虫----初级概念的架构 - 走看看

zoukankan html css js c++ java

爬虫----初级概念的架构

每次遇到爬虫，总会听到python，php等等词，其实什么语言无所谓，只要会用就行了。当然，有些人听到爬虫，就会觉得很高级，还在写网站的时候就在想反扒技术什么的，搞得爬虫变成了一个神秘莫测的东西。然而，我想告诉你的是爬虫真的很简单，几分钟搞定它的基本架构，下面请跟我来。

首先，爬虫要做的事情是将获取网页信息，并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分：

网页---》爬虫处理---》保存；

只要将这三个部分处理好了，爬虫也就会了。(基于python语言）

然而，从网页上获取数据，以及对数据进行处理，然后将数据进行存储，这些都是需要爬虫这部分要做的。下面我将对工具进行介绍：

1. 对网页结构要有足够的理解-----熟悉HTML语言

2.获取网页信息工具：requests包（python包）

import requests

variable = requests.get(url)

3.处理网页信息工具：BeautifulSoup（python包）

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具（待续）

5.代码编辑器（pycharm）

敢于面对难题，敢于面对自己。

查看全文

相关阅读:
[gym102832J]Abstract Painting
[atARC070E]NarrowRectangles
[atARC070F]HonestOrUnkind
Cupid's Arrow[HDU1756]
Surround the Trees[HDU1392]
TensorFlow-正弦函数拟合
 某新版本不兼容老版本代码的语言的一点基础了解
 TensorFlow安装
 离散快速傅里叶变换
 2016"百度之星"

原文地址：https://www.cnblogs.com/cittysteven/p/10421222.html

Copyright © 2011-2022 走看看