zoukankan      html  css  js  c++  java
  • 爬虫----初级概念的架构

    每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。

    首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:

    网页---》爬虫处理---》保存;

    只要将这三个部分处理好了,爬虫也就会了。(基于python语言)

    然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:

    1. 对网页结构要有足够的理解-----熟悉HTML语言

    2.获取网页信息工具:requests包(python包)

    import requests

    variable = requests.get(url)

    3.处理网页信息工具:BeautifulSoup(python包)

    from bs4 import beautifulsoup

    soup = beautifulsoup(variable)

    待续。。。

    4.信息存储工具(待续)

    5.代码编辑器(pycharm)

    敢于面对难题,敢于面对自己。
  • 相关阅读:
    Hadoop之hive 其他
    mac 安装mysql
    Mac OS X【快捷键组合】汇总
    一月一城市,一年一大洲
    自信的男生最有魅力
    Python之路
    Hadoop之伪分布环境搭建
    smb
    Maven 安装以及一些开发技巧
    Hadoop之 hdfs 系统
  • 原文地址:https://www.cnblogs.com/cittysteven/p/10421222.html
Copyright © 2011-2022 走看看