zoukankan      html  css  js  c++  java
  • 跟我学爬虫-1-爬虫简介

    网络爬虫简介
      所谓爬虫,其实就是自动从互联网上获取网页信息的程序或者脚本,甚至简单到一两行代码,只要能达到自动获取信息的目的,都可以称之为爬虫。
      本系列文章主要是为那些希望加入爬虫界的小白们准备的,水平有限,大牛请包涵。

    爬虫程序分类简介

      程序可大致分为两种,可视化和非可视化的爬虫程序。

    • 可视化爬虫工具,例如八爪鱼、火车头等。此类工具使用简单,界面友好。非常适合不懂编程但有简单数据需求的人使用。  
    • 代码类,大部分语言都有自己的爬虫框架,比如python语言的scrapy,其他语言的话java、C#、Ruby都有,不过我不知道比较好的是哪个,就不说了。
    • 第三类就是一些简单的脚本了。可能不如框架那么功能完备,不如可视化工具那么简单易用。但脚本胜在灵活,不受限制,可以随意定制需要的功能。


    本系列简介

    • 学会如何使用python语言编写简单脚本进行网页信息采集
    • 学会如何提取有效信息
    • 学会如何应付反爬虫机制
    • ......待续


    前置技能

    实例讲解
    然后就没什么可说的了,先来个小例子练习一下吧,我会直接写代码,然后再进行讲解

    #coding:utf8
    '''
    # 示例代码
        使用 python 的 requests 模块
        下载网页 http://httpbin.org/ip
        保存到文件 httpbin_ip.html
    '''
    import requests
    url = 'http://httpbin.org/ip'
    response = requests.get(url)
    f = open("httpbin_ip.html", 'w')
    f.write(response.content)
    f.close()
    

    上面的代码很简单,实现的功能也很简单。
    代码中主要使用了 python 的一个第三方模块 requests, 以及对文件的操作方法。

    • requests 模块的详解会在后续的文章中,安装这个模块的话,使用 pip install requests 即可,此处简单说一下上面用到的两个方法。
    • requests.get() 接收一个字符串url作为参数,返回值为下载完指定url后封装成的一个requests模块自定义的Response对象,这个对象中包含了许多关于本次下载过程的信息,详细的会在requests 模块详解中提到。
    • response.content 是获取response中包含的网页源代码的方法。

    文件操作也简单说一下

    • open 方法为 python 自带的一个方法,接收的第一个参数为文件名,第二个是打开文件的模式,w是写模式,如果指定的文件不存在则创建一个文件,存在则清空原来文件内容,返回值为一个文件对象
    • f.write() 函数接收一个字符串作为参数,作用是将指定字符串写入文件
    • f.close() 会关闭打开的文件,并对之前进行的写入进行保存,如果不进行关闭的话,之前的写入不会保存的,创建的就是一个空文件

    运行完代码后可以看一下在文件里看到的内容和你在网页上看到的一样吗,

    如果一样,那么恭喜你,你已经迈进爬虫界半步了,加油!!!世界属于你。

  • 相关阅读:
    ubuntu(linux)虚拟主机部署桌面,使用window链接
    扫描shader
    Android Studio快捷键
    eclipse取消空格、等号、分号自动录入
    Libgdx学习记录28——创建Desktop程序
    设计模式19——代理模式
    设计模式18——模板方法
    设计模式17——解释器模式
    设计模式16——工厂模式
    设计模式15——外观模式
  • 原文地址:https://www.cnblogs.com/dyfblog/p/5765868.html
Copyright © 2011-2022 走看看