zoukankan      html  css  js  c++  java
  • python爬虫之路第一篇:入门

    网络爬虫:

      又称网页蜘蛛,把互联网想象成类似于蜘蛛网一样的构造,那么这只爬虫,就是要在上面爬来爬去的,以便捕获我们需要的资源。

    urllib模块:

      使用Python编写爬虫代码,要解决的第一个问题是:python如何访问互联网,为了解决这个难题,就需要用到python为我们准备的urllib模块了。urllib由两个单词组成,URL就是平时所说的网页的地址,URL的一般格式:protocol://hostname[port]/path/[;parameters][? query] # fragment,lib就是library(库)的缩写。

    URL由三部分组成

    • 协议,常见的协议有http、https、ftp、file(访问本地文件夹)等等
    • 存放资源的服务器的域名系统(DNS)主机名和IP地址(有时候要包含端口号,各种传输协议都有默认的端口号)
    • 主机资源的具体地址,如目录和文件名等

      其实urllib是一个包,里面总共有四个模块。第一个模块是最复杂的 也是最重要的,因为它包含了对服务器请求的发出、跳转、代理和安全等各个方面。通过urllib.request.urlopen()函数就可以访问网页了,可以先来体验一番:

    1 import urllib.request
    2 response = urllib.request.urlopen("http://www.fishc.com")
    3 html = response.read()
    4 print(html)

    将html还原为带中文的html代码,需要使用decode()方法对其解码,将它变成Unicode编码:

    1 import urllib.request
    2 response = urllib.request.urlopen("http://www.fishc.com")
    3 html = response.read()
    4 html = html.decode("utf-8")
    5 print(html)
  • 相关阅读:
    【转】ArcGIS 合并要素 Union Dissolve Append Merge
    Linux命令行下编辑常用快捷键
    rpm aid用法
    SUSE 吉祥物图片
    F9初装体验
    openSUSE10、SUSE EVAL10和SUSE10的区别[翻译]
    装有Linux DIY牛人百元人民币昂贵甜头液晶一体机
    SUSE10.3恢复GRUB体例
    64位Fedora还挑CPU
    Ubuntu8.04安置XCrysDen
  • 原文地址:https://www.cnblogs.com/wanghao123/p/8722246.html
Copyright © 2011-2022 走看看