zoukankan      html  css  js  c++  java
  • python爬虫之路第一篇:入门

    网络爬虫:

      又称网页蜘蛛,把互联网想象成类似于蜘蛛网一样的构造,那么这只爬虫,就是要在上面爬来爬去的,以便捕获我们需要的资源。

    urllib模块:

      使用Python编写爬虫代码,要解决的第一个问题是:python如何访问互联网,为了解决这个难题,就需要用到python为我们准备的urllib模块了。urllib由两个单词组成,URL就是平时所说的网页的地址,URL的一般格式:protocol://hostname[port]/path/[;parameters][? query] # fragment,lib就是library(库)的缩写。

    URL由三部分组成

    • 协议,常见的协议有http、https、ftp、file(访问本地文件夹)等等
    • 存放资源的服务器的域名系统(DNS)主机名和IP地址(有时候要包含端口号,各种传输协议都有默认的端口号)
    • 主机资源的具体地址,如目录和文件名等

      其实urllib是一个包,里面总共有四个模块。第一个模块是最复杂的 也是最重要的,因为它包含了对服务器请求的发出、跳转、代理和安全等各个方面。通过urllib.request.urlopen()函数就可以访问网页了,可以先来体验一番:

    1 import urllib.request
    2 response = urllib.request.urlopen("http://www.fishc.com")
    3 html = response.read()
    4 print(html)

    将html还原为带中文的html代码,需要使用decode()方法对其解码,将它变成Unicode编码:

    1 import urllib.request
    2 response = urllib.request.urlopen("http://www.fishc.com")
    3 html = response.read()
    4 html = html.decode("utf-8")
    5 print(html)
  • 相关阅读:
    JAVA设计模式之观察者模式 IT
    基本的SqlPlus命令
    JAVA中SERIALVERSIONUID的解释
    msSQL
    java解析超大xml(1G),一般数据挖掘dblp.xml文件的解析
    在oracle中用sql脚本生成csv文件举例
    sql 复习知识大全2
    sql 复习知识大全1
    3.17作业解答
    3.20作业解答
  • 原文地址:https://www.cnblogs.com/wanghao123/p/8722246.html
Copyright © 2011-2022 走看看