zoukankan      html  css  js  c++  java
  • 练习41:学着去说面向对象

    一 词汇训练

    • 类(class):告诉python创建一个新类型的东西。(Tell python to make a new type of thing).
    • 对象(object):两种含义:最基本类型的东西,任何实例。(the most basic type of thing,and any instance of something)。
    • 实例(instance):当你告诉python创建一个类的时候你所得到的东西。(What you get when you tell pythong to create a class).
    • def:你如何在类里面定义一个函数。(How you define a function inside a class)。
    • self:在一个类的函数里面,self是被访问的实例/对象的一个变量。(inside the functions in a class,self is a variable for the instance/object being accessed)。
    • 继承(inheritance):关于一个类能从另一个类那里继承它的特征的概念,很像你和你的父母。(The concept that one class can inhert traits from other class,much like you and your parents)。
    • 组合(composition):关于一个类可以由其它一些类构成的概念,很像一辆车包含几个轮子。(The concept that a class can be composed of other classes as parts,much like how a car has wheels)。
    • 属性(attribute):类所拥有的从组合那里得到的特性,通常是变量。(A property classes have that are from composition and are usually variables)。
    • is-a:一种用来表达某物继承自一种东西的表述,就像“三文鱼是一种鱼”。(A phrase to say that something are from inherits from another,as in a "salmon" is a "fish")
    • has-a:一种用来表达某物是由一些东西组成或具有某种特性的表述,就像“三文鱼有一个嘴巴。”(A phrase to say that something is composed of other things or has a trait,as in "a salmon has-a mouth.")

    二 短语训练

    • class X(Y) :创建一个名为 X 并继承自 Y 的类。(“Make a class named X that is-a Y.”)
    • class X(object): def __init__(self, J):类 X 有一个带有 self 和 J 参数的 __init__ 函数。(“class X has-a __init__ that takes self and J parameters.”)
    • class X(object): def M(self, J) :类 X 有一个带有 self 和 J 参数的 M 函数。(“class X has-a function named M that takes self and J parameters.”)
    • foo = X() :设 foo 为类 X 的一个实例。(“Set foo to an instance of class X.”)
    • foo.M(J)  从 foo 那里获取 M 函数,并用 self 和 J 参数来调用它。(“From foo, get the M function, and call it with parameters self, J.”)
    • foo.K = Q  从 foo 那里获取 K 属性,并设它为 Q。(“From foo, get the K attribute, and set it to Q.”)

    三 代码

    1 urllib标准库

    • 网络爬虫简介:
      • 定义:按照一定规则,自动抓取万维网信息的程序或脚本。
      • 两大特征:
        • 能按程序员要求下载数据或者内容
        • 能自动在网络上流窜(从一个网页跳转到另一个网页)
      • 两大步骤:
        • 下载网页
        • 提取正确的信息
        • 根据一定规则自动跳转其它撤销页面上执行以上两步操作
      • 爬虫分类:
        • 通用爬虫(常见的搜索引擎)
        • 专用爬虫(聚集爬虫)
      • python常用的网络包:
        • Python3:urllib、requests
    • urllib库:
      • 是什么:urllib是python内置的处理HTTP请求的库
      • 有什么:主要包含以下四个模块
        • urllib.request 请求模块:它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
        • urllib.error 异常处理模块:如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
        • urllib.parse url解析模块: parse 模块是一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。
        • urllib.robotparser robots.txt解析模块:主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。
    • urllib.request.urlopen函数:
      • 功能:用于实现对目标url的访问。
      • 函数原型:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
      • 参数介绍:一般常用的有三个——url,data,timeout
        •  url 参数:目标资源在网路中的位置。可以是一个表示URL的字符串(如:https://www.boxuegu.com);也可以是一个urllib.request对象。
        • data参数:data用来指明发往服务器请求中的额外的参数信息(如:在线翻译,在线答题等提交的内容),HTTP是python中实现的众多网络通信http、https、ftp等协议中,唯一一个 使用data 参数的,也就是说只有打开的是http网址的时候,自定义data参数才会有作用。
          • data必须是一个字节数据对象(Python的bytes object)
          • data必须符合标准the standard application/x-www-form-urlencoded format,怎么得到这种标准结构的data呢?使用urllib.parse.urlencode()将自定义的data转换成标准格式,而这个函数所能接收的参数类型是pyhon中的mapping object(键/值对,如dict) or a sequence of two-element tuples(元素是tuple的列表)。
          • data也可以是一个可迭代的对象,这种情况下就需要配置response对象中的Conten-length,指明data的大小。
          • data默认是None,此时以GET方式发送请求;当用户给出data参数的时候,改为POST方式发送请求。
        • timeout参数:设置超时时间,单位是秒。
          • 如果请求超过这个时间还没有得到响应,就会抛出异常。如果没有设定的话,就会使用全局的默认时间。支持HTTP,HTTPS,FTP!
          • 我们可以设置超时时间来控制网页爬取时间超过规定时间就跳出,使用try except语句是实现。
        • context参数:实现SSL加密传输。(基本上很少用)
        • cafile、capath参数:是指定 CA 证书和它的路径,这个在请求 HTTPS 链接时会有用。(基本很少用)
        • cadefault 参数现在已经弃用了,默认为 False。
      • urlopen返回对象提供方法:
        • read() , readline() ,readlines() , fileno() , close() :对HTTPResponse类型数据进行操作
        • info():返回HTTPMessage对象,表示远程服务器返回的头信息
        • getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
        • geturl():返回请求的url
      • 版本区别:python2和python3在导入urlrequest的方式是不一样的。
        • python2中:import urllib2
        • python3里面把urllib分开了,分成了urlrequest和urlerror,在这里我们只需导入urlrequest即可。from urllib.request import urlopen
    • Request类
      • 功能:urlopen()可以实现简单的请求,但是它无法添加一些header信息,也就不能构建一个完整的请求。所以我们可以用Request类来构建一个完整的请求。
      • 函数原型:class urlib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
      • 参数介绍:
        • url:请求的url ,必传参数。
        • data: 类型是bytes类型,如果是字典,使用urllib.parse中的urlencode()编码!
        • headers:参数是一个字典,表示请求的请求标识和载体!可以在构造 Request 时通过 headers 参数直接构造,也可以通过调用Request实例的add_header()方法来添加。 Request Headers 最常用的用法就是通过修改 User-Agent 来伪装浏览器,默认的 User-Agent 是 Python-urllib,我们可以通过修改它来伪装浏览器。
        • origin_host:表示请求的host名称或者IP地址。
        • unverifiable:参数表示这个请求是否是无法验证的,默认是False.意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个 HTML 文档中的图片,但是我们没有自动抓取图像的权限,这时 unverifiable 的值就是 True。
        • method:是一个字符串,它用来指示请求使用的方法,比如GET,POST,PUT等等。
    • 异常处理:
      • 功能:urllib 的error模块定义了由request模块产生的异常。如果出现了问题,request模块就会抛出error模块中定义的异常!
      • 两个常见的异常:URLError,HTTPError,HTTPError是URLError的子类
        • URLError里只有一个属性:reason,即抓异常的时候只能打印错误信息
        • HTTPError里有三个属性:code,reason,headers,即抓异常的时候可以获得code,reson,headers三个信息
          • code,返回 HTTP Status Code,即状态码,比如 404 网页不存在,500 服务器内部错误等等。
          • reason,同父类一样,返回错误的原因。
          • headers,返回 Request Headers。
        • 因为 URLError 是 HTTPError 的父类,所以我们可以先选择捕获子类的错误,再去捕获父类的错误
    • Url解析:
      • urlparse()
        • 功能:对你传入的url地址按特定的协议类型进行拆分
        • 原型:urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
          • urlstring:url地址参数
          • scheme:指定协议类型,如果url里面已经带了协议,再通过scheme指定的协议就不会生效
      • urlunpars():用于拼接
      • urljoin():也用做拼接
      • urlencode():可以将字典转换为url参数
    • 参考内容:

    2 random模块

    • 功能:用于生成随机数
    • 常见方法:
      • random.random():生成一个随机的浮点数,范围是在0.0~1.0之间
      • random.uniform(a,b) :用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成的随机数n: b <= n <= a。如果 a <b, 则 a <= n <= b。
      • random.randint(a, b):用于生成一个指定范围内的整数。其中参数a是下限,参数b是上限,生成的随机数n: a <= n <= b
      • random.randrange([start], stop[, step]):从指定范围内,按指定基数递增的集合中 获取一个随机数。
      • random.choice(sequence):可以从任何序列,比如list列表中,选取一个随机的元素返回,可以用于字符串、列表、元组等。
      • random.shuffle(x[, random]):原地指定seq序列,用于将一个列表中的元素打乱,即将列表内的元素随机排列。
      • random.sample(sequence, k):从指定序列中随机获取指定长度的片断并随机排列。注意:sample函数不会修改原有序列。

    2 代码

    它所做的事情就是用一个叫做 urllib 的图书馆来下载一列单词。
     1 import random                                      # 导入random模块
     2 from urllib.request import urlopen                 # 导入urllib库中的urlopen方法
     3 import sys                                         # 导入sys模块
     4 
     5 WORD_URL = "http://learncodethehardway.org/words.txt"       # 保存要访问的网页地址Url
     6 WORDS = []
     7 
     8 PHRASES = {
     9     "class %%%(%%%):":
    10         "Make a class named %%% that is-a %%%.",
    11     "class %%%(object):
    	def __init__(self,***)":
    12         "class %%% has-a __init__ that takes self and *** params.",
    13     "class %%%(object):
    	def ***(self,@@@)":
    14         "class %%% has-a function *** that takes self and @@@ params.",
    15     "*** = %%%()":
    16             "Set *** to an instance of class %%%.",
    17     "***.***(@@@)":
    18             "From *** get the *** function,call it with params self @@@.",
    19     "***.*** = '***'":
    20             "From *** get the *** attribute and set it to '***'."
    21 }                                                          # 存储类、函数、方法的定义或者调用格式
    22 
    23 # do they want to drill phrases first
    24 if len(sys.argv) == 2 and sys.argv[1] == "english":        # 如果命令行参数有两个,且第二个参数是english,即在执行过程中命令行参数必须有两个,第一个是脚本文件名,第二个是english
    25     PHRASE_FIRST = True                                    # PHRASE_FIRST值为True
    26 else:
    27     PHRASE_FIRST = False                                   # 否则PHRASE_FIRST值为False
    28 
    29 # load up the words from the website
    30 for word in urlopen(WORD_URL).readlines():                 # 打开WORD_URL对应的网页地址,并返回有每行内容组成的列表(会保存在硬盘中),再通过for循环遍历得到的列表
    31     WORDS.append(str(word.strip(),encoding="utf-8"))       # 去除每行的头尾空白后,将其转换成字符串,并采用utf-8格式编码,将编码后的内容添加到列表WORDS中
    32 
    33 def convert(snippet,phrase):                               # 将字典的键和值中的特殊符号和从WORDS_URL中读到的内容进行替换
    34     class_names = [w.capitalize() for w in                 # 利用for循环遍历的到的随机列表,并将列表元素字符串中的第一个字母变大写,其它字母变小写
    35                                                            # snippet.count()表示统计PHARSES字典的键里面某个字符串出现的次数,即为伪装一个类名或其它内容需要的单词的个数
    36     random.sample(WORDS,snippet.count("%%%"))]             # 通过分片的方式从列表WORDS中得到长度为snippet.count("%%%")的列表,然后将分片得到的列表内部元素随机排列
    37     other_names = random.sample(WORDS,snippet.count("***"))# 通过分片的方式从列表WORDS中得到长度为snippet.count("***")的列表,然后将分片得到的列表内部元素随机排列
    38     results = []
    39     param_names = []
    40     
    41     for i in range(0,snippet.count("@@@")):
    42         param_count = random.randint(1,3)                  # 利用random.randint()函数产生一个1、2、3中的随机整数,控制分片后列表的长度
    43         param_names.append(','.join(                       # 用","将分片后得到的列表的内容连接成字符串
    44             random.sample(WORDS,param_count)))             # 利用param_count将WORDS列表分片,然后将分片得到的列表内部元素随机排列
    45     
    46     for sentence in snippet,phrase:                        # 用sentence遍历PHRASES字典的键和值
    47         result = sentence[:]                               # 利用切片操作完成对sentence列表的复制
    48         
    49         # fake class names                                 # 伪装类名称
    50         for word in class_names:
    51             result = result.replace("%%%",word,1)          # 将result中的字符串"%%%"用class_names中得到的word代替,替换不超过一次
    52         
    53         # fake other names                                 # 伪装函数或方法等其它内容的名称
    54         for word in other_names:
    55             result = result.replace("***",word,1)          # 将result中的字符串"***"用other_names中得到的word代替,替换不超过一次
    56         
    57         # fake parameter lists                             # 伪装参数列表
    58         for word in param_names:
    59             result = result.replace("@@@",word,1)          # 将result中的字符串"@@@"用param_names中得到的word代替,替换不超过一次
    60         
    61         results.append(result)                             # 将result添加到列表results当中,并返回results列表的值
    62     return results
    63 
    64 # keep going until they hit CTRL-D
    65 try:                                                       # 异常
    66     while True:
    67         snippets = list(PHRASES.keys())                    # snippets是由PHRASES字典的键组成的列表
    68         random.shuffle(snippets)                           # 将snippets列表中的元素顺序打乱
    69         
    70         for snippet in snippets:                           # 遍历snippets列表
    71             phrase = PHRASES[snippet]                      # 通过键snippet对应的值
    72             question,answer = convert(snippet,phrase)      # 调用convert函数,完成键值对中字符串的替换,并将函数返回值
    73             if PHRASE_FIRST:                               # 
    74                 question,answer = answer,question          # 将替换后的结果与问题换过来
    75             
    76             print(question)                                # 打印question,表示经过替换的PHRASES字典的键的内容
    77             
    78             input("> ")                                    # 可输入answer中提示的内容来查看对应的类或者方法的结构
    79             print(f"ANSWER:{answer}
    
    ")                  # 打印answer,即question键对应的经过替换的PHRASES字典的值的内容
    80 except EOFError:
    81     print("
    Bye")

    执行过程中,输入:

    1 python oop_test.py english
    有关字符串的内容,可参考:https://www.cnblogs.com/luoxun/p/13257881.html
     
  • 相关阅读:
    Zend Studio
    mysql workbench
    phpmyadmin
    navicat for mysql
    phpstorm
    django中 debug-toolbar插件 crm项目补充
    clean_data 和 instance的区别
    elasticsearch 第一章 初识elasticsearch
    爬虫第七章 scrapy中间件 + 基于crawlSpider全站爬取网络数据
    爬虫第六章 scrapy的具体应用 5大核心组件 scrapy持久化存储 请求传参
  • 原文地址:https://www.cnblogs.com/luoxun/p/13399256.html
Copyright © 2011-2022 走看看