zoukankan      html  css  js  c++  java
  • [Python自学] day-24 (1) (组合搜索、JSONP、XSS、bs4、单例模式)

    一、什么是组合搜索

    我们在很多网站都可以找到组合搜索的功能,例如博客园、汽车之家等。

    在汽车的组合搜索中,可以看到有 价格、级别、国别、品牌、结构等过滤条件。

    这些条件我们可以认为都对应数据库的一张表(实际上静态的条件可以放内存)。

    当我们选择条件时,页面所展示的内容要根据我们选择的条件进行过滤(对应数据库中过滤条件)。

    二、如何实现的

    1.观察实例

    我们在选择各种过滤条件的时候,观察浏览器的URL变化:

     可以发现,当我们全部选择 "不限" 的时候,URL变为:

     list后面的所有数字全部变为0。说明,各项条件中"不限"对应的状态数字就是0。在数据库中自增ID是从1开始的,所以0用于表示ALL(即不过滤)。

    当我们选择一些条件时,例如选择国别为中国,级别为微型车,可以看到URL变为:

     也就是说这些数字就代表了我们选择的条件。对应在数据库中,该条件对应的ID就是这个数字。

    2.实现思路

    1)页面上分别将所有的条件列举出来

    2)当我们点击某个条件时,触发事件,获取所有条件对应的ID,然后串在一起。并请求页面,将串在一起的字符串作为请求URL的一部分。

    3)路由系统通过正则表达式可以获取到每个条件的ID,然后通过参数传递给视图函数。

    4)视图函数将获得的条件ID作为数据库查询条件,查询对应的内容。

    三、实现一个简单的组合搜索

    HTML代码:

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Index</title>
        <style>
            .condition{
                padding: 5px;
            }
            /*a标签的默认样式*/
            .condition a{
                display: inline-block;
                padding: 3px 5px;
                text-decoration: none;
                color: #3B5998;
            }
        </style>
    </head>
    <body>
        <div style=" 800px;margin:0 auto;border: 1px solid #dddddd">
            <h2>过滤条件</h2>
            <div class="condition">
                <!-- 不限这个按钮,category_id一定为0,但点击它不能改变article_type_id,所以要将上次请求的article_type_id放进href中 -->
                <a id="a_cate_0" href="/app01/index-0-{{ last_args.article_type_id }}/">不限</a>
                <!-- 其他从1开始的category_id随着循环来设置,但article_type_id同样不能动 -->
                {% for row in category_list %}
                    <!-- 这里设置一个id,用于JS操作样式 -->
                    <a id="a_cate_{{ row.id }}" href="/app01/index-{{ row.id }}-{{ last_args.article_type_id }}/">{{ row.caption }}</a>
                {% endfor %}
            </div>
            <!-- article_type_list和category一样,只是反了一下 -->
            <div class="condition">
                <a id="a_art_0" href="/app01/index-{{ last_args.category_id }}-0/">不限</a>
                {% for row in article_type_list %}
                    <a id="a_art_{{ row.id }}" href="/app01/index-{{ last_args.category_id }}-{{ row.id }}/">{{ row.caption }}</a>
                {% endfor %}
            </div>
            <h2>查询结果</h2>
            <ul>
                {% for row in result %}
                    <li style="padding: 10px;">
                        <div style="font-weight: bold;">{{ row.title}}</div>
                        <div>
                            {{ row.content }}
                        </div>
                    </li>
                {% endfor %}
            </ul>
        </div>
        <script src="/static/js/jquery-1.12.4.js"></script>
        <script>
            $(function(){
                // 每次请求的页面,一加载完,就将该页面对应的过滤条件<a>标签染色
                $("#a_cate_{{ last_args.category_id }}").css("background-color","#3B5998").css("color","white");
                $("#a_art_{{ last_args.article_type_id }}").css("background-color","#3B5998").css("color","white");
            })
        </script>
    </body>
    </html>

    路由:

    urlpatterns = [
        re_path('^index-(?P<category_id>d+)-(?P<article_type_id>d+)/$', views.index),
    ]

    视图函数代码:

    def index(request, **kwargs):
        # 获取参数,如果为0,为不限,则不加入过滤条件中
        condition_dict = {}
        for k, v in kwargs.items():
            if v != '0':
                condition_dict[k] = v
    
        # 获取所有的category、article_type_list和博客内容
        category_list = models.Category.objects.all()
        article_type_list = models.ArticleType.objects.all()
        result = models.Article.objects.filter(**condition_dict)
    
        # 将过滤条件和内容,以及该次请求的id传回页面
        return render(request,
                      'index.html',
                      {'result': result,
                       'category_list': category_list,
                       'article_type_list': article_type_list,
                       'last_args': kwargs})

    实现效果:

    四、JSONP

    JSON是一种数据格式,用于不同语言程序之间可以传递数据。

    JSONP是一种操作方式(或者说是一种技巧)。

    1.跨域请求数据

    跨域请求数据,我们可以才用以下两种方式:

    1)我们在视图函数中使用requests包,来请求其他网站提供的数据接口。(可行)

    2)直接使用前端JS代码来请求其他网站的数据接口。(直接使用Ajax来请求不可行)

    为什么第二种方式不可行:

    因为AJAX直接请求跨域数据接口,浏览器会拒收其返回的响应数据。浏览器报错:

    2.什么是JSONP

    当我们想直接使用前端Ajax来请求跨域的API时(返回JSON数据,例如天气网站提供的接口),浏览器会拒收这种方式的响应,我们无法获取到数据。

    在这种情况下,我们发现有个取巧的地方,虽然浏览器阻止直接使用Ajax请求,但使用<script>标签可以获取远程站点的JS文件。例如:

    <script src="https://code.jquery.com/jquery-1.12.4.js"></script>

    使用script标签来引入远程JS文件的时候,浏览器并没有阻止。

    那么,我们可以利用script这个后门,来达到我们获取数据的目的。

    前提,我们请求的网站(提供数据的站点),要主动提供相应的内容(也就是要主动配合满足JSONP协定)。

    HTML代码:

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>JSONP</title>
    </head>
    <body>
        <input type="button" value="获取数据" onclick="get_data();"/>
        <script src="/static/js/jquery-1.12.4.js"></script>
        <script>
            function get_data(){
                var tag = document.createElement('script');
                tag.src = 'http://xxxx.com/data.html?callback=data_list&k1=v1';
                // 将这个script标签加入到head标签中,加入后,浏览器马上就会从这个src去获取数据
                document.head.appendChild(tag);
                // 获取了src的数据后,马上删除这个script标签
                document.head.removeChild(tag);
            }
        </script>
    </body>
    </html>

    我们可以看到,我们点击"获取数据"按钮的时候,触发get_data事件函数,然后在head标签中添加了一个script标签,浏览器帮我们请求了其中的数据(数据需要是能执行的JS代码),请求完后马上删除了标签。

    这个请求让我们可以拿到合法的JS代码。这就需要让跨域网站将数据包含在合法的JS代码中。

    我们观察一下<script>标签请求的URL,其中包含了一个GET参数callback=data_list,这个参数的值,要么跨域站点指定,要么我们任意传(要看跨域站点后台怎么处理)。

    当跨域网站的后台获取到这个参数后,就可以使用以下方式来返回数据:

    data_list(JSON数据);

    data_list作为函数名,将想要提供的数据(JSON格式的字符串)作为参数,然后返回。

    此时,我们拿到的JS代码就是data_list(JSON数据)。这段代码的意思就是调用本地的data_list(arg)函数,如果我们本地有这个函数,则可以运行,并且能拿到这些参数(也就是想要获取的数据)。

    实现本地data_list函数:

    function data_list(arg){
        // 打印拿到的参数(数据)
        console.log(arg)
    }

    这样,跨域站点提供的JSON数据就通过这种方式到达了我们的浏览器。并打印在了console中。

    总结:这种利用<script>标签请求JS代码来偷渡JSON的数据,称为JSONP。

    3.利用jQuery发送JSONP(常用)

    在2.中,我们使用的是手工添加删除<script>的形式来使用JSONP。

    而利用jQuery的Ajax也可以发送JSONP:

    function get_data(){
        $.ajax({
            url: 'http://xxxx.com/data.html?k1=v1',
            type: "POST",
            dataType: 'jsonp',
            jsonp:'callback',
            jsonpCallback:'data_list'
        })
    }

    通过jsonp和jsonpCallback两个参数,就相当于我们URL中的"callback=data_list"。

    jQuery这种使用JSONP的方式,底层和前面我们手工添加删除<script>的方式是一样的。

    五、CORS跨域资源共享

    在第四节中,之所以我们要使用JSONP,是因为浏览器会阻止我们从跨域站点获取的数据。

    但是如果跨域站点服务器直接在响应头中进行设置,允许我们的域名获取数据,那么浏览器就不会阻止了。

    跨站服务器设置响应头:

    set_header('Access-Control-Allow-Origin', "http://www.xxx.com")

    http://www.xxx.com是我们的域名。

    参照博客:

    https://www.cnblogs.com/wupeiqi/articles/5703697.html

    https://www.cnblogs.com/loveis715/p/4592246.html

    六、XSS过滤

    1.XSS问题

    当用户在textarea框(例如kindeditor)中输入一些特殊的标签,例如<script>标签,则需要将其过滤掉。

    def kind(request):
        if request.method == 'GET':
            return render(request, 'kind.html')
        if request.method == 'POST':
            content = request.POST.get("content")
            print(content)
            return HttpResponse(content)

    我们从后台获取到kindeditor的内容(content)。

    如果有人在kindeditor中输入以下内容:

    这是恶意添加的代码:
    <script>alert(123)</script>

    kindeditor会自动帮我们转换为:

     所以,我们在后台拿到数据其实是:&lt;script&gt;alert(123)&lt;/script&gt;

    但是,如果用户直接在源码编辑框中写入<script>标签,后台就能够收到未经处理的标签:

     此时,如果将内容返回给页面显示,则会运行该<script>标签中的JS代码。如下图:

    为了避免这种恶意操作的出现,我们需要将后台收到的数据进行防XSS攻击处理。

    2.使用BeautifulSoup过滤标签

    安装BeautifulSoup4:

    pip3 install beautifulsoup4

    使用beautifulsoup4:

    def kind(request):
        if request.method == 'GET':
            return render(request, 'kind.html')
        if request.method == 'POST':
            content = request.POST.get("content")
            print(content)
            from bs4 import BeautifulSoup  # 导入bs4
            soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
            tag = soup.find('script')  # 从soup中查找<script>标签
            print(tag)  # 输出<script>alert(123)</script>
            tag.clear()  # 将<script>标签的内容清除掉
            content = soup.decode()  # 重新将soup解码成字符串
            print(content) # 输出<script></script>
            return HttpResponse(content)

    从上述代码中可以看到,我们利用bs4将文本形式的html内容转换为对象soup。然后在利用find()方法找到对应的特殊恶意标签,然后使用clear()将其内容清空。最后重新转换为文本,返回给页面。

    如果想将<script>彻底删除,可以使用tag.hidden = True:

    tag = soup.find('script')  # 从soup中查找<script>标签
    print(tag)  # 输出<script>alert(123)</script>
    tag.hidden = True  # 将整个<script>标签删除掉
    tag.clear()

    bs4的其他用法

    某个标签的属性:

    span_tag = soup.find('span')
    print(span_tag.attrs)  # 打印该标签的所有属性

    删除其中一个属性:

    span_tag = soup.find('span')
    print(span_tag.attrs)
    del span_tag.attrs['style']  # 删除style属性

    3.利用bs4设置一个白名单

    假设我们希望文本中能够生效的标签有<p><div><span><a>,而其他类似<script>标签都是危险标签。

    则,我们可以设置一个白名单:

    white_list = ["p", "div", "span", "a"]

    然后使用bs4进行过滤,只保证白名单中的标签可用:

    from bs4 import BeautifulSoup  # 导入bs4
    soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
    tags = soup.find_all()
    for tag in tags:  # 遍历所有的标签
        if tag.name in white_list:  # 如果标签名在白名单中,则什么都不做
            pass
        else:  # 如果不在白名单中,则删除标签及内容
            tag.hidden = True  # 删除标签
            tag.clear()  # 删除内容

    以上这种白名单只能过滤标签,如果我们还想过滤标签的属性,则修改白名单:

    white_list = {"p": ['class'],
                  "div": ['class', 'id'],
                  "span": ['class', 'id'],
                  "a": ['class', 'id', 'href']
                  }

    然后我们在修改过滤部分的代码:

    from bs4 import BeautifulSoup  # 导入bs4
    soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
    tags = soup.find_all()
    for tag in tags:  # 遍历所有的标签
        if tag.name in white_list:  # 如果标签名在白名单中,则什么都不做
            print(tag.attrs)
            for k in list(tag.attrs.keys()):
                if k in white_list[tag.name]:
                    pass
                else:
                    del tag.attrs[k]
        else:  # 如果不在白名单中,则删除标签及内容
            tag.hidden = True  # 删除标签
            tag.clear()  # 删除内容

    4.将过滤功能封装成XSSFilter类

    参考:https://www.cnblogs.com/lei0213/p/6434648.html

    from bs4 import BeautifulSoup
     
    class XSSFilter(object):
        __instance = None
     
        def __init__(self):
            # XSS白名单
            self.valid_tags = {
                "font": ['color', 'size', 'face', 'style'],
                'b': [],
                'div': [],
                "span": [],
                "table": [
                    'border', 'cellspacing', 'cellpadding'
                ],
                'th': [
                    'colspan', 'rowspan'
                ],
                'td': [
                    'colspan', 'rowspan'
                ],
                "a": ['href', 'target', 'name'],
                "img": ['src', 'alt', 'title'],
                'p': [
                    'align'
                ],
                "pre": ['class'],
                "hr": ['class'],
                'strong': []
            }
     
        def __new__(cls, *args, **kwargs):
            """
            单例模式
            :param cls:
            :param args:
            :param kwargs:
            :return:
            """
            if not cls.__instance:
                obj = object.__new__(cls, *args, **kwargs)
                cls.__instance = obj
            return cls.__instance
     
        def process(self, content):
            soup = BeautifulSoup(content, 'html.parser')
            # 遍历所有HTML标签
            for tag in soup.find_all(recursive=True):
                # 判断标签名是否在白名单中
                if tag.name not in self.valid_tags:
                    tag.hidden = True
                    if tag.name not in ['html', 'body']:
                        tag.hidden = True
                        tag.clear()
                    continue
                # 当前标签的所有属性白名单
                attr_rules = self.valid_tags[tag.name]
                keys = list(tag.attrs.keys())
                for key in keys:
                    if key not in attr_rules:
                        del tag[key]
     
            return soup.decode()

    调用方式:

    content = form.cleaned_data.pop('content')      # 移出 content需要在表ArticleDetail上手动添加、关联Article
    content = XSSFilter().process(content)           # 对content进行数据过滤  过滤到script等标签

    七、单例模式

    在第六节中,XSSFilter类使用了单例模式。

    1.low版

    class Foo(object):
        instance = None
    
        def __init__(self):
            pass
    
        @classmethod
        def get_instance(cls):
            if cls.instance:
                return cls.instance
            else:
                cls.instance = cls()
                return cls.instance
    
        def process(self):
            print("process")
    
    
    if __name__ == '__main__':
        obj1 = Foo.get_instance()
        obj2 = Foo.get_instance()
        print(id(obj1), id(obj2))

    这个版本,我们要使用Foo.get_instance()来获得实例,对用户不友好。

    2.高级版

    class Foo(object):
        instance = None
    
        def __init__(self):
            pass
    
        def __new__(cls, *args, **kwargs):
            if cls.instance:
                return cls.instance
            else:
                cls.instance = object.__new__(cls, *args, **kwargs)
                return cls.instance
    
        def process(self):
            print("process")
    
    
    if __name__ == '__main__':
        obj1 = Foo()
        obj2 = Foo()
        print(id(obj1), id(obj2))

    这个版本,换成了用Foo()来获取实例,和非单例模式是一样的方式,屏蔽了底层细节,对用户友好。

    3.基于模块导入机制的单例模型(仅限于python)

    核心概念:模块只被导入一次

    当我们在导入一个模块时,python会编译生成一个pyc文件,这个文件会在模块的第一次导入时生成。

    当pyc存在的时候,例如第二次导入模块,则不会在运行模块中的代码,而是直接使用内存中的pyc。

    所以,利用这一特性,我们可以构建单例模型:

    # mysingleton.py
    class MySingleton(object):
        def foo(self):
            print("foo...")
    
    
    my_singleton = MySingleton()

    在mysingleton模块中,定义了MySingleton类,并获取了一个实例对象。

    在另一个模块中,对mysingleton模块进行导入:

    # other.py
    
    # 第一次导入my_singleton
    from mysingleton import my_singleton
    # 第二次导入my_singleton
    from mysingleton import my_singleton as my_singleton_2
    
    
    print(id(my_singleton))
    print(id(my_singleton_2))

    输出结果是两个对象的id相同,即两个对象实际上是同一个对象。

    这是因为第一次导入的my_singleton处于内存中,当第二次导入同样的模块时,发现内存中已经存在,则直接引用了内存中的my_singleton对象。

    这样就实现了基于模块的单例模型。

    ≧◔◡◔≦

  • 相关阅读:
    C#--SQL server数据库基本操作(增、删、改、查)
    《linux就该这么学》课堂笔记05 管道符、通配符、转义、vim编辑器
    《linux就该这么学》课堂笔记04 常用命令cat、mor...tar、find
    《linux就该这么学》课堂笔记03 命令初识 echo、date、reboot、poweroff、wget...
    《linux就该这么学》课堂笔记02 虚拟机安装使用
    《Linux就该这么学》课堂笔记01 linux初识
    paramiko
    restframework详细
    部署你的CRM程序
    nginx+uWSGI+django+virtualenv+supervisor发布web服务器
  • 原文地址:https://www.cnblogs.com/leokale-zz/p/12166529.html
Copyright © 2011-2022 走看看