zoukankan      html  css  js  c++  java
  • 从web解析到网络空间

    1. Python库之网络爬虫

    Requests: 最友好的网络爬虫功能库

    • 提供了简单易用的类HTTP协议网络爬虫功能
    • 支持连接池、SSL、Cookies、HTTP(S)代理等
    • Python最主要的页面级网络爬虫功能库
    import requests
    r = requests.get('https://api.github.com/user',
    					auth=('user', 'pass'))
    r.status_code
    r.headers['content-type']
    r.encoding
    r.text
    

    Scrapy: 优秀的网络爬虫框架

    • 提供了构建网络爬虫系统的框架功能,功能半成品
    • 支持批量和定时网页爬取、提供数据处理流程等
    • Python最主要且最专业的网络爬虫框架

    Scrapy: Python数据分析高层次应用库

    image-20210228154150474

    pyspider: 强大的Web页面爬取系统

    • 提供了完整的网页爬取系统构建功能
    • 支持数据库后端、消息队列、优先级、分布式架构等
    • Python重要的网络爬虫类第三方库

    pyspider: 强大的Web页面爬取系统

    image-20210228154250860


    2. Python库之Web信息提取

    Beautiful Soup: HTML和XML的解析库

    • 提供了解析HTML和XML等Web信息的功能
    • 又名beautifulsoup4或bs4,可以加载多种解析引擎
    • 常与网络爬虫库搭配使用,如Scrapy、requests等

    image-20210228154353578

    Re: 正则表达式解析和处理功能库

    • 提供了定义和解析正则表达式的一批通用功能
    • 可用于各类场景,包括定点的Web信息提取
    • Python最主要的标准库之一,无需安装
    re.search()
    re.match()
    re.findall()
    re.split()
    re.finditer()
    re.sub()
    

    Python-Goose: 提取文章类型Web页面的功能库

    • 提供了对Web页面中文章信息/视频等元数据的提取功能
    • 针对特定类型Web页面,应用覆盖面较广
    • Python最主要的Web信息提取库
    from goose import Goose
    url = 'http://www.elmundo.es/elmundo/2012/10/28/espana/1351388909.html'
    g = Goose({'use_meta_language': False, 'target_language':'es'})
    article = g.extract(url=url)
    article.cleaned_text[:150]
    

    3. Python库之Web网站开发

    Django: 最流行的Web应用框架

    • 提供了构建Web系统的基本应用框架
    • MTV模式:模型(model)、模板(Template)、视图(Views)
    • Python最重要的Web应用框架,略微复杂的应用框架

    image-20210228154814617

    Pyramid: 规模适中的Web应用框架

    • 提供了简单方便构建Web系统的应用框架
    • 不大不小,规模适中,适合快速构建并适度扩展类应用
    • Python产品级Web应用框架,起步简单可扩展性好
    from wsgiref.simple_server import make_server
    from pyramid.config import Configurator
    from pyramid.response import Response
    def hello_world(request):
    	return Response('Hello World!')
    if __name__ == '__main__':
    	with Configurator() as config:
            config.add_route('hello', '/')
            config.add_view(hello_world, route_name='hello')
            app = config.make_wsgi_app()
        server = make_server('0.0.0.0', 6543, app)
        server.serve_forever()
    

    Flask: Web应用开发微框架

    • 提供了最简单构建Web系统的应用框架
    • 特点是:简单、规模小、快速
    • Django > Pyramid > Flask
    from flask import Flask
    app = Flask(__name__)
    @app.route('/')
    def hello_world():
    	return 'Hello, World!'
    

    4. Python库之网络应用开发

    WeRoBot: 微信公众号开发框架

    • 提供了解析微信服务器消息及反馈消息的功能
    • 建立微信机器人的重要技术手段
    # 对微信每个消息反馈一个Hello World
    import werobot
    robot = werobot.WeRoBot(token='tokenhere')
    @robot.handler
    def hello(message):
    	return 'Hello World!'
    

    aip: 百度AI开放平台接口

    • 提供了访问百度AI服务的Python功能接口
    • 语音、人脸、OCR、NLP、知识图谱、图像搜索等领域
    • Python百度AI应用的最主要方式

    MyQR: 二维码生成第三方库

    • 提供了生成二维码的系列功能
    • 基本二维码、艺术二维码和动态二维码
  • 相关阅读:
    iNeuOS工业互联网系统,一键部署,5分钟内开箱即用
    演讲的要义
    在MyBatis中实现动态表名
    Pandora Boot和Spring Boot
    java对象克隆以及深拷贝和浅拷贝
    超级快的端口扫描工具blackwater
    webgl智慧楼宇发光系列之线性采样下高斯模糊
    canvas可视化效果之内阴影效果
    图表绘制之RepeatNode的妙用
    【ECUG】十四年如一日,有这样一群初心不改的技术人
  • 原文地址:https://www.cnblogs.com/keepcode/p/14459750.html
Copyright © 2011-2022 走看看