zoukankan      html  css  js  c++  java
  • python 库安装方法及常用库

    python 库安装方法及常用库

    python库安装方法:

    方法一:setpu.py

    1.下载库压缩包,解压,记录下路径:*:/**/……/

    2.运行cmd,切换到*:/**/……/目录下

    3.运行setup.py build

    4.然后输入python,进入python模块,验证是否安装成功

    方法二:

    1.Win + R 打开运行窗口,输入cmd回车

    2.找到pip安装路径——x:Python xxScripts

    3. 在命令行中切换至该目录cd x:Python xxScripts

    4.输入 pip install ***(库名称)

    常用库大全:

    1.os——通过python实现操作系统中的功能:新建文件夹、指定路径等

    2.爬取网页

    2.1 urllib——爬取网页

      urllib.request

    2.2 bs4——对网页按照标签提取信息(需下载)

    2.3 re——(Regular Expression 正则表达式)

    2.4 Requests 库——擅长处理那些复杂的HTTP 请求、cookie、header(响应头和请求头)等内容的Python 第三方库(https://github.com/kennethreitz/requests/tarball/master) 

    2.5 smtplib——收发邮件

    2.6 Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup 对象一样用来查找页面元素,与页面上的元素进行交互

    (发送文本、点击等),以及执行其他动作来运行网络爬虫。

    2.7 collections ——数据结构

    2.8 import random

    PhantomJS 是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。把Selenium 和PhantomJS 结合在一

    起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScrip、header,以及任何你需要做的事情。

    3.数据存储

    3.1 pymysql——python存储数据至mysql数据库

    3.2 xlrd,xlwt——将数据写入excel的操作

    4.文件读取

    4.1 PDFMiner3K——取PDF 文件   https://pypi.python.org/pypi/pdfminer3k

    4.2 ython-docx 库——持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

    5.算法

    5.1 NLTK——自然语言处理     www.nltk.org  统计分析、词义分析——书籍:Natural Language Processing with Python

    5.2 Pillow 和Tesseract——图像识别与文字处理

      (http://pillow.readthedocs.org/)

      Tesseract 是目前公认最优秀、最精确的开源OCR 系统。Tesseract 是一个Python 的命令行工具,不是通过import语句导入的库。安装之后,要用tesseract 命令在Python 的外面运行。在Windows 系统上,下载方便的可执行安装文件(https://code.google.com/p/tesseract-ocr/downloads/list)安装即可。Tesseract 最大的缺点是对渐变背景色的处理。

      创建图片定位文件:每个字符是什么,以及每个字符的具体位置——在线工具Tesseract OCR Chopper(http://pp19dd.com/tesseract-ocr-chopper/),因为它不需要安装,也没有其他依赖,只要有浏览器就可以运行,而且用法很简单:上传图片,如果要增加新矩形就单击“add”按钮,还可以根据需要调整矩形的尺寸,最后把新生成的矩形定位文件复制到一个新文件里就可以了。

      如果你对Tesseract 的其他训练方法感兴趣,甚至打算建立自己的验证码训练文件库,或者想和全世界的Tesseract 爱好者分享自己对一种新字体的识别成果,那么我推荐你仔细阅读Tesseract的文档(https://github.com/tesseract-ocr/tesseract/wiki)。

    5.3 NumPy——因为NumPy 可以用数学方法把图片表示成巨大的像素数组,所以它可以流畅地配合Tesseract 完成任务。

    6.JavaScript库

    6.1 jQuery 

    6.2 Google Analytics

    7.GUI库

    7.1 tkinter——python3

  • 相关阅读:
    HDU Railroad (记忆化)
    HDU 1227 Fast Food
    HDU 3008 Warcraft
    asp vbscript 检测客户端浏览器和操作系统(也可以易于升级到ASP.NET)
    Csharp 讀取大文本文件數據到DataTable中,大批量插入到數據庫中
    csharp 在万年历中计算显示农历日子出错
    csharp create ICS file extension
    CSS DIV Shadow
    DataTable search keyword
    User select fontface/color/size/backgroundColor设置 字体,颜色,大小,背景色兼容主流浏览器
  • 原文地址:https://www.cnblogs.com/aipiaoborensheng/p/7732155.html
Copyright © 2011-2022 走看看