zoukankan      html  css  js  c++  java
  • python 库安装方法及常用库

    python库官方下载地址

    https://pypi.org/

    https://pypi.python.org/pypi

    pycharm更换pip源为国内


    Python里的pip是官方自带的源,国内使用pip安装的时候十分缓慢,所以最好是更换成中国国内的源地址。

    目前国内靠谱的 pip 镜像源有:

    清华: https://pypi.tuna.tsinghua.edu.cn/simple

    豆瓣: http://pypi.douban.com/simple/

    阿里: http://mirrors.aliyun.com/pypi/simple/

    python库安装方法:

    方法一:setpu.py

    1.下载库压缩包,解压,记录下路径:*:/**/……/

    2.运行cmd,进入到解压目录下*:/**/……/

    3.运行python setup.py build ,build成功后在命令行再输入:python setup.py install   (注:安装在了python的site-packages下)

    4.然后输入python,进入python模块,验证是否安装成功

    方法二:

    1.Win + R 打开运行窗口,输入cmd回车

    2.找到pip安装路径——x:Python xxScripts

    3. 在命令行中切换至该目录cd x:Python xxScripts

    4.输入 pip install ***(库名称)

    常用库大全:

    1.os——通过python实现操作系统中的功能:新建文件夹、指定路径等

    2.爬取网页

    2.1 urllib——爬取网页

      urllib.request

    2.2 bs4——对网页按照标签提取信息(需下载)

    2.3 re——(Regular Expression 正则表达式)

    2.4 Requests 库——擅长处理那些复杂的HTTP 请求、cookie、header(响应头和请求头)等内容的Python 第三方库(https://github.com/kennethreitz/requests/tarball/master) 

    2.5 smtplib——收发邮件

    2.6 Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup 对象一样用来查找页面元素,与页面上的元素进行交互

    (发送文本、点击等),以及执行其他动作来运行网络爬虫。

    2.7 collections ——数据结构

    2.8 import random

    PhantomJS 是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。把Selenium 和PhantomJS 结合在一

    起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScrip、header,以及任何你需要做的事情。

    3.数据存储

    3.1 pymysql——python存储数据至mysql数据库

    3.2 xlrd,xlwt——将数据写入excel的操作

    4.文件读取

    4.1 PDFMiner3K——取PDF 文件   https://pypi.python.org/pypi/pdfminer3k

    4.2 ython-docx 库——持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

    5.算法

    5.1 NLTK——自然语言处理     www.nltk.org  统计分析、词义分析——书籍:Natural Language Processing with Python

    5.2 Pillow 和Tesseract——图像识别与文字处理

      (http://pillow.readthedocs.org/)

      Tesseract 是目前公认最优秀、最精确的开源OCR 系统。Tesseract 是一个Python 的命令行工具,不是通过import语句导入的库。安装之后,要用tesseract 命令在Python 的外面运行。在Windows 系统上,下载方便的可执行安装文件(https://code.google.com/p/tesseract-ocr/downloads/list)安装即可。Tesseract 最大的缺点是对渐变背景色的处理。

      创建图片定位文件:每个字符是什么,以及每个字符的具体位置——在线工具Tesseract OCR Chopper(http://pp19dd.com/tesseract-ocr-chopper/),因为它不需要安装,也没有其他依赖,只要有浏览器就可以运行,而且用法很简单:上传图片,如果要增加新矩形就单击“add”按钮,还可以根据需要调整矩形的尺寸,最后把新生成的矩形定位文件复制到一个新文件里就可以了。

      如果你对Tesseract 的其他训练方法感兴趣,甚至打算建立自己的验证码训练文件库,或者想和全世界的Tesseract 爱好者分享自己对一种新字体的识别成果,那么我推荐你仔细阅读Tesseract的文档(https://github.com/tesseract-ocr/tesseract/wiki)。

    5.3 NumPy——因为NumPy 可以用数学方法把图片表示成巨大的像素数组,所以它可以流畅地配合Tesseract 完成任务。

    6.JavaScript库

    6.1 jQuery 

    6.2 Google Analytics

    7.GUI库

    7.1 tkinter——python3

  • 相关阅读:
    一个关于状态机的问题
    8位同步码修改变4位同步码
    BT1120时序,可以用于自测用
    欧几理德,扩展欧几里德和模线性方程组。
    "旋转的风车"----windows(GDI)绘图
    草滩小恪的学习链接(汇总版)
    酒鬼随机漫步(一个矢量类)
    小题精炼-----初试C语言
    大二(上)------我欠青春一份疯狂
    HDU 1027 Ignatius and the Princess II(康托逆展开)
  • 原文地址:https://www.cnblogs.com/anzhangjun/p/9437306.html
Copyright © 2011-2022 走看看