zoukankan      html  css  js  c++  java
  • python学习之nltk、文本预处理

    一、nltk(链接中为nltk的官方网站,包含了各种库的说明)

    1、nltk.stem:词型转换,eg:from nltk.stem import WordNetLemmatizer  (do、did、done都能统一的返回do)

    2、nltk.corpus:nltk的语料库,eg:from nltk.corpus import stopwords  获得英语中的停止词(比如'the'、'is'、'at'、'which'、'on'等)

     中英文停止词表(stopword)

    二、可能用到的函数

    1、os.listdir(path)

    用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。

    只支持在 Unix, Windows 下使用。

     2、str.strip([chars])

    Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

    3、str.lower()

    Python lower() 方法转换字符串中所有大写字符为小写。

    4、filter(function, iterable)  (function -- 判断函数、iterable -- 可迭代对象)  返回列表

    filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。

    该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。

    5、map(function, iterable, ...)  (function -- 函数,有两个参数、iterable -- 一个或多个序列)  返回列表

    map() 会根据提供的函数对指定序列做映射。

    第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。

    优秀文章一优秀文章二

    ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------- WeChat:wjw18326000942 Email:jwwang18326000942@163.com
  • 相关阅读:
    Kettle进行数据迁移(ETL)
    Visual Studio常用快捷键
    RESTful API 设计指南
    理解RESTful架构
    LINQ for XML简单示例
    .NET导入导出Excel方法总结
    AJAX + WebService 实现文件上传
    GitHub使用教程
    .NET读取Excel数据,提示错误:未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序
    ASP.NET 操作Excel中的DCOM配置方式
  • 原文地址:https://www.cnblogs.com/RescueWang/p/7846215.html
Copyright © 2011-2022 走看看