zoukankan      html  css  js  c++  java
  • python库--flashtext--大规模数据清洗利器

    flashtext.keyword (flashtext)
    类/方法 返回值 参数 说明
    .KeywordProcessor() 对象kp case_sensitive=False 是否区分大小写
    添加关键词      
    kp.add_keyword()   keyword 检索的词
    clean_name=None 显示或要被替换为的词(默认keywords本身)
    kp.add_keywords_from_dict()   keyword_dict key: 类似于clean_name
    value: 类似于[keyword]
    kp.add_keywords_from_list()   keyword_list 类似于[keyword]
    删除关键词      
    kp.remove_keywords()   keywoed 要删除的keyword
    kp.remove_..._from_dict()   keyword_dict 参考添加
    kp.remove_..._from_list()   keyword_list 参考添加
    设置单词边界      
    kp.add_non_word_boundary()   character 添加非单词边界的字符, 比如添加'/', 那么此字符将不会被识别为单词边界
    关键字提取      
    kp.extract_keywords() list 关键字提取
    sentence 要被检索的字符串, 匹配到则返回clean_name
    span_info=False 是否返回关键字位置信息
           
    关键字替换      
    kp.replace_keywords() str 关键字替换
    sentence 要被替换的字符串, 把keywords替换为clean_name
           
  • 相关阅读:
    《软件需求十步走》阅读笔记一
    《探索需求》读书笔记三
    2018.9.26 随笔
    2018.9.09 随笔
    日期随笔,目录
    2018.9.03 随笔
    linux signal函数遇到的问题
    关于子线程执行两次的问题
    本科四年的一点经验
    linux 网络编程 3---(io多路复用,tcp并发)
  • 原文地址:https://www.cnblogs.com/P--K/p/8335066.html
Copyright © 2011-2022 走看看