zoukankan      html  css  js  c++  java
  • python库--flashtext--大规模数据清洗利器

    flashtext.keyword (flashtext)
    类/方法 返回值 参数 说明
    .KeywordProcessor() 对象kp case_sensitive=False 是否区分大小写
    添加关键词      
    kp.add_keyword()   keyword 检索的词
    clean_name=None 显示或要被替换为的词(默认keywords本身)
    kp.add_keywords_from_dict()   keyword_dict key: 类似于clean_name
    value: 类似于[keyword]
    kp.add_keywords_from_list()   keyword_list 类似于[keyword]
    删除关键词      
    kp.remove_keywords()   keywoed 要删除的keyword
    kp.remove_..._from_dict()   keyword_dict 参考添加
    kp.remove_..._from_list()   keyword_list 参考添加
    设置单词边界      
    kp.add_non_word_boundary()   character 添加非单词边界的字符, 比如添加'/', 那么此字符将不会被识别为单词边界
    关键字提取      
    kp.extract_keywords() list 关键字提取
    sentence 要被检索的字符串, 匹配到则返回clean_name
    span_info=False 是否返回关键字位置信息
           
    关键字替换      
    kp.replace_keywords() str 关键字替换
    sentence 要被替换的字符串, 把keywords替换为clean_name
           
  • 相关阅读:
    UVA 10618 Tango Tango Insurrection
    UVA 10118 Free Candies
    HDU 1024 Max Sum Plus Plus
    POJ 1984 Navigation Nightmare
    CODEVS 3546 矩阵链乘法
    UVA 1625 Color Length
    UVA 1347 Tour
    UVA 437 The Tower of Babylon
    UVA 1622 Robot
    UVA127-"Accordian" Patience(模拟)
  • 原文地址:https://www.cnblogs.com/P--K/p/8335066.html
Copyright © 2011-2022 走看看