zoukankan      html  css  js  c++  java
  • 把python自然语言处理的nltk_data打包到360云盘,然后共享给朋友们

    回家前,把python自然语言处理的nltk_data打包到360云盘,然后共享给朋友们,省的大家像我一样浪费时间。
    一次性下载解压后即可使用。官方的nltk.download()老是下载失败。无数遍了。浪费了我很多很多时间。


    打包下载(推荐):
    http://yunpan.cn/cgGUPFzF3spir (提取码:504e)

    下载后放在python/nltk_data目录下即可.

    记录下错误提示,以便于朋友们搜索找到。
    当时遇到的错误是:
    nltk.download()
    could not find maxent_treebank_pos_tagger / english .XXX
    searched index:
    C:\\Python27\\nltk_data\
    C:\\nltk_data
    D:\\nltk_data
    E:\\nltk_data

    然后我通过,nltk.download()下载,一直出现错误,只好到
    官方下载http://nltk.org/nltk_data/
    另外,也可以到nltk.code.google.com 下载,


    但是又遇到了下载后,直接放在nltk_data目录,却发现还是不行,程序找不到数据集。
    因此我就用nltk.download()试着下载了一个,观察他的文件位置,这才发现原来有好几个文档目录。
    用tree命令的到其目录结构如下:
    文件夹 PATH 列表
    卷序列号为 00000200 B2F8:ED9D

    ├─chunkers #这一级为nltk_data下的文件夹
    │ └─maxent_ne_chunker #这一级为相对应文件夹下的数据文件
    ├─corpora      #这一级为nltk_data下的文件夹
    │ ├─abc        #这一级为相对应文件夹下的数据文件
    │ ├─alpino
    │ ├─basque_grammars
    │ ├─biocreative_ppi
    │ ├─book_grammars
    │ ├─brown
    │ ├─brown_tei
    │ ├─cess_cat
    │ ├─cess_esp
    │ ├─chat80
    │ ├─city_database
    │ ├─cmudict
    │ ├─comtrans
    │ ├─conll2000
    │ ├─conll2002
    │ ├─conll2007
    │ ├─dependency_treebank
    │ ├─europarl_raw
    │ │
    │ ├─floresta
    │ ├─gazetteers
    │ ├─genesis
    │ ├─gutenberg
    │ ├─hmm_treebank_pos_tagger
    │ ├─ieer
    │ ├─inaugural
    │ ├─indian
    │ ├─jeita
    │ ├─kimmo
    │ ├─knbc
    │ │
    │ ├─langid
    │ ├─large_grammars
    │ ├─machado
    │ │
    │ ├─mac_morpho
    │ ├─maxent_ne_chunker
    │ ├─maxent_treebank_pos_tagger
    │ ├─movie_reviews
    │ │
    │ ├─names
    │ ├─nombank.1.0
    │ │
    │ ├─nps_chat
    │ ├─oanc_masc
    │ │
    │ ├─paradigms
    │ ├─pe08
    │ ├─pil
    │ ├─pl196x
    │ ├─ppattach
    │ ├─problem_reports
    │ ├─propbank
    │ │
    │ ├─ptb
    │ ├─punkt
    │ ├─qc
    │ ├─reuters
    │ │
    │ ├─rslp
    │ ├─rte
    │ ├─sample_grammars
    │ ├─semcor
    │ │
    │ ├─senseval
    │ ├─shakespeare
    │ ├─sinica_treebank
    │ ├─smultron
    │ ├─spanish_grammars
    │ ├─state_union
    │ ├─stopwords
    │ ├─swadesh
    │ ├─switchboard
    │ ├─tagsets
    │ ├─timit
    │ │
    │ ├─toolbox
    │ │
    │ ├─treebank
    │ │
    │ ├─udhr
    │ ├─udhr2
    │ ├─unicode_samples
    │ ├─verbnet
    │ ├─webtext
    │ ├─wordnet
    │ ├─wordnet_ic
    │ ├─words
    │ └─ycoe
    ├─grammars
    │ ├─basque_grammars
    │ ├─book_grammars
    │ ├─large_grammars
    │ ├─sample_grammars
    │ └─spanish_grammars
    ├─help
    │ └─tagsets
    ├─stemmers
    │ └─rslp
    ├─taggers
    │ ├─hmm_treebank_pos_tagger
    │ ├─maxent_ne_chunker
    │ └─maxent_treebank_pos_tagger
    └─tokenizers
    └─punkt

  • 相关阅读:
    读书笔记——高效能人士的七个习惯3
    读书笔记——高效能人士的七个习惯2(四类优先级)
    读书笔记——高效能人士的七个习惯1
    任正非最新谈话:吉田社长
    罗辑思维CEO脱不花:关于工作和成长,这是我的121条具体建议
    不需注释的生命
    读书笔记:《尽管去做——无压工作的艺术》摘抄
    C语言中变量名及函数名的命名规则与驼峰命名法
    回车”(carriage return)和”换行”(line feed)的区别和来历-(附:ASCII表)
    printf输出格式总结
  • 原文地址:https://www.cnblogs.com/ToDoToTry/p/2865941.html
Copyright © 2011-2022 走看看