zoukankan html css js c++ java

关于日语分词Japanese segmenter

1.主要JapaneseTokenizer

https://pypi.org/project/JapaneseTokenizer/

安装： pip install JapaneseTokenizer

Supported Tokenizers

1.1 Mecab

安装请参考：https://www.dazhuanlan.com/2020/02/13/5e45085eac4da/

安裝 MeCab

首先先下載Mecab Source(mecab-0.996.tar.gz)
再來開啟 Terminal ，先創建一個資料夾

$ sudo mkdir /usr/local/mecab

　　3. 解壓縮、設置、編譯、安裝

$ cd $HOME/Downloads
$ tar xvfz mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --enable-utf8-only --prefix=/usr/local/mecab
$ make
$ sudo make install

安裝 IPA 辭典

IPA 辭典, 基於 IPA 語料庫, 使用 CRF 進行參數估計的詞典(必安裝)

首先先下載IPA Source(mecab-ipadic-2.7.0-20070801.tar.gz)
解壓縮、設置、編譯、安裝

$ cd $HOME/Downloads
$ tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --prefix=/usr/local/mecab --with-mecab-config=/usr/local/mecab/bin/mecab-config --with-charset=utf8
$ make
$ sudo make install

示例

export PATH=/usr/local/mecab/bin:$PATH

import JapaneseTokenizer
input_sentence = '10日放送の「中居正広のミになる図書館」（テレビ朝日系）で、SMAPの中居正広が、篠原信一の過去の勘違いを明かす一幕があった。'
# ipadic is well-maintained dictionary #
mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='ipadic')
print(mecab_wrapper.tokenize(input_sentence).convert_list_object())

# neologd is automatically-generated dictionary from huge web-corpus #
mecab_neologd_wrapper = JapaneseTokenizer.MecabWrapper(dictType='neologd')
print(mecab_neologd_wrapper.tokenize(input_sentence).convert_list_object())

查看全文

相关阅读:
程序员自我【营销】，如何打造个人【品牌】
程序员应该怎样和领导相处？
程序员必备能力——晋升之道
 聊一聊软件系统中的“热力学第二定律”
程序员如何利用技术管理技巧
 技术人必须掌握能力——深度思考
 程序员逆袭之路——系列文章更新中
 程序员跳槽，该如何选择一家好公司
 C++-运行时类型信息，异常（day11）
C++-多态，纯虚函数，抽象类，工厂模式，虚析构函数（day10）

原文地址：https://www.cnblogs.com/lingwang3/p/14424336.html