Python自然语言处理工具小结

斯坦福大学的分词器，该系统需要JDK 1.8+，从上面链接中下载stanford-segmenter-2014-10-26，解压之后，如下图所示

进入data目录，其中有两个gz压缩文件，分别是ctb.gz和pku.gz，其中CTB：宾州大学的中国树库训练资料，PKU：中国北京大学提供的训练资料。当然了，你也可以自己训练，一个训练的例子可以在这里面看到http://nlp.stanford.edu/software/trainSegmenter-20080521.tar.gz

2、NER介绍

斯坦福NER是采用Java实现，可以识别出（PERSON，ORGANIZATION，LOCATION），使用本软件发表的研究成果需引用下述论文：

下载地址在：http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf

在NER页面可以下载到两个压缩文件，分别是stanford-ner-2014-10-26和stanford-ner-2012-11-11-chinese

将两个文件解压可看到

默认NER可以用来处理英文，如果需要处理中文要另外处理。

3、分词和NER使用

在Eclipse中新建一个Java Project，将data目录拷贝到项目根路径下，再把stanford-ner-2012-11-11-chinese解压的内容全部拷贝到classifiers文件夹下，将stanford-segmenter-3.5.0加入到classpath之中，将classifiers文件夹拷贝到项目根目录，将stanford-ner-3.5.0.jar和stanford-ner.jar加入到classpath中。最后，去http://nlp.stanford.edu/software/corenlp.shtml下载stanford-corenlp-full-2014-10-31，将解压之后的stanford-corenlp-3.5.0也加入到classpath之中。最后的Eclipse中结构如下：

Chinese NER：这段说明，很清晰，需要将中文分词的结果作为NER的输入，然后才能识别出NER来。

同时便于测试，本Demo使用junit-4.10.jar，下面开始上代码

import edu.stanford.nlp.ie.AbstractSequenceClassifier; 
import edu.stanford.nlp.ie.crf.CRFClassifier; 
import edu.stanford.nlp.ling.CoreLabel; 

/** 
* 
* <p> 
* ClassName ExtractDemo 
* </p> 
* <p> 
* Description 加载NER模块 
* 
*/ 
public class ExtractDemo { 
private static AbstractSequenceClassifier<CoreLabel> ner; 
public ExtractDemo() { 
InitNer(); 
} 
public void InitNer() { 
String serializedClassifier = "classifiers/chinese.misc.distsim.crf.ser.gz"; // chinese.misc.distsim.crf.ser.gz 
if (ner == null) { 
ner = CRFClassifier.getClassifierNoExceptions(serializedClassifier); 
} 
} 

public String doNer(String sent) { 
return ner.classifyWithInlineXML(sent); 
} 

public static void main(String args[]) { 
String str = "我 去 吃饭 ， 告诉 李强 一声 。"; 
ExtractDemo extractDemo = new ExtractDemo(); 
System.out.println(extractDemo.doNer(str)); 
System.out.println("Complete!"); 
} 

}

import java.io.File; 
import java.io.IOException; 
import java.util.Properties; 

import org.apache.commons.io.FileUtils; 

import edu.stanford.nlp.ie.crf.CRFClassifier; 
import edu.stanford.nlp.ling.CoreLabel; 

/** 
* 
* <p> 
* Description 使用Stanford CoreNLP进行中文分词 
* </p> 
* 
*/ 
public class ZH_SegDemo { 
public static CRFClassifier<CoreLabel> segmenter; 
static { 
// 设置一些初始化参数 
Properties props = new Properties(); 
props.setProperty("sighanCorporaDict", "data"); 
props.setProperty("serDictionary", "data/dict-chris6.ser.gz"); 
props.setProperty("inputEncoding", "UTF-8"); 
props.setProperty("sighanPostProcessing", "true"); 
segmenter = new CRFClassifier<CoreLabel>(props); 
segmenter.loadClassifierNoExceptions("data/ctb.gz", props); 
segmenter.flags.setProperties(props); 
} 

public static String doSegment(String sent) { 
String[] strs = (String[]) segmenter.segmentString(sent).toArray(); 
StringBuffer buf = new StringBuffer(); 
for (String s : strs) { 
buf.append(s + " "); 
} 
System.out.println("segmented res: " + buf.toString()); 
return buf.toString(); 
} 

public static void main(String[] args) { 
try { 
String readFileToString = FileUtils.readFileToString(new File("澳门141人食物中毒与进食“问题生蚝”有关.txt")); 
String doSegment = doSegment(readFileToString); 
System.out.println(doSegment); 

ExtractDemo extractDemo = new ExtractDemo(); 
System.out.println(extractDemo.doNer(doSegment)); 

System.out.println("Complete!"); 
} catch (IOException e) { 
e.printStackTrace(); 
} 

} 
}

注意一定是JDK 1.8+的环境，最后输出结果如下：

Python自然语言处理工具小结

Python自然语言处理工具小结

目录

1 Python 的几个自然语言处理工具

2 OpenNLP：进行中文命名实体识别

3 StanfordNLP：

实现中文命名实体识别

2、NER介绍

4 IKAnalyzer

5 中科院ICTCLAS

6 FudanNLP