zoukankan      html  css  js  c++  java
  • 人民日报1998年中文标注语料库及读取代码

     

    人民日报1998年中文标注语料库及读取代码

    代码作者:肖波

    语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司

    PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。

    由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《KTDictSeg 一种简单快速准确的中文分词方法》中下载。

    using System;
    using System.Collections;
    using System.Collections.Generic;
    using System.Text;
    using KTDictSeg;
    using General;

    namespace MachineLeaning
    {
        
    class T_Word
        
    {
            
    public String Word; //单词
            public int POS;  //词性
            public long Freq;   //词频  
        }
    ;

        
    /// <summary>
        
    /// 1998年人民日报标注预料库的提取
        
    /// </summary>

        class People1998
        
    {
            
    Private Members

            
    Public Members


        }

    }



    调用示例

                if (openFileDialogDict.ShowDialog() == DialogResult.OK)
                
    {
                    
    try
                    
    {
                        People1998.Load(openFileDialogDict.FileName);
                    }

                    
    catch(Exception e1)
                    
    {
                        CMsgBox.ShowErrorMessageBox(e1.Message);
                    }

                }

    语料库下载地址
    由于较大,分成5包下载
     

    https://files.cnblogs.com/eaglet/199801.part01.rar

    https://files.cnblogs.com/eaglet/199801.part02.rar

    https://files.cnblogs.com/eaglet/199801.part03.rar

    https://files.cnblogs.com/eaglet/199801.part04.rar

    https://files.cnblogs.com/eaglet/199801.part05.rar





  • 相关阅读:
    java数组的相关方法
    spring boot 文件目录
    mysql 数据库安装,datagrip安装,datagrip连接数据库
    linux maven 的安装与配置
    java String字符串常量常用方法
    java 命名规范
    deepin 安装open jdk
    jetbrains(idea,webstorm,pycharm,datagrip)修改背景,主题,添加特效,汉化
    JVM学习(九)volatile应用
    JVM学习(八)指令重排序
  • 原文地址:https://www.cnblogs.com/eaglet/p/888377.html
Copyright © 2011-2022 走看看