zoukankan      html  css  js  c++  java
  • 人民日报1998年中文标注语料库及读取代码

     

    人民日报1998年中文标注语料库及读取代码

    代码作者:肖波

    语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司

    PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。

    由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《KTDictSeg 一种简单快速准确的中文分词方法》中下载。

    using System;
    using System.Collections;
    using System.Collections.Generic;
    using System.Text;
    using KTDictSeg;
    using General;

    namespace MachineLeaning
    {
        
    class T_Word
        
    {
            
    public String Word; //单词
            public int POS;  //词性
            public long Freq;   //词频  
        }
    ;

        
    /// <summary>
        
    /// 1998年人民日报标注预料库的提取
        
    /// </summary>

        class People1998
        
    {
            
    Private Members

            
    Public Members


        }

    }



    调用示例

                if (openFileDialogDict.ShowDialog() == DialogResult.OK)
                
    {
                    
    try
                    
    {
                        People1998.Load(openFileDialogDict.FileName);
                    }

                    
    catch(Exception e1)
                    
    {
                        CMsgBox.ShowErrorMessageBox(e1.Message);
                    }

                }

    语料库下载地址
    由于较大,分成5包下载
     

    https://files.cnblogs.com/eaglet/199801.part01.rar

    https://files.cnblogs.com/eaglet/199801.part02.rar

    https://files.cnblogs.com/eaglet/199801.part03.rar

    https://files.cnblogs.com/eaglet/199801.part04.rar

    https://files.cnblogs.com/eaglet/199801.part05.rar





  • 相关阅读:
    4.graph.h
    3.俄罗斯方块项目
    3.栈的实现
    26.多线程
    25.Detours劫持技术
    codeforces 616E Sum of Remainders (数论,找规律)
    poj2387 Til the Cows Come Home 最短路径dijkstra算法
    poj1274 The Perfect Stall (二分最大匹配)
    poj1459 Power Network (多源多汇最大流)
    Oracle RAC/Clusterware 多种心跳heartbeat机制介绍 RAC超时机制分析
  • 原文地址:https://www.cnblogs.com/eaglet/p/888377.html
Copyright © 2011-2022 走看看