zoukankan      html  css  js  c++  java
  • 【NLP】大数据之行,始于足下:谈谈语料库知多少

    大数据之行,始于足下:谈谈语料库知多少

    作者:白宁超

    2016年7月20日13:47:51

    摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义。那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界,在随后模型构建过程避免一些语料注意事项,大大提升模型效率。(本文原创,转载请注明出处大数据之行,始于足下:谈谈语料库知多少。)

    1 语料库语言学


    1. 大多数学者普遍认为:语言学的研究必须基于语言事实的基础,必须详尽的大量的占有材料,才有可能在理论上得出比较可靠的结论。
    2. 语料库语言学:传统语言材料的搜集整理和加工完全以手工进行,费时费力,直到计算机出现并随之计算能力强大之后,原先手工的工作开始转向计算机去做,后来逐渐的方法完善中,提出一些初步的理论,形成了语料学这样一门语言学与计算机科学交叉的学科。
    3. 语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等。

    2  建立语料库的意义


    语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。

    3 语料库研究的一些原则问题


    3.1 语料库划分与种类

    ① 时间划分:历时语料库和共时语料库。

    ② 加工深度划分:标注语料库和非标注语料库

    ③ 结构划分:平衡结构语料库和自然随机结构语料库

    ④ 表达形式划分:口语语料库和文本语料库

    ⑤ 语种划分:单语种语料库和多语种语料库(可比语料库和平行语料库)

    ⑥ 动态更新程度划分:参考语料库和监控语料库

    3.2 构建语料库的原则

    语料库应该具有代表性、结构性、平衡性、规模需求并制定语料的元数据规范,各个原则具体介绍如下:

    ①   代表性:在应用领域中,不是根据量而划分是否是语料库,而是在一定的抽样框架范围内采集而来的,并且在特定的抽样框架内做到代表性和普遍性。

    ②   结构性:有目的的收集语料的集合,必须以电子形式存在,计算机可读的语料集合结构性体现在语料库中语料记录的代码,元数据项、数据类型、数据宽度、取值范围、完整性约束。

    ③   平衡性:主要体现在平缓因子:学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途(私信/广告等),根据实际情况选择其中一个或者几个重要的指标作为平衡因子,最常见的平衡因子有学科、年代、文体、地域等。

    ④   规模性:大规模的语料对语言研究特别是对自然语言研究处理很有用的,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长,语料库规模应根据实际情况而定。

    ⑤   元数据:元数据对于研究语料库有着重要的意义,我们可以通过元数据了解语料的时间、地域、作者、文本信息等;还可以构建不同的子语料库;除此外,还可以对不同的子语料对比;另外还可以记录语料知识版权、加工信息、管理信息等。

    注意:汉语词与词之间没有空隙,不便于计算机处理,一般需要进行切词和词性标注。

    4 语料标注的优缺点


    ①   优点: 研究方便。可重用、功能多样性、分析清晰。

    ②   缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低

    总之,目前语料库语言学主要研究机器可读自然文本的采集、存储、检索、统计、自动切词、词性标注、语义标注等。

    5 参考文献


    【1】 数据挖掘概念与技术(364--386) 韩家炜

    【2】 自然语言处理简明教程  冯志伟 著

    【3】 统计自然语言处理基础 (166—169) 宛春法等译

     

    6 自然语言相关系列文章


    【自然语言处理:马尔可夫模型(一)】:初识马尔可夫和马尔可夫链

    【自然语言处理:马尔可夫模型(二)】:马尔可夫模型与隐马尔可夫模型

    【自然语言处理:马尔可夫模型(三)】:向前算法解决隐马尔可夫模型似然度问题

    【自然语言处理:马尔可夫模型(四)】:维特比算法解决隐马尔可夫模型解码问题(中文句法标注)

    【自然语言处理:马尔可夫模型(五)】:向前向后算法解决隐马尔可夫模型机器学习问题

    【自然语言处理:谈谈学习模型的评估(一)】:统计角度窥视模型概念

    【自然语言处理:谈谈学习模型的评估(二)】:基于Data Mining角度的模型评估与选择

    【自然语言处理:谈谈学习模型的评估(三)】:基于NLP角度的模型评价方法

    【自然语言处理:谈谈学习模型的评估(四)】:基于R语言的模型案例实战

    7 语料库


     

    1. 古滕堡语料库
    2. 语料库在线
    3. 搜狗实验室新闻|互联网数据
    4. 北京大学语言研究中心
    5. 计算机语言研究所
    6. 数据堂

    声明:关于此文各个篇章,本人采取梳理扼要,顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成,旨在技术分享,知识沉淀。在此感谢原著无私的将其汇聚成书,才得以引荐学习之用。其次,本人水平有限,权作知识理解积累之用,难免主观理解不当,造成读者不便,基于此类情况,望读者留言反馈,便于及时更正。本文原创,转载请注明出处大数据之行,始于足下:谈谈语料库知多少。 

  • 相关阅读:
    Java实现 蓝桥杯VIP 算法提高 交换Easy
    Java实现 蓝桥杯VIP 算法提高 多项式输出
    Java实现 蓝桥杯VIP 算法提高 多项式输出
    Java实现 蓝桥杯VIP 算法提高 多项式输出
    Java实现 蓝桥杯VIP 算法提高 多项式输出
    Java实现 蓝桥杯VIP 算法提高 多项式输出
    Java实现 蓝桥杯VIP 算法训练 矩阵乘方
    QT中给各控件增加背景图片(可缩放可旋转)的几种方法
    回调函数实现类似QT中信号机制
    std::string的Copy-on-Write:不如想象中美好(VC不使用这种方式,而使用对小字符串更友好的SSO实现)
  • 原文地址:https://www.cnblogs.com/baiboy/p/ylk.html
Copyright © 2011-2022 走看看