zoukankan      html  css  js  c++  java
  • 2.3数据-paddlepaddle数据集Conll05

    语义角色标注数据集Conll05

    • 语义角色标注数据集,因为Conll05数据集不是免费公开的,所以默认下载的url是Conll05的测试集(它是公开的)
    • 它返回一个reader creator,reader中的每个样本都有九个特征
    • 包括句子序列、谓词、谓词上下文、谓词上下文标记和标记序列

    https://www.paddlepaddle.org.cn/documentation/docs/zh/api_cn/data/dataset_cn/Conll05_cn.html

    https://github.com/PaddlePaddle/Paddle/blob/release/1.6/python/paddle/dataset/conll05.py#L218

    https://www.paddlepaddle.org.cn/documentation/docs/zh/beginners_guide/basics/label_semantic_roles/index.html#id5

    import numpy as np
    import paddle as paddle
    import paddle.dataset.conll05 as conll05
    import paddle.fluid as fluid
    
    # 获取维基百科语料库
    # 包含:单词、动词 和 标签 字典。
    conll05_dict=conll05.get_dict()
    
    # 单词、动词 、标签
    # len(conll05_dict) :3
    
    # 3个字典数量
    # len(conll05_dict[0].keys()),len(conll05_dict[1].keys()),len(conll05_dict[2].keys())
    # 44068, 3162, 109
    
    # 基于维基百科语料库的训练词向量,只是一个文件路径
    conll05_embd=conll05.get_embedding()
    # conll05_embd:/home/user/.cache/paddle/dataset/conll05st/conll05st%2Femb
    
    # 这里加载PaddlePaddle保存的二进制参数
    def load_parameter(file_name, h, w):
        with open(file_name, 'rb') as f:
            f.read(16)  # skip header.
            return np.fromfile(f, dtype=np.float32).reshape(h, w)
    
    conll05_embdding=load_parameter(conll05.get_embedding(), 44068, 32)
    # 词向量句子ndarray
    # conll05_embdding.shape:(44068, 32)
    
    # 只有测试数据
    test_conll05=conll05.test()
    # test_conll05:<function paddle.dataset.conll05.reader_creator.<locals>.reader()>
    # 取一个数据
    a_sample=next(test_conll05())
    # 它返回一个reader creator,reader中的每个样本都有九个特征
    # 包括句子序列、谓词、谓词上下文、谓词上下文标记和标记序列
    # len(a_sample):9
    
    # 放到batch里面加载
    test_conll05_reader = paddle.batch(test_conll05, batch_size=64)
    for data in test_conll05_reader():
        break
    # len(data),len(data[0]):64, 9
    
    
    
  • 相关阅读:
    Linux下搭建DNS服务器
    Linux下安装Oracle客户端
    CentOS下配置LVM和RAID
    Linux下配置MySQL主从复制
    Linux下二进制文件安装MySQL
    不偏移的天地图地图服务
    Lucene
    Arcpy处理修改shapefile FeatureClass 线要素坐标
    使用ArcGIS实现WGS84经纬度坐标到北京54高斯投影坐标的转换
    ArcGIS自定义坐标变换中的方法说明
  • 原文地址:https://www.cnblogs.com/onenoteone/p/12441677.html
Copyright © 2011-2022 走看看