zoukankan      html  css  js  c++  java
  • 2.3数据-paddlepaddle数据集Conll05

    语义角色标注数据集Conll05

    • 语义角色标注数据集,因为Conll05数据集不是免费公开的,所以默认下载的url是Conll05的测试集(它是公开的)
    • 它返回一个reader creator,reader中的每个样本都有九个特征
    • 包括句子序列、谓词、谓词上下文、谓词上下文标记和标记序列

    https://www.paddlepaddle.org.cn/documentation/docs/zh/api_cn/data/dataset_cn/Conll05_cn.html

    https://github.com/PaddlePaddle/Paddle/blob/release/1.6/python/paddle/dataset/conll05.py#L218

    https://www.paddlepaddle.org.cn/documentation/docs/zh/beginners_guide/basics/label_semantic_roles/index.html#id5

    import numpy as np
    import paddle as paddle
    import paddle.dataset.conll05 as conll05
    import paddle.fluid as fluid
    
    # 获取维基百科语料库
    # 包含:单词、动词 和 标签 字典。
    conll05_dict=conll05.get_dict()
    
    # 单词、动词 、标签
    # len(conll05_dict) :3
    
    # 3个字典数量
    # len(conll05_dict[0].keys()),len(conll05_dict[1].keys()),len(conll05_dict[2].keys())
    # 44068, 3162, 109
    
    # 基于维基百科语料库的训练词向量,只是一个文件路径
    conll05_embd=conll05.get_embedding()
    # conll05_embd:/home/user/.cache/paddle/dataset/conll05st/conll05st%2Femb
    
    # 这里加载PaddlePaddle保存的二进制参数
    def load_parameter(file_name, h, w):
        with open(file_name, 'rb') as f:
            f.read(16)  # skip header.
            return np.fromfile(f, dtype=np.float32).reshape(h, w)
    
    conll05_embdding=load_parameter(conll05.get_embedding(), 44068, 32)
    # 词向量句子ndarray
    # conll05_embdding.shape:(44068, 32)
    
    # 只有测试数据
    test_conll05=conll05.test()
    # test_conll05:<function paddle.dataset.conll05.reader_creator.<locals>.reader()>
    # 取一个数据
    a_sample=next(test_conll05())
    # 它返回一个reader creator,reader中的每个样本都有九个特征
    # 包括句子序列、谓词、谓词上下文、谓词上下文标记和标记序列
    # len(a_sample):9
    
    # 放到batch里面加载
    test_conll05_reader = paddle.batch(test_conll05, batch_size=64)
    for data in test_conll05_reader():
        break
    # len(data),len(data[0]):64, 9
    
    
    
  • 相关阅读:
    python 字典转对象实现
    漏洞复现的整理
    mlx90614红外传感器
    【小程序码】登录的技术实现案例
    Spring mvc Aop
    MSHFLEXGRID常用的属性,方法事件
    InsertAuditEntryNew
    Froggy 的 CSP-2021 S1 游记
    JOI Open 偷学记录
    生产订单工序新增、修改、删除——CO_SE_PRODORD_OPR_CREATE、CO_SE_PRODORD_OPR_CHANGE、CO_SE_PRODORD_OPR_DELETE
  • 原文地址:https://www.cnblogs.com/onenoteone/p/12441677.html
Copyright © 2011-2022 走看看