zoukankan      html  css  js  c++  java
  • 小样本处理思路

    需要解决的问题

    现在有24类数据,对24类问题进行分类,每类的数据量只有10条数据。根据这些数据进行构建模型。

    解决思路

    1.直接构建分类器进行文本分类

    结果:

    可想而知,由于数据量巨少,所以准确率只有1%

    2.分类加实体提取相结合

    主要思路:

    首先对24类数据进行二分类,因为我处理的问题可以归为两个大类,首先对两个大类的数据进行标签备注,然后去除相关实体之后可以保证二分类效果更好。
    在没有对实体进行去除的情况下,二分类的准确率为50%左右

    实体提取方面,由于我的数据不是量比较少和实体不是通用实体,所以不能训练专门的模型去提取实体。我这边采用的解决方法是构建实体字典,去排除相关实体。(因为是为了实现需求,和数据量的限制,所以使用实体字典是方法最好的)。使用实体字典去除实体之后进行二分类的准确率是达到了88%。

    小结

    在刚开始我也参考了网上很多的方法,说小样本训练的一些模型等等,但是相关博客也是较少,而且大都是简单的介绍一下,并未有真正的可以使用的代码。最后发现很多也是不可通用。一切还得根据实际需求来解决问题。

    我会把我的相关代码和数据放在公众号里面,大家可以关注公众号“Python做些事”回复“小样本”,即可获取相关数据和代码。

    祝大家在代码界一帆风顺,各位大佬,干杯

  • 相关阅读:
    TTL与RS-485电平转换芯片MAX485/MAX3485
    RS485芯片介绍及典型应用电路
    脉冲电能表的组成及脉冲装置工作原理
    django-redis的安装及使用
    Python折线图——机器人UPtime Trend Chart
    ASP.Net DropDownList控件的使用方法
    C# ASP.Net数据库连接(Oracle)
    django根据已有数据库表生成model类
    Python Outlook发送邮件
    oracle将excel数据导入数据库
  • 原文地址:https://www.cnblogs.com/qiujichu/p/13139474.html
Copyright © 2011-2022 走看看