zoukankan      html  css  js  c++  java
  • 【CCF202012-2】期末预测之最佳阈值

    时间限制: 1.0s
    内存限制: 512.0MB

    题目背景

    考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全,顿顿决定设置一个阈值 θ,以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。

    因为安全指数越高表明小菜同学挂科的可能性越低,所以当 y≥θ 时,顿顿会预测小菜这学期很安全、不会挂科;反之若 y<θ,顿顿就会劝诫小菜:“你期末要挂科了,勿谓言之不预也。”

    那么这个阈值该如何设定呢?顿顿准备从过往中寻找答案。

    问题描述

    具体来说,顿顿评估了 m 位同学上学期的安全指数,其中第 i(1≤i≤m)位同学的安全指数为 yi,是一个 [0,108] 范围内的整数;同时,该同学上学期的挂科情况记作 resulti∈0,1,其中 0 表示挂科、1 表示未挂科。

    相应地,顿顿用 predictθ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。
    如果 predictθ(yj) 与 resultj 相同,则说明阈值为 θ 时顿顿对第 j 位同学是否挂科预测正确;不同则说明预测错误。

    predictθ(y)={0(y<θ),1(y≥θ)}

    最后,顿顿设计了如下公式来计算最佳阈值 θ

    θ=maxargmaxθ∈yi⁡j=1m(predictθ(yj)==resultj)

    该公式亦可等价地表述为如下规则:

      1. 最佳阈值仅在 yi 中选取,即与某位同学的安全指数相同;

      2. 按照该阈值对这 m 位同学上学期的挂科情况进行预测,预测正确的次数最多(即准确率最高);

      3. 多个阈值均可以达到最高准确率时,选取其中最大的。

    输入格式

    从标准输入读入数据。

    输入的第一行包含一个正整数 m。

    接下来输入 m 行,其中第 i(1≤i≤m)行包括用空格分隔的两个整数 yi 和 resulti,含义如上文所述。

    输出格式

    输出到标准输出。

    输出一个整数,表示最佳阈值 θ

    样例1输入

    6

    0 0

    1 0

    1 1

    3 1

    5 1

    7 1

    样例1输出

    3

    样例1解释

    按照规则一,最佳阈值的选取范围为 0,1,3,5,7。

    θ=0 时,预测正确次数为 4;

    θ=1 时,预测正确次数为 5;

    θ=3 时,预测正确次数为 5;

    θ=5 时,预测正确次数为 4;

    θ=7 时,预测正确次数为 3。

    阈值选取为 1 或 3 时,预测准确率最高;
    所以按照规则二,最佳阈值的选取范围缩小为 1,3。

    依规则三,θ=max1,3=3。

    样例2输入

    8
    5 1
    5 0
    5 0
    2 1
    3 0
    4 0
    100000000 1
    1 0

    样例2输出

    100000000

    子任务

    70% 的测试数据保证 m≤200;

    全部的测试数据保证 2≤m≤105

    题解

    最佳阈值从yi中选取,那么可以枚举yi,计算预测正确的次数,就能找到最佳阈值。但是这样的时间复杂度是O(n2),会超时

    注意到阈值和y有一定的关系。若阈值为yi,则对于yj<yi,预测结果一定是挂科,对于yj>yi,预测结果一定是未挂科。于是考虑对y排序,我们就可以知道,以yi为分界线,排在yi前面的预测结果都是相同的,排在yi后面的预测结果也是相同的。

    对yi从小到大排,则当j<i时,预测结果为挂科,那么result==0预测成功,result==1预测失败。令pf[i]表示阈值为yi时,安全指数小于yi的同学中预测成功的次数,则pf[i]=pf[i-1]+(result==0);令sf[i]表示阈值为yi时,安全指数不小于yi的同学中预测成功的次数,同理可得sf[i]=sf[i+1]+(result==1).于是当阈值为yi时,预测成功的总次数就是安全指数小于yi的同学中预测成功的次数和安全指数不小于yi的同学中预测成功的次数之和。

    考虑到存在y相等的情况,所以pf[i-1]+sf[i]并不能满足要求。

    设阈值为yi时预测成功的总次数为pf[j]+sf[k],其中,k满足yk>=yi,所以k==i;而j满足yj<yi,所以,若yi-1==yi,那么pf[i-1]就是错的。我们需要记录yj<yi的最大的j,预测成功的总次数即为pf[j]+sf[i].

     1 #include <algorithm>
     2 #include <cstdio>
     3 int n,rnk[100005],pf[100005],sf[100005];
     4 struct node{
     5     int y,x;
     6 }a[100005]; 
     7 bool cmp(node x,node y)
     8 {
     9     return x.y<y.y;
    10 }
    11 int main()
    12 {
    13     int i,j,s,ans,t,p;
    14     scanf("%d",&n);
    15     for (i=1;i<=n;i++)
    16       scanf("%d%d",&a[i].y,&a[i].x);
    17     std::sort(a+1,a+n+1,cmp);
    18     for (i=1;i<=n;i++)
    19       pf[i]=pf[i-1]+(a[i].x==0);
    20     for (i=n;i>=1;i--)
    21       sf[i]=sf[i+1]+(a[i].x==1);
    22     rnk[1]=p=1;
    23     for (i=2;i<=n;i++)
    24       if (a[i].y!=a[i-1].y) rnk[i]=p=i;
    25       else rnk[i]=p;
    26     s=sf[1];  ans=a[1].y;
    27     for (i=n;i>1;i--)
    28     {
    29         t=sf[i]+pf[rnk[i]-1];
    30         if (t>s) s=t,ans=a[i].y;
    31     } 
    32     printf("%d",ans);
    33     return 0;
    34 }
  • 相关阅读:
    数组相似性计算
    关于GANs原论文里的数学证明
    Python 画个图
    Golang脱坑指南: goroutine(不断更新)
    Java面试细节整理(不断更新)
    从统计看机器学习(二) 多重共线性的一些思考
    从统计看机器学习(一) 一元线性回归
    数据库存储技术基础(一) 字典编码
    JVM内存管理笔记
    R语言rank函数详细解析
  • 原文地址:https://www.cnblogs.com/rabbit1103/p/14377054.html
Copyright © 2011-2022 走看看