admit、GPA、grade、rank分别代表录取情况、绩点、成绩、学校排名,此次利用sklearn库进行逻辑回归的简单训练。进行筛选主要特征值,模型准确率。
import pandas as pda
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
fname="./luqu.csv"
data=pda.read_csv(fname)
x=data.iloc[:,1:4].as_matrix()
y=data.iloc[:,0:1].as_matrix()
r1=RLR()
r1.fit(x,y)
#特征筛选
arr=r1.get_support(indices=True)
t=data[data.columns[arr]].as_matrix()
r2=LR()
r2.fit(t,y)
print("训练结束")
print("模型正确率:"+str(r2.score(x,y)))
可以看到,对原有的特征值进行筛选后,发现学校排名对录取情况的影响并不大,所以rank特征值被剔除,GPA、成绩作为影响录取情况的主要因素。取出GPA和成绩、录取情况数据,对此进行逻辑回归训练,计算得到模型正确率。
更多知识可以学习:https://blog.csdn.net/chibangyuxun/article/details/53148005