1.simpletransformer包apex
它这个包默认的是如果使用GPU的话就是fp16精度,所以需要安装apex包,我还没有尝试过,既然它这么写肯定是考虑到显卡内存大小吧,所以我尝试一下安装apex:
https://github.com/NVIDIA/apex#quick-start,这个给出了步骤
$ git clone https://github.com/NVIDIA/apex $ cd apex $ pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./
ok没问题,可以安装成功。
但:cannot import name 'amp' from 'apex' (unknown location)
烦死了。https://github.com/NVIDIA/apex/issues/621,这里面遇到的问题和我一样,给出的办法是:https://github.com/NVIDIA/apex/issues/86#issuecomment-455620478
pip uninstall apex cd apex rm -rf build (if it exists) python setup.py install --cuda_ext --cpp_ext
但是我在最后一句,出现了这个问题:
FileNotFoundError: [Errno 2] No such file or directory: ':/usr/local/cuda/bin/nvcc': ':/usr/local/cuda/bin/nvcc'
对于这个问题我的猜测是,这个文件确实存在,我去文件夹下看了,确实存在,那可能就是权限的问题了,但是我用root用户去操作出现了一些conda的问题,我无法解决,而且我用
chmod +xxx nvcc文件,没有用,我猜测问题是因为nvcc文件所有者是root所以我无法访问?
又尝试chmod 777 nvcc,还是一样的问题,说明不是权限的问题。那可能的问题就是我的软链接,cuda默认会链接到cuda-10.0这个目录下。
搜到了相同的问题,解答https://github.com/NVIDIA/apex/issues/368#issuecomment-507533209,非常ok!
就:
export CUDA_HOME=/usr/local/cuda
而且我进入py环境:
就导入进来没问题??? 但是version就没有这个属性,而且我pip list 也根本就找不到apex这个包安装过啊。太迷惑了,隐藏安装???
安装过程好复杂,好慢卡住了吗。
可了!成功了!
以上均没有问题了。
2.torch手动梯度手动清零
https://www.zhihu.com/question/303070254?sort=created
这个高赞回答的也太好了,解决了我很多问题。这个和参数gradient_accumulation_steps一起来理解,简直完美!
使用梯度累加,可以让梯度计算过程实现更多的可能性:
for i,(images,target) in enumerate(train_loader): # 1. input output images = images.cuda(non_blocking=True) target = torch.from_numpy(np.array(target)).float().cuda(non_blocking=True) outputs = model(images) loss = criterion(outputs,target) # 2.1 loss regularization loss = loss/accumulation_steps # 2.2 back propagation loss.backward() # 3. update parameters of net if((i+1)%accumulation_steps)==0: # optimizer the net optimizer.step() # update parameters of net optimizer.zero_grad() # reset gradient
上面的讲解简直太牛了!怎么都懂这么多呢。反正使用梯度累加可以变相增加bs,缓解贫穷。
主要是因为torch会对梯度进行累加,所以需要清零!
下面的一个在内存占用大小方面来回答的也非常好!更理解了!
在前向的时候会计算梯度,这样就需要内存空间来保存,在loss.backward()之后这整个占用的空间就会被释放,原来计算的过程是这样的啊。
对于大bs,在计算梯度相关信息的时候需要的内存空间就大;所以可以选择小bs,和梯度累加来变相实现大bs。
5-3日————————
1.合并dict
https://blog.csdn.net/Jerry_1126/article/details/73017270
字典是Python语言中唯一的映射类型。
映射类型对象里哈希值(键,key)和指向的对象(值,value)是一对多的的关系,通常被认为是可变的哈希表。
使用items()更新,在python2中实现。
update,这个应该比较常用的:
2.什么是线性分类器/非线性分类器?
看到一篇论文中说,逻辑回归和SVM都是线性分类器???我迷惑。
https://www.cnblogs.com/BlueBlueSea/p/10291443.html,原来我那么久之前就已经学习过了啊!!!完全记不起来了。
上面这个链接里总结的回答已经很全面了,就已经过转换之后,逻辑回归的决策边界是线性的边界,
https://www.zhihu.com/question/30633734,这个回答下面。
关键点是:如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
总结一下:对于二分类,线性分类只用一个超平面将其分开,但可能是引入到了更高维的空间;而非线性分类器是曲面,多个超平面的组和。
5-4日周一————
1.sklearn 交叉验证cross_val_score
https://blog.csdn.net/qq_36523839/article/details/80707678,这个给的例子还挺清楚的
from sklearn import datasets #自带数据集 from sklearn.model_selection import train_test_split,cross_val_score #划分数据 交叉验证 from sklearn.neighbors import KNeighborsClassifier #一个简单的模型,只有K一个参数,类似K-means import matplotlib.pyplot as plt iris = datasets.load_iris() #加载sklearn自带的数据集 X = iris.data #这是数据 y = iris.target #这是每个数据所对应的标签 train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=1/3,random_state=3) #这里划分数据以1/3的来划分 训练集训练结果 测试集测试结果 k_range = range(1,31) cv_scores = [] #用来放每个模型的结果值 for n in k_range:#这个for循环是用来测试聚类成几类效果比较好的 knn = KNeighborsClassifier(n) #knn模型,这里一个超参数可以做预测,当多个超参数时需要使用另一种方法GridSearchCV scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy') #cv:选择每次测试折数 accuracy:评价指标是准确度,可以省略使用默认值,具体使用参考下面。 cv_scores.append(scores.mean()) plt.plot(k_range,cv_scores) plt.xlabel('K') plt.ylabel('Accuracy') #通过图像选择最好的参数 plt.show() best_knn = KNeighborsClassifier(n_neighbors=3) # 选择最优的K=3传入模型 best_knn.fit(train_X,train_y) #训练模型 print(best_knn.score(test_X,test_y)) #看看评分
可以看到cross_val_score的参数,第一个参数是estimator,
estimator:estimator object implementing ‘fit’
The object to use to fit the data.
应该就是sklearn中实现的那些模型,比如linear_model等,带有fit方法的。
其他的参数还有数据集,交叉验证次数等。
2.sklearn的pipeline和FeatureUnion
https://blog.csdn.net/qq_35992440/article/details/89918305, 这个讲的不错,但我觉得我目前用不到
我觉得这个就是流水线性太强,机动性就比较弱,对于nlp类型的文本数据可能就适应度比较低?所以我先就不学习了。
3.sklearn使用总结
https://www.jianshu.com/p/516f009c0875,这个介绍的也太棒了,就对sk有一个宏观的理解了。