深度学习

zoukankan html css js c++ java

深度学习

遗传算法　　　　一次次求得最优解

进化策略　　有效避免局部最优（过拟合）　　并行能力计算

强化学习　　

什么都不懂->找到规律　　给你的行为打分　　

核心思想：同样的行为拿到高分，并避免低分的行为　　　　　　分数导向性

不理解环境：从环境中得到反馈

理解环境：为现实世界建模，多出来个虚拟环境

通过过往的经验理解现实世界是怎样的，并建立一个模型来模拟现实世界的反馈　　　　现实模拟两世界中都可以玩耍　　

通过想象来预判要发生的所有情况，根据想象中的情况选择最好的那种，并根据这种情况来采取下一步的策略

基于概率　　Policy Gradients

通过感官分析所处的环境，直接算出下一步采取行动的概率，根据概率采取行动，每一种动作都可能被选中，只是可能性不同

基于价值：决策部分更为肯定，毫不留情就选价值最高的　　（连续的动作无能为力）Q Learning Sarsa

Actor-Critic 　　基于概率做出动作，并对做出的动作给出动作的价值

Q Learning

off-policy　　　　不怕死

greedy　　决策上的一种策略

a　　学习效率　　决定这次误差有多少要被学习　　<1

y　　未来奖励的衰减值

缺点：所有记录都在表格里，很快表格空间被用完，无法处理复杂的问题

Sarsa

on-policy　　在线学习　　　　单步更新　　　更保守、安全

Sarsa(lambda)　　更行选择的步数　　衰变值

lambda　　0为单步更新1为回合更新　　介于0~1之间　　(离宝藏越近更新力度越大)

回合更新：走的步数都是为了得到宝藏所要学习的步

DQN（deep q network)

Policy Gradients

直接输出动作　　连续区间内选择动作

误差反相传递　　增加被选的概率　　奖惩

神经网络

数学或计算机模型

生物神经网络

刺激产生新的连接，让信号通过新的连接传递而形成反馈

加了层之后想不到那么远　　梯度消失

人脸识别

神经网络中的黑盒

将宝宝当作特征，feature　　将神经网络第一层加工后的宝宝当作代表特征　　-再次加工的代表特征--》例外代表特征　　只有计算机看的懂

Tensorflow

安装：pip install --index-url http://mirrors.aliyun.com/pypi/simple/ tensorflow

逻辑回归

　　　　　　　　　　损失函数　　　　代价　　1/m * 损失　　参数的总代价

　训练集-----------学生的课本；学生根据课本里的内容来掌握知识。

验证集------------作业，通过作业可以知道不同学生学习情况、进步的速度快慢。

测试集-----------考试，考的题是平常都没有见过，考察学生举一反三的能力。

偏差高　　训练集误差高　　　　更大的网络

方差高　　训练集和测试集之间相差的误差高　　　　数据

人眼辨别的错误率高　——　最优误差高　　　　|　　贝叶斯误差

查看全文

相关阅读:
Wireshark抓包工具使用教程以及常用抓包规则
 linux自带抓包工具tcpdump使用说明
 利用mmap /dev/mem 读写Linux内存
 使用mii-tool设置网卡速率
 LINUX命令之ETHTOOL用法详解
 ethtool 在 Linux 中的实现框架和应用
 IDEA 上传更新的代码到码云上
 如何选择开源许可证
 IDEA 安装完码云插件,运行报“Cannot run program "xxx":CreateProcess error=2,系统找不到指定的文件”
beans.factory.BeanCreationException beans.factory.annotation.Autowired(required=true)

原文地址：https://www.cnblogs.com/zhang1422749310/p/11378735.html

强化学习

Q Learning

Sarsa

DQN（deep q network)

Policy Gradients

神经网络

逻辑回归

强化学习