图像识别与分类
什么是图像识别
一般而言,传统图像识别主要由图像分割、图像特征提取以及图像识别分类构成
图像分割将图像划分多个有意义的区域,然后将每个区域的图像进行特征提取,最后根据提取的图像特征对图像进行分类
ImageNet数据集(深度学习图像处理的标准数据集)
包含1400多幅图片,涵盖两万多个类别
利用卷积神经网络进行图像识别
卷积神经网络是一种为了处理二维输入数据而特殊设计的多层人工神经网络。
不仅关注了全局特征,更利用了图像识别领域非常重要的局部特征,将局部特征抽取算法融入到神经网络中。
卷积神经网络的工作过程
网络对输入的真实图像运用不同的算子进行扫描提取不同的特征,并通过采样进行压缩。
进行多次特征提取和采样
全连接层为每个节点的输入指定一个标签。
图像识别的主要应用
日渐成熟的图像识别技术已经应用很广泛了。
智能家居
在智能家居领域,通过图像识别技术识别出摄像头获取的图像内容。
若发现是可疑的人或物体,就及时报警给户主,而如果图像和主人的面部匹配,则会主动为主人开门。
安防
图像识别在安防领域应用较多,尤其在视频监控领域能直接帮助用户从视频画面中提取人的信息
大大提升监控系统的价值,使之成为智慧城市的核心
金融
在金融领域身份识别和智能支付将提高身份安全性与支付的效率和质量。
通过人脸识别进行一系列的验证、匹配和判断,从而快速完成身份核实。
医疗
将图像识别应用到医疗领域,更精准快速地分辨X光片,MRI和CT扫描
交通系统
交通违章检测 交通拥堵检测,信号灯识别
提高交通管理者的工作效率,更好的解决城市交通问题
医学影像分析
医学影像基础
硬件发展的突飞猛进,包括MR,CT等硬件的发展,这些成像技术让我们得到了很好的影像发展
复杂数学工具的利用,通过这些方式对医学影像进行重建,分析与出库,从而得到清晰可见的医学判断。
人工智能+医学影像
在医学影像的基础上通过深度学习与大数据分析等,完成对影像的分类、目标检测、图像分割和检测工作
是协助医生完成诊断,治疗工作的一种辅助工具。
作用及优点
医学影像的解读需要长时间专业经验的积累,放射科医生的培养周期相对较长。
人工智能在图像的检测效率和精度两个方面,都做得比专业医生更快,减少人为的
深度学习方法
医学图像包含来自不同组织,不同形态的人体器官,深度学习包含多层感知器,可以通过组合低层形成更加抽象的高层特征,提取出图像背后的人体结构特征。
应用:计算机辅助诊断
病灶检测,对可疑病灶进行识别和勾画,
病灶量化诊断,帮助医生鉴别疾病良恶性、分型分期等。
治疗决策,通过相关性分析,支持临床医生进行科学合理的治疗决策
应用:图像分割
主要是对身体组织做一个明确分割,精度比医生手动分割更高,从而更加精准地定量评价治疗前后的效果。
2015年的一篇文章提到利用卷及神经网络CNN,自动将大脑灰质、白质、脑脊髓翼自动分割,从而分析大脑的病变。
应用:图像配准
在不同模式医学图像或多参数医学影像进行图像融合前,必须对图像进行精准配准。
应用:图像融合
图像有结构性与功能性之分,
结构性:可以得到组织的结构性特征,但无法看到生物有机代谢的情况。
功能性图像,它可以提示代谢的衰变与下降,或功能的疾病,但图像空间解析度差。
需要影像融合,将不同类型的图像结合在一起,这样就可以了解到组织与器官的病变。
应用:图像重建
补充机器的功能和性能。(提高信号和信噪比)
通过深度学习将3T变7T图像。
人工智能+医学影像
是人工智能关注较多的领域,“AI+医学影像”被多位业界人士认为最有可能率先实现商业化。
语音识别
语音识别技术
自动语音识别,将人类语音中的词汇转换成相应的文字
语音识别基本原理
我们知道声音其实是一种波,如果要对于声音进行分析,就要对于声音进行分帧。
也就是把声音按照时间切成若干小段,每一小段称为一帧。
1.语音分帧 2.声学特征提取
3.把帧识别成状态 4.把状态组合成音素
5.把音素组合成单词
每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。
一般认为某帧对应哪个状态的概率最大,那这帧就属于哪个状态。
神经网络在语音识别中的应用
通过巨大数量的语音数据,经过神经网络监督训练得到“声学模型”。
神经网络不仅可以编码最近的几个词,还可以把前文中的所有词中的各种信息都作为输入特征。
由于历史是一个序列,可以采用递归神经网络来建立声学模型。
语音识别应用
应用在语音拨号,语音导航,室内设备控制等
语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更复杂的应用,列如同声传译。
语音识别应用:语音输入法
通过语音识别输入文字,最高速能够达到1分钟400字,比普通键盘输入更加高效
科大讯飞的语音输入,不仅支持中文录入,中文转英文,还支持粤语、四川话等多种语言的翻译。
语音识别应用:个人助理
微软小冰 小娜
小冰是微软推出的一个人工智能聊天机器人,可以创作诗歌,撰写新闻,主持节目,已经在北京广播电视台开播。
siri是一款内置在苹果IOS系统中的人工智能
Google assistant 结合了谷歌积累多年的技术,其持续性对话功能让机器与人的交流更为自然。
智能语音助手和搜索引擎相结合,更快的帮助用户找到答案。
人脸识别和情感计算
人脸识别的定义
依据人的面部特征,自动进行身份验证的一种生物识别的技术
人脸识别的流程
图像采集 人脸检查 特征提取 模型对比 结果输出
人脸采集
影响因素:
图像大小
图像分辨率
光照环境
模糊程度
遮挡程度
采光程度
人脸检测
再图像中准确标定出人脸的位置和大小,并把其中有效信息提取出来。
如直方图特质,颜色特质,模板特质,结构特征,然后利用这些信息达到人脸检测的目的。
基于检测出的特征采用综合分类学习算法(Adaboost算法),挑选出代表性特征。
按照加权的方式将若分类构造为一个强分类器,再将训练得到的若干强分类器串联组成一个层叠分类器,有效地提高检索速度。
图像预处理
系统获取原始图像由于受到各种条件限制和随机干扰,往往不能直接使用。
需要再图像处理早起阶段对它进行灰度计算,矫正过滤的预处理。
人脸特征提取:传统基于知识表征方法
根据人脸器官的形状描述以及它们之间的距离特性有助于人脸分类的特征数据。
其特征分量通常包括特征点间的欧式距离,曲率和角度对人体特征进行建模。
人脸特征提取:基于神经网络方法
基于神经网络人脸进行特征建模
使用深度卷积网络,将输入的人脸图像转换成一个向量的表示。
再理想状况下,我们希望“向量表示”之间的距离可以直接反应出不同人脸相似度的大小
匹配与识别
提取人脸特征值数据与数据库中存储的特征模板进行搜索匹配。
通过设定一个阈值,将相似度与这一阈值进行比较,来对人脸的身份信息进行判断。
情感计算:人脸表情识别
人类主要有六种基本情感:愤怒、高兴、悲伤、惊讶、厌恶、恐惧。
感情表达包括言辞、声音、面部表情
情感计算
表情识别的四个步骤中人脸检测、人脸配准、特征提取与人脸识别中的部分类似
主要的困难点
表情的精细化程度划分:每种情绪最微弱的表现是否需要分类。
表情类别的多样化:是否还需要补充其他类别的情绪
六种情绪在一些常见下还远不能识别人类的真实情绪,因此还有精细表情识别,混合表情识别……
表情分析工具:FACS
人类在表达同一情感时,面部肌肉运动具有一定的规律,可以基于运动单元给出面部动作编码系统。
情感计算应用场景
帮助有自闭症的人群更好的融入社会
迅速定位那些需要帮助或有学习障碍的学生
用于心理医生判断是否明白其指示和病人的真实情感,以便更好的治疗。
自动驾驶
人工智能与自动驾驶
当前人工智能的主要细分技术,包括机器视觉,深度学习,强化学习,传感器技术等均在自动驾驶领域发挥着重要的作用。
自动驾驶行业发展的瓶颈主要在于这些人工智能底层技术上是否能实现突破。
自动驾驶的现状
海内外各大企业争相加大人工智能在汽车领域应用的研发投入。尤其是非传统的汽车厂商,包括各大IT和互联网公司如Google,Tesla,中国的蔚来汽车等。
自动驾驶的SAE分类标准
Level 0 人工驾驶
Level 1 辅助驾驶
Level 2 半自动自动驾驶
Level 3 高度自动驾驶
Level 4 超高度自动驾驶
Level 5 全自动驾驶
就目前来说,还在进行L3,L4的研发上
模块组成
环境感知,驾驶行为决策,运动控制模块。
自动驾驶中最重要、最具有挑战性的是驾驶行为决策。
决策模型
无人驾驶中的行为决策需要根据实时路况信息,交通环境系统和自身驾驶状态信息,产生的安全快速的自动驾驶决策。
深度学习可以用来做环境的感知,而强化学习可以用来做控制行为的决策模型,这样就可以构成完整的自动驾驶系统
障碍物识别
根据人工智能中的数据进行识别,操纵,躲避这些障碍物
交通标志识别
无人车也是要懂得交通规则的,所以识别交通标志并根据标志的指示执行不同指令也非常重要。
这也是个计算机视觉问题,可以用深度学习来辅助。
车道识别
车道识别也是计算机视觉的问题,高级的道路西线检测需要计算相机校准和失真系数,对原始图像失真进行校证
典型方案
Comma.ai提出端到端方法
未来趋势
诸如车载深度学习芯片开发、传感器的融合替代、高精度地图的制作、决策和控制系统的研发、安全保障的系数,这些都是未来发展的热点
相信在可预见的未来,无人驾驶会把人类从低效、重复的驾驶中解放出来。