长文干货!走近人脸检测:从 VJ 到深度学习(下)

原作者: 人工智障 收藏 分享 邀请
深度学习给目标检测带来的变革 
    人脸检测作为一种特定类型目标的检测任务,一方面具有其自己鲜明的特点,需要考虑人脸这一目标的特殊性,另一方面其也和其它类型目标的检测任务具有一定的共性,能够直接借鉴在通用目标检测方法上的研究经验。
    目标检测任务作为一个分类问题,其不仅受益于计算机视觉领域相关技术的不断发展,在机器学习领域的研究进展同样也对目标检测任务具有推波助澜的作用。事实上,从 2006 年开始逐步蔓延开的深度学习大爆发给目标检测的研究带来了强劲的助推力,使得通用的目标检测以及各种特定类型目标的检测任务得到了跨越式地发展。
 
从神经网络到深度学习
    深度学习本质上并不是一项新的技术,作为其物理核心的神经网络早在上个世纪中叶就已经有人开始研究,并且在上世纪末已经经历过一次研究高潮。    
    从 “深度学习” 这一字面上可以看到,神经网络改头换面重出江湖,关键在一个 “” 字上。神经网络是一种受大脑结构启发而设计出的层级模型,其由一系列按照一定规则相连接的节点组成,形成一种层次化的结构。最简单的一个神经网络只包含 3 层:输入层、隐层(和外部的输入、输出没有直接关联)和输出层,相邻两层之间的节点通过有向边相连接,其中每条边对应有一个权值。 
    为了说明神经网络所表示的函数,我们考虑一个更为简单的结构:只有一个输入层和一个输出层,其中输入层有 d 个节点,输出层只有一个节点,这个节点和所有的输入层节点相连。输入层节点从外部接受输入 x = (x1, x2,・・・, xd),其和输出层节点的连接对应的权值是 w = (w1, w2,・・・, wd),输出层节点会对自己的输入做一个变换 g,得到输出 y,那么有 
    其中变换 g 通常称为节点的激活函数 , 是一个非线性函数,如 
    通常我们还会在求和时增加一个偏置项 b,即有 
    类似地,我们可以写出 3 层神经网络所表示的函数 
    其中 W2 和 W3 分别是输入层节点与隐层节点之间、隐层节点和输出层节点之间的连接的权值所构成的矩阵,而 b2 和 b3 则是对应的偏置项所构成的向量。依次类推,我们可以推广到 n 层的神经网络。可以看到,神经网络有一个非常大的特点,就是非线性激活函数的引入和层层嵌套,这使得其能够表示高度非线性 (相对于输入而言) 的函数,因而对于复杂的数据变化模式具有更强的建模能力。 
    早期的神经网络一般层数比较少(如 3 层的浅层网络),因为多层的深度网络学习起来非常困难,在各种任务上难以取得令人满意的表现,这一状况直到 2006 年才被打破。在 2006 年,机器学习领域的泰斗 Geoffrey E.Hinton 教授在《科学》杂志上发表了题为《Reducing the Dimensionality of Data with Neural Networks》的论文,这一工作为深度网络的学习提供了一种有效的解决方案:采用无监督的方式对网络进行逐层预训练,从而打开了学习深度网络的大门。在接下来的几年中,人们对深度网络的热情已经高涨到了无以复加的地步,有关设计和学习深度网络的各种问题也逐一被解决,从初始化方式到优化方法,从激活函数到网络结构,科研工作者们对此产生了全方位的研究,使得深度网络的训练能够做得又快又好。由于对神经网络本身的探讨并不在本文所涉及的范畴之内,因此这里不再展开讨论,读者只需要将神经网络看成是一种具有更强非线性建模能力的模型即可。

123下一页

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

本文作者2019-5-27 06:45 PM
人工智能
粉丝1 阅读955 回复0
上一篇:
走近人脸检测:从 VJ 到深度学习(上)发布时间:2019-05-27
下一篇:
▲揭开对机器学习的七点误解发布时间:2019-06-12

精彩阅读

排行榜

人工智能公众号

扫码微信公众号
我陪你畅想未来

最智能的人工智能网!
QQ:162057003
周一至周五 9:00-18:00
意见反馈:162057003@qq.com

扫一扫关注我们

Powered by Discuz! X3.4   © 2020 ( 鲁ICP备18055727号 )  |  |网站地图