1-深度学习与计算机视觉历史
待补完,之后会优先放在github
一、课程介绍
-
课程名称:EECS 498007-598005,专注于深度学习在计算机视觉领域的应用。
-
讲师:Justin Johnson,密歇根大学助理教授,该课程是他在该校首次开设。
-
课程目标:探索如何利用深度学习技术处理、感知和推理视觉数据。
-
课程将专注于计算机视觉、机器学习和深度学习的交叉领域。
-
除了学习这些领域的基本概念,还将讨论最新的研究成果和技术。
-
定义:计算机视觉是构建能够处理、感知并推理视觉数据的人工系统的研究领域。
-
应用范围:可以包括图像、视频、医学扫描等任何类型的连续值信号。
-
重要性:由于视觉数据无处不在,且数量庞大,因此开发能够自动处理这些数据的系统变得至关重要。
二、计算机视觉的重要性和发展
- 统计数据:例如Instagram每天上传约1亿张照片和视频,YouTube每天上传约300小时视频。
- 技术发展:随着视觉传感器数量的增加,以及自动驾驶车辆、增强现实/虚拟现实、无人机等新兴技术的出现,计算机视觉的作用愈发凸显。
三、人工智能领域的概况
- 学习:构建能够从数据和经验中学习的系统。
- 深度学习:机器学习的一个子集,使用具有多个层次的层次化学习算法,受哺乳动物大脑结构的启发。
- 人工智能 :构建能够执行人们通常执行的任务的计算机系统。
- 子领域:包括计算机视觉、机器学习等,本课程将聚焦于这些子领域的交叉部分。
四、历史背景
早期探索
- Hubel和Wiesel的研究:1963年,通过在猫脑中插入电极,研究了视觉皮层的神经元如何响应不同的视觉刺激,特别是对边缘的响应,为后续计算机视觉算法的发展奠定了基础。
计算机视觉的诞生
- Larry Roberts的工作:被认为是计算机视觉领域的第一个博士研究工作,他的工作集中在图像的边缘检测和3D几何理解上。
早期的乐观与挑战
- MIT的夏季计算机视觉项目:Seymour Papert在1966年提出的项目,目标是在夏季通过几名本科生的工作构建视觉系统的大部分,但最终未能实现这一雄心勃勃的目标。
David Marr的理论贡献
- 视觉表示的阶段:1970年代,David Marr提出了视觉信息处理的阶段理论,包括从原始图像到2D边缘提取,再到3D模型构建的过程。
1980年代的技术进步
- 数字相机和计算能力:技术的进步使得计算机视觉研究可以处理更加现实的图像数据。
1990年代的对象识别
- 对象分组:研究者开始尝试通过将图像分割成有意义的块来识别对象,而不是仅仅依赖边缘匹配。
2000年代的识别技术
- SIFT算法:David Lowe在1999年提出的算法,通过关键点匹配进行图像识别,强调了特征的不变性。
- Viola-Jones算法:2001年提出的面部识别算法,是机器学习在计算机视觉中的早期成功应用之一。
数据集的影响
- Pascal视觉对象挑战:通过互联网下载和标记图像,为机器学习算法提供了训练 数据。
- ImageNet数据集:引入了大规模数据集和众包标注,对计算机视觉领域产生了深远影响。
深度学习的突破
- AlexNet模型:2012年在ImageNet竞赛中取得压倒性胜利,标志着深度学习在计算机视觉领域的突破。
五、深度学习的历史和发展
早期的探索与挑战
- 感知器:1958年提出,作为早期的机器学习模型,能够对简单数据进行分类。
- Minsky和Papert的批评:1969年,他们的书籍《Perceptrons》指出了感知器的局限性,特别是它无法学习XOR这样的非线性问题,这导致了对神经网络研究的暂时性减退。
深度学习的潜伏与再生
- Neocognitron:1980年,Fukushima提出了Neocognitron模型,灵感来源于Hubel和Wiesel的视觉皮层研究,这是卷积神经网络(CNN)的前身。
- 反向传播算法:1986年,Rumelhart, Hinton, Williams提出了反向传播算法,使得多层神经网络的训练成为可能。