没有合适的资源?快使用搜索试试~ 我知道了~
cs231N中文版笔记
4星 · 超过85%的资源 需积分: 50 54 下载量 11 浏览量
2018-01-12
07:30:21
上传
评论 3
收藏 4.86MB PDF 举报
温馨提示
试读
128页
来自知乎专栏。。我保存成pdf了,A4大小,方便打印。分享给各位。 深度学习;计算机视觉。 斯坦福大学李飞飞计算机视觉公开课笔记,翻译版本。
资源推荐
资源详情
资源评论
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记image classification notes,由课程
教师Andrej Karpathy授权进行翻译。本篇教程由杜客翻译完成。ShiqingFan对译文进行了仔细
校对,提出了大量修改建议,态度严谨,帮助甚多。巩子嘉对几处术语使用和翻译优化也提出了
很好的建议。张欣等亦有帮助。
原文如下
这是一篇介绍性教程,面向非计算机视觉领域的同学。教程将向同学们介绍图像分类问题和数据
驱动方法。下面是内容列表:
图像分类、数据驱动方法和流程
Nearest Neighbor分类器
k-Nearest Neighbor
译
者
注
:
上
篇翻
译
截
止
处
验证集、交叉验证集和超参数调参
Nearest Neighbor的优劣
小结
小结:应用kNN实践
拓展阅读
图像分类
CS231n课程笔记翻译:图像分类笔记(上)
杜客
· 2 年前
首发于
智能单元
写文章
登录
目标:这一节我们将介绍图像分类问题。所谓图像分类问题,就是已有固定的分类标签集合,然
后对于输入的图像,从分类标签集合中找出一个分类标签,最后把分类标签分配给该输入图像。
虽然看起来挺简单的,但这可是计算机视觉领域的核心问题之一,并且有着各种各样的实际应
用。在后面的课程中,我们可以看到计算机视觉领域中很多看似不同的问题(比如物体检测和分
割),都可以被归结为图像分类问题。
例子:以下图为例,图像分类模型读取该图片,并生成该图片属于集合 {cat, dog, hat, mug}中各
个标签的概率。需要注意的是,对于计算机来说,图像是一个由数字组成的巨大的3维数组。在这
个例子中,猫的图像大小是宽248像素,高400像素,有3个颜色通道,分别是红、绿和蓝(简称
RGB)。如此,该图像就包含了248X400X3=297600个数字,每个数字都是在范围0-255之间的
整型,其中0表示全黑,255表示全白。我们的任务就是把这些上百万的数字变成一个简单的标
签,比如“猫”。
———————————————————————————————————————
——
图像分类的任务,就是对于一个给定的图像,预测它属于的那个分类标签(或者给出属于一系列
不同标签的可能性)。图像是3维数组,数组元素是取值范围从0到255的整数。数组的尺寸是宽
度x高度x3,其中这个3代表的是红、绿和蓝3个颜色通道。
———————————————————————————————————————
——
困难和挑战:对于人来说,识别出一个像“猫”一样视觉概念是简单至极的,然而从计算机视觉
算法的角度来看就值得深思了。我们在下面列举了计算机视觉算法在图像识别方面遇到的一些困
难,要记住图像是以3维数组来表示的,数组中的元素是亮度值。
视角变化(Viewpoint variation):同一个物体,摄像机可以从多个角度来展现。
大小变化(Scale variation):物体可视的大小通常是会变化的(不仅是在图片中,在真
实世界中大小也是变化的)。
形变(Deformation):很多东西的形状并非一成不变,会有很大变化。
遮挡(Occlusion):目标物体可能被挡住。有时候只有物体的一小部分(可以小到几个像
素)是可见的。
光照条件(Illumination conditions):在像素层面上,光照的影响非常大。
背景干扰(Background clutter):物体可能混入背景之中,使之难以被辨认。
类内差异(Intra-class variation):一类物体的个体之间的外形差异很大,比如椅子。这
一类物体有许多不同的对象,每个都有自己的外形。
面对以上所有变化及其组合,好的图像分类模型能够在维持分类结论稳定的同时,保持对类间差
异足够敏感。
———————————————————————————————————————
——
———————————————————————————————————————
——
数据驱动方法:如何写一个图像分类的算法呢?这和写个排序算法可是大不一样。怎么写一个从
图像中认出猫的算法?搞不清楚。因此,与其在代码中直接写明各类物体到底看起来是什么样
的,倒不如说我们采取的方法和教小孩儿看图识物类似:给计算机很多数据,然后实现学习算
法,让计算机学习到每个类的外形。这种方法,就是
数据
驱
动
方
法
。既然该方法的第一步就是收
集已经做好分类标注的图片来作为训练集,那么下面就看看数据库到底长什么样:
———————————————————————————————————————
——
一个有4个视觉分类的训练集。在实际中,我们可能有上千的分类,每个分类都有成千上万的图
像。
———————————————————————————————————————
——
图像分类流程。在课程视频中已经学习过,图像分类就是输入一个元素为像素值的数组,然后给
它分配一个分类标签。完整流程如下:
输入:输入是包含N个图像的集合,每个图像的标签是K种分类标签中的一种。这个集合称
为
训
练
集
。
学习:这一步的任务是使用训练集来学习每个类到底长什么样。一般该步骤叫做
训
练
分
类
器
或者
学
习
一
个
模
型
。
评价:让分类器来预测它未曾见过的图像的分类标签,并以此来评价分类器的质量。我们会
把分类器预测的标签和图像真正的分类标签对比。毫无疑问,分类器预测的分类标签和图像
真正的分类标签如果一致,那就是好事,这样的情况越多越好。
Nearest Neighbor分类器
作为课程介绍的第一个方法,我们来实现一个Nearest Neighbor分类器。虽然这个分类器和卷
积神经网络没有任何关系,实际中也极少使用,但通过实现它,可以让读者对于解决图像分类问
题的方法有个基本的认识。
图像分类数据集:CIFAR-10。一个非常流行的图像分类数据集是CIFAR-10。这个数据集包含了
60000张32X32的小图像。每张图像都有10种分类标签中的一种。这60000张图像被分为包含
50000张图像的训练集和包含10000张图像的测试集。在下图中你可以看见10个类的10张随机图
片。
———————————————————————————————————————
——
左边:从CIFAR-10数据库来的样本图像。右边:第一列是测试图像,然后第一列的每个测试图像
右边是使用Nearest Neighbor算法,根据像素差异,从训练集中选出的10张最类似的图片。
———————————————————————————————————————
——
假设现在我们有CIFAR-10的50000张图片(每种分类5000张)作为训练集,我们希望将余下的
10000作为测试集并给他们打上标签。Nearest Neighbor算法将会拿着测试图片和训练集中每一
张图片去比较,然后将它认为最相似的那个训练集图片的标签赋给这张测试图片。上面右边的图
片就展示了这样的结果。请注意上面10个分类中,只有3个是准确的。比如第8行中,马头被分类
为一个红色的跑车,原因在于红色跑车的黑色背景非常强烈,所以这匹马就被错误分类为跑车
了。
那么具体如何比较两张图片呢?在本例中,就是比较32x32x3的像素块。最简单的方法就是逐个
像素比较,最后将差异值全部加起来。换句话说,就是将两张图片先转化为两个向量 和 ,
然后计算他们的L1距离:
这里的求和是针对所有的像素。下面是整个比较流程的图例:
剩余127页未读,继续阅读
资源评论
- kongjibo2018-04-23不是特别全,但是资源质量还是不错的
Sleepwalker2013
- 粉丝: 5
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功