没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
INSTITUT NAT IONAL POLYTECHNIQUE DE GRENOBLE
Num
´
ero attribu
´
e par la
biblioth
`
eque
TH
`
ESE
pour obtenir le grade de
DOCTEUR DE L’INSTIT UT NATIONAL POLYTECHNIQUE DE GRENOBLE
Sp
´
ecialit
´
e : Imagerie, Vision et Robotique
dans le carde de l’
´
Ecole Doctorale
Math´ematiques, Sciences et Technologie de l’Information
pr
´
esent
´
ee et soutenue publiquement
par
Navneet DALAL
le 17 Juillet, 2006
Finding People in Images and Videos
JURY
M. James L. CROWLEY Pr
´
esident
M. Martial HEBERT Rapporteur
M. Luc Van GOOL Rapporteur
M. Shai AVIDAN Examinateur
Mme. Cordelia SCHMID Directeur de th
`
ese
M. William J. TRIGGS Directeur de th
`
ese
Th
`
ese pr
´
epar
´
ee dans le laboratoire GRAVIR – IMAG au sein du
Projet LEAR, INRIA Rh
ˆ
one-Alpes
655 avenue de l’Europe, 38334 Saint Ismier, France.
R´esum´e
Cette th
`
ese propose une solution pour la d
´
etection de personnes et de classes d’objet dans des
images et vid
´
eos. Le but principal est de d
´
evelopper des repr
´
esentations robustes et discrim-
inantes de formes visuelles, qui permettent de d
´
ecider si un objet de la classe appara
ˆ
ıt dans
une r
´
egion de l’image. Les d
´
ecisions sont bas
´
ees sur des vecteurs de descripteurs visuels de di-
mension
´
elev
´
ee extraits des r
´
egions. Afin d’avoir une comparaison objective des diff
´
erents en-
sembles de descripteurs, nous apprenons une r
`
egle de d
´
ecision pour chaque ensemble avec un
algorithme de type machine
`
a vecteur de support lin
´
eaire. Pilot
´
e enti
`
erement par les donn
´
ees,
notre approche se base sur des descripteurs d’apparence et de mouvement de bas niveau sans
utiliser de mod
`
ele explicite pour l’objet a d
´
etecter. Dans la plupart des cas nous nous concen-
trons sur la d
´
etection de personnes – classe difficile, fr
´
equente et particuli
`
erement int
´
eressante
dans applications come l’analyse de film et de vid
´
eo, la d
´
etection de pi
´
etons pour la conduite
assist
´
ee ou la surveillance. Cependant, notre m
´
ethode ne fait pas d’hypoth
`
ese forte sur la classe
`
a reconna
ˆ
ıtre et elle donne
´
egalement des r
´
esultats satisfaisants pour d’autres classes comme les
voitures, les motocyclettes, les vaches et les moutons.
Nous apportons quatre contributions principales au domaine de la reconnaissance visuelle.
D’abord, nous pr
´
esentons des descripteurs visuels pour la d
´
etection d’objets dans les images
statiques : les grilles d’histogrammes d’orientations de gradients d’image (en anglais, HOG –
Histogrammes of Oriented Gradients). Les histogrammes sont
´
evalu
´
es sur une grille de blocs
spatiaux, avec une forte normalisation locale. Cette structure assure
`
a la fois une bonne car-
act
´
erisation de la forme visuelle locale de l’objet et la robustesse aux petites variations de po-
sition, d’orientation spatiale, d’illumination locale et de couleur. Nous montrons que la combi-
naison de gradients peu liss
´
es, une quantification fine de l’orientation et relativement grossi
`
ere
de l’espace, une normalisation forte de l’intensit
´
e, et une m
´
ethode
´
evolu
´
ee de r
´
e-apprentissage
des cas difficiles permet de r
´
eduire le taux de faux positifs par un
`
a deux ordres de grandeur
par rapport aux m
´
ethodes pr
´
ec
´
edentes.
Deuxi
`
emement, afin de d
´
etecter des personnes dans les vid
´
eos, nous proposons plusieurs
descripteurs de mouvement bas
´
es sur le flot optique. Ces descripteurs sont incorpor
´
es dans
l’approche pr
´
ec
´
edente. Analogues aux HOG statiques, ils substituent aux gradients d’image
statique les diff
´
erences spatiales du flot optique dense. L’utilisation de diff
´
erences minimise
l’influence du mouvement de la cam
´
era et du fond sur les d
´
etections. Nous
´
evaluons plusieurs
variations de cette approche, qui codent soit les fronti
`
eres de mouvement (motion boundaries),
soit les mouvements relatifs des paires de r
´
egions adjacentes. L’incorporation du mouvement
r
´
eduit le taux de faux positifs d’un ordre de grandeur par rapport
`
a l’approche pr
´
ec
´
edente.
4
Troisi
`
emement, nous proposons une m
´
ethode g
´
en
´
erale pour combiner les d
´
etections multi-
ples bas
´
ees sur l’algorithme “mean shift” pour estimer des maxima de densit
´
e
`
a base de noyaux.
L’approche tient compte du nombre, de la confiance et de l’
´
echelle relative des d
´
etections.
Finalement, nous pr
´
esentons un travail en cours sur la fac¸on de cr
´
eer de un d
´
etecteur de
personnes
`
a partir de plusieurs d
´
etecteurs de parties – en occurrence le visage, la t
ˆ
ete, le torse,
et les jambes.
Abstract
This thesis targets the detection of humans and other object classes in images and videos. Our
focus is on developing robust feature extraction algorithms that encode image regions as high-
dimensional feature vectors that support high accuracy object/non-object decisions. To test our
feature sets we adopt a relatively simple learning framework that uses linear Support Vector
Machines to classify each possible image region as an object or as a non-object. The approach
is data-driven and purely bottom-up using low-level appearance and motion vectors to detect
objects. As a test case we focus on person detection as people are one of the most challenging
object classes with many applications, for example in film and video analysis, pedestrian de-
tection for smart cars and video surveillance. Nevertheless we do not make any strong class
specific assumptions and the resulting object detection framework also gives state-of-the-art
performance for many other classes including cars, motorbikes, cows and sheep.
This thesis makes four main contributions. Firstly, we introduce grids of locally normalised
Histograms of Oriented Gradients (HOG) as descriptors for object detection in static images.
The HOG descriptors are computed over dense and overlapping grids of spatial blocks, with
image gradient orientation features extracted at fixed resolution and gathered into a high-
dimensional feature vector. They are designed to be robust to small changes in image contour
locations and directions, and significant changes in image illumination and colour, while re-
maining highly discriminative for overall visual form. We show that unsmoothed gradients,
fine orientation voting, moderately coarse spatial binning, strong normalisation and overlap-
ping blocks are all needed for good performance. Secondly, to detect moving humans in videos,
we propose descriptors based on oriented histograms of differential optical flow. These are sim-
ilar to static HOG descriptors, but instead of image gradients, they are based on local differ-
entials of dense optical flow. They encode the noisy optical flow estimates into robust feature
vectors in a manner that is robust to the overall camera motion. Several variants are proposed,
some capturing motion boundaries while others encode the relative motions of adjacent image
regions. Thirdly, we propose a general method based on kernel density estimation for fusing
multiple overlapping detections, that takes into account the number of detections, their confi-
dence scores and the scales of the detections. Lastly, we present work in progress on a parts
based approach to person detection that first detects local body parts like heads, torso, and legs
and then fuses them to create a global overall person detector.
剩余148页未读,继续阅读
资源评论
- xia3161042016-12-29蛮好的,赞
- tangyu81884172014-10-16正是我所需要的,资源不假,多谢了!
- lichun152014-02-21HOG在行人识别领域是一个很经典的算法,效果很好,多谢楼主上传。
- chriswo07242015-08-12做毕设时用到了hog特征,下载后正是我要看的东西,很棒!
tycoonass
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功