人工智能YOLOV2图像识别实验报告材料.pdf

版权申诉

人工智能

文档资料

43 浏览量 2022-06-08 08:51:49 上传评论收藏 2.9MB PDF 举报

资源推荐

资源详情

资源评论

第一章前言部分

1.1 课程项目背景与意义

1.1.1 课程项目背景

视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领

域中各种智能/自主系统中不可分割的一部分。由于它的重要性，一些先进国家，

例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中

的重大基本问题，即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人

开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，

几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都

紧密地集成在一起。作为一门学科，计算机视觉开始于 60 年代初，但在计算机

视觉的基本研究中的许多重要进展是在 80 年代取得的。计算机视觉与人类视觉

密切相关，对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指

用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做

图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个

科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数

据中获取‘信息’的人工智能系统。这里所指的信息指 Shannon 定义的，可以

用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，

所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”

的科学。

科学技术的发展是推动人类社会进步的主要原因之一,未来社会进一步地朝

着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信

息将有助于社会的现代化建设 ,这其中图像信息是目前人们生活中最常见的信

息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频

监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标

定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种

深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或

特征，以发现数据的分布式特征表示。深度学习的概念由 Hinton 等人于 2006

年提出。基于深度置信网络提出非监督贪心逐层训练算法，为解决深层结构相关

的优化难题带来希望，随后提出多层自动编码器深层结构。此外 Lecun 等人提出

的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数

数目以提高训练性能。

深度学习是机器学习中的一个新的研究领域，通过深度学习的方法构建深度

网络来抽取特征是目前目标和行为识别中得到关注的研究方向，引起更多计算机

视觉领域研究者对深度学习进行探索和讨论，并推动了目标和行为识别的研究，

推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势，我们小

组选择了基于回归方法的深度学习目标识别算法 YOLO 的研究。

1.1.2 课程项目研究的意义

众所周知，当前是信息时代，信息的获得、加工、处理以及应用都有了飞跃

发展。人们认识世界的重要知识来源就是图像信息，在很多场合，图像所传送的

信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获

取、处理以及理解视觉信息，人类利用视觉感知外界环境信息的效率很高。事实

上，据一些国外学者所做的统计，人类所获得外界信息有80%左右是来自眼睛摄

取的图像。由此可见，视觉作为人类获取外界信息的主要载体，计算机要实现智

能化，就必须能够处理图像信息。尤其是近年来，以图形、图像、视频等大容量

为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值（例如

一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地

表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例

中学习任务（例如，人脸识别或面部表情识别）。深度学习的好处是用非监督式

或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习

是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的

神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

目标检测对于人来说是再简单不过的任务，但是对于计算机来说，它看到的

是一些值为 0~255 的数组，因而很难直接得到图像中有人或者猫这种高层语义概

念，也不清楚目标出现在图像中哪个区域。图像中的目标可能出现在任何位置，

目标的形态可能存在各种各样的变化，图像的背景千差万别……，这些因素导致

目标检测并不是一个容易解决的任务。

这次课程项目，正是基于视觉、深度学习、目标识别而进行的，是一个热度

很高的话题。基于深度学习的目标识别研究具有重大的意义，深度学习的目标识

别算法对于未来能够使用目标检测和图像识别的手段运用于物联网、智能设备、

生物制药经济调控等多领域有很大的作用。

1.2 国外研究现状

机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新

的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。机器

能否像人类一样能具有学习能力呢？1959 年美国的塞缪尔(Samuel)设计了一个

下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4

年后，这个程序战胜了设计者本人。又过了 3 年，这个程序战胜了美国一个保持

8 年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许

多令人深思的社会问题与哲学问题。深度学习最近几年发展速度十分快，因此同

时也推动了目标识别技术的发展，技术的革新总是相互影响的。

目标检测是图像处理和计算机视觉的一个重要分支，在理论和实践上都有重

大意义。近年来，随着物联网的高速发展与智能终端的广泛普及，目标检测技术

成了机器视觉领域的研究热点，被国外学者广泛关注。

目标检测的研究主要包括了基于视频图像的目标检测和基于静态图片的目

标检测。本文主要讨论基于静态图片的目标检测算法，即在静态图片中检测并定

位所设定种类的目标。基于静态图片的目标检测的难点主要在于图片中的目标会

因光照、视角以及目标部等变化而产生变化。针对以上的难点，国外学者进行了

很多尝试。目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标特

征的检测方法。

计算机视觉是指用计算机实现人的视觉功能，它的研究目标就是使计算机具

有用过一幅或多幅图像认知周围环境的能力（包括对客观世界三维环境的感知、

识别与理解）。运动目标检测作为计算机视觉技术的一个分支，就是对视场的运

动目标，如人或交通工具，进行实时的观测，并将其分类，然后分析他们的行为。

目前，国际上许多高校和研究所，如麻省理工学学院、牛津大学等都专门设立了

针对运动目标检测的研究组或者研究实验室。美英等国家已经研究了大量的相关

项目。一些著名公司和研究机构，如IBM、Microsoft、麻省理工学院等近几年来

投入了大量的人力物力来进行智能监控系统的研究，部分成果已经转化为产品投

入了市场。

目前在国的研究机构中，中国科学院自动化研究所下属的模式识别国家重点

实验室视觉监控研究处于领先地位。他们在交通场景视觉监控、人的运动视觉监

控和行为模式识别方面进行了深入研究。另外他们也总结了英国雷丁大学VIEWS

的车辆交通监控原型系统的研究经验，在之前的理论研究的基础上，自行设计并

初步实现了一个拥有完全自主知识产权的交通监控原型系统 vstart(Visual

surveillance star)。国其他高校如交通大学、航空航天大学也对这方面进行了

研究。

尽管这样，目前在运动目标检测和视觉监控这方面仍然存在着许多不足：目

前国市场上所见到的大部分智能监控产品来源于国外，性能和可靠性不够，并且

包含封闭源代码软件。

CentOS，我们有很多人叫它社区企业操作系统，不管怎么叫它，它都是 linux

的一个发行版本。CentOS 并不是全新的 linux 发行版，在 RedHat 家族中有企业

版的产品，它是 Red Hat Enterprise Linux，CentOS 是 RHEL 的克隆版本，RHEL

是很多企业采用的 linux 发行版本，需要向 RedHat 付费才可以使用，并能得到

付过费用的服务和技术支持和版本升级。这个 CentOS 可以像 REHL 一样的构筑

linux 系统环境，但不需要向 RedHat 付任何的费用，同样也得不到任何有偿技

术支持和升级服务。

CentOS 有很多特点：CentOS 就是对 Red Hat AS 进行改进后发布的，各种操

作、使用和 RED HAT 没有区别；CentOS 完全免费，不存在 RED HAT AS4 需要序

列号的问题；CentOS 独有的 yum 命令支持在线升级，可以即时更新系统，不像

RED HAT 那样需要花钱购买支持服务；CentOS 修正了许多 RED HAT AS 的 BUG。

基于开源的特性，Linux 环境被很多技术人员和公司使用。Linux 以它的高

效性和灵活性著称，Linux 模块化的设计结构，使得它既能在价格昂贵的工作站

上运行，也能够在廉价的 PC 机上实现全部的 Unix 特性，具有多任务、多用户的

能力。我们这次的课程项目“基于深度学习的目标识别研究”也是在 Linux 环境

下完成的，因此本次项目实现使用的是 CentOS 7.0 系统。

2.2 OpenCV 工具

OpenCV 的全称是:Open Source Computer Vision Library。OpenCV 是一个

基于(开源)发行的跨平台计算机视觉库，可以运行在 Linux、Windows 和 Mac OS

操作系统上。它轻量级而且高效，由一系列 C 函数和少量 C++ 类构成，同时提

供了 Python、Ruby、MATLAB 等语言的接口，实现了图像处理和计算机视觉方面

的很多通用算法。

OpenCV 致力于真实世界的实时应用，通过优化的 C 代码的编写对其执行速

度带来了可观的提升，并且可以通过购买 Intel 的 IPP 高性能多媒体函数库得到

剩余36页未读，继续阅读

评论收藏

内容反馈

版权申诉

苦茶子12138

粉丝: 1w+
资源: 6万+

人工智能YOLO V2 图像识别实验报告材料.pdf

最新资源

人工智能YOLO V2 图像识别实验报告材料.pdf

(完整word版)人工智能YOLO V2 图像识别实验报告.docx

人工智能YOLO V2 图像识别实验报告材料.docx

人工智能YOLO-V2-图像识别实验报告

(完整word版)人工智能YOLO V2 图像识别实验报告.pdf

人工智能YOLO V2 图像识别实验报告.docx

人工智能YOLO V2 图像识别实验报告.pdf

【图像识别】基于yolo v2深度学习检测识别车辆matlab源码.md

yolo绝缘子检测数据集-05.zip

基于FPGA的YOLO网络的分片加速方法.pdf

一种基于YOLO的交通目标实时检测方法.pdf

基于TINY YOLO2神经网络视觉翻译棒.pdf

一种基于YOLO V3的旋转目标检测方法.docx

结合Yolo-v3及Open-pose的避雷器图片搬运状态识别方法.pdf

基于改进YOLO算法的车位自动检测系统.docx

从零开始学习YOLO.pdf

Python+树莓派+YOLO打造一款人工智能照相机.pdf

公开资料《五大生物识别技术报告解读 别一说人工智能就下围棋》NLP&YOLO报告原文.pdf

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

MATLAB深度学习入门实例（果树病虫害识别VGG19版）

Android Studio实现音乐播放器2.0，UI全面升级，功能全新优化，final最终版！

最新资源

公开资料《五大生物识别技术报告解读别一说人工智能就下围棋》NLP&YOLO报告原文.pdf