没有合适的资源?快使用搜索试试~ 我知道了~
本科毕业论文---软件度量模型.doc
0 下载量 193 浏览量
2023-06-30
06:01:53
上传
评论
收藏 365KB DOC 举报
温馨提示
试读
28页
本科毕业论文---软件度量模型.doc
资源推荐
资源详情
资源评论
软件度量模型毕业论文
1
软件度量模型毕业论文
摘 要
软件度量模型是基于软件工程项目的度量值(如项目团队大小)为将来的软件工程预
测目标软件度量值,例如软件的开发工作量和错误率。很明显,构建这样的软件度量模型
需要利用过去的类似项目的数据样本。但是,这些数据样本中往往存在缺失数据的现象。
回归建模中确定选择哪些度量变量作为自变量很可能基于直觉或是经验性的假设。模型建
立以后很少对经验性的假设做事后检验,这样就容易产生多余的度量变量,从而增加不必
要的复杂性。再者,这些度量值很可能既有连续型又有离散型的变量。如何对带有缺失数
据的数据样本构建简化的软件度量模型是本论文讨论和研究的主要课题。本论文的主要内
容包括以下几个部分:
第一章为绪论,讲述论文的主要研究背景,以及初步介绍所遇到的 3 个困难和现有的
相关解决方法(这些会在二,三,四章里详细论述)。
第二章是缺失数据的统计处理。该部分首先介绍了一些缺失数据相关的背景知识;然
后提出了一些对缺失数据问题的处理方法; 最后详细地阐述了本文所采用的 k-NN 法及蒙
特卡洛模拟法。
第三章主要考虑离散型变量的处理方法。介绍一种比较常见的虚拟变量的方法。
第四章是变量选择的方法。在本章中,我们介绍了 3 种传统的变量选择方法。通过比
较我们选出比较好的逐步回归作为本文变量选择的方法。
第五章是案例分析。用 R、SPSS、Java 等语言及程序把二,三,四章介绍的方法和理
论应用到实际的数据样本中,完成了数据缺失下软件度量数据模型的简化。
关键词:
软件度量,变量选择,缺失数据,逐步回归,虚拟变量法
软件度量模型毕业论文
2
软件度量模型毕业论文
3
ABSTRACT
Software metric models can predict target software metric(s), e.g. the
development work effort or defect rates for any future software project based on
the project predictor software metric(s) such as project team size. Obviously,
the construction of such software measurement model requires use of past similar
project data samples. However incomplete data often appear in such data samples.
The decision on whether a particular predictor metric should be included is most
likely based on the intuition or experienced-based assumption. Unfortunately this
assumption is usually not verifiable after the model is constructed, leading to
redundant predictor metric(s) and/or unnecessary complexity of predictor metric
selection. Moreover, these predictor metrics may contain continuous and discrete
variables. This thesis mainly considers how to simplify the software metrics model
with incomplete data. The contents of this thesis include the following sections:
Chapter 1 is an introduction about the background of this study and details
on three main problems encountered and their solutions (details will be discussed
in Chapters 2, 3 and 4).
Chapter 2 discusses the methods how to deal with the missing data in statistics.
In this chapter, we describe current research progress associated with the missing
data processing and provided some methods related to this study. At last, we discuss
the k-NN method and Monte-Carlo simulation method.
Chapter 3 mainly focuses on the processing method for discrete variables. A
relatively simple approach using so called virtual variables is discussed.
Chapter 4 shows the study details of a method for variable selection. In this
chapter we introduce 3 classical methods often used for variable selection. After
some comparison, we choose stepwise regression method for our paper.
Chapter 5 gives a case study. Using R, SPSS, and Java language, we apply the
methods from Chapter 2, 3 and 4 to the real data, a simplified software metrics
model is constructed successfully.
Key words: software metrics, variable selection, missing data, stepwise regression,
virtual variable method
软件度量模型毕业论文
4
目 录
第一章 绪论……………………………………………………………………………………4
第一节 课题背景及意义…………………………………………………………………4
第二节 研究内容及方法…………………………………………………………………4
一、缺失数据的处理……………………………………………………………………4
二、变量选择…………………………………………………………………………4
三、离散型变量(度量)的分类简化………………………………………………4
第二章 缺失数据的统计处理…………………………………………………………………4
第一节 缺失数据相关背景介绍………………………………………………………5
第二节 形成缺失数据的原因……………………………………………………………5
第三节 缺失数据的处理方法……………………………………………………………6
一、人工填写(filling manually) …………………………………………………6
二、平均值填充(Mean/Mode Completer) …………………………………………6
三、K 最近邻法(k-nearest neighbor method,简记 k-NN) …………………6
四、演绎估计法……………………………………………………………………6
第四节 k-NN 填补法………………………………………………………………………7
第三章 离散型变量的处理方法………………………………………………………………8
第一节 简单情况…………………………………………………………………………9
第二节 复杂情况…………………………………………………………………………9
第四章 变量选择的方法(经典方法)……………… … … … … … … … … … … … … 9
第一节 前进法……………………………………………………………………………10
第二节 后退法……………………………………………………………………………10
第三节 逐步回归法………………………………………………………………………10
第五章 案例分析………………………………………………………………………………11
第一节 数据资料说明及预处理…………………………………………………………11
第二节 用改进的 k-NN 方法填补缺失数据………………………………………………13
第三节 虚拟变量法处理离散型变量…………………………………………………13
第四节 模型简化…………………………………………………………………………14
第五节 多重填补方法……………………………………………………………………18
第六节 总结……………………………………………………………………………19
结 论………………………………………………………………………………………20
致 谢………………………………………………………………………………………20
参考文献………………………………………………………………………………………20
附录内容名称……………………………………………………………………………20
软件度量模型毕业论文
5
第一章 绪论
第一节 课题背景及意义
软件度量就是对软件系统的一些性能或者规格的测量。为了探究这些度量中可能存在
的相关性,就必须构造恰当的模型。所有这些模型被认为是软件度量模型。通常,每一个
模型都给出了一个特定的目标度量(应变量)和一个或多个度量(自变量)之间的关系。
例如,对一项工程根据 “工程函数点的数量”建立一个模型去预测“总工作量”。这个模
型非常重要,因为它能在一项工程发展的早期阶段估计出预期的总工作量。在这个估计的
基础上,我们就可以确定这个工程是否应该被继续或者为了在最终期限之前完成这项工程
需要进行哪些方面的调整(比如说聘请更多的开发者)。
第二节 研究内容及方法
一、缺失数据的处理
另一点值得注意的就是缺失数据经常出现在用于构造度量模型的数据样本中。因为缺
失数据的问题并不是软件工程中所特有的,所以可以毫不惊讶地发现有很多处理缺失数据
的方法已经被提出。常见的处理缺失数据的方法如平均值填补,EM 算法,演绎估计法等,
大多存在一定的局限性或者误差较大。最近的研究表明 k 最近邻(k-NN)填补方法是一种
比其他填补方法更加稳健的方法。因此在这篇论文里面,我们运用 k-NN 填补方法来处理
缺失数据。
二、变量选择
在软件度量模型的构建中所面临的挑战之一就是自变量的选择。一般情况下,一个度
量变量是否应该包含在软件度量模型中,常于直觉或者根据经验做出的假设,即认为该度
量对目标变量的影响在统计上显著。有大量的文献关于变量选择的讨论。比较经典的方法
有前进法、后退法和逐步回归法,经我们后面的分析,选用逐步回归法。
三、离散型变量(度量)的分类简化
此外,我们面临的另一个挑战——分类简化。是不是所有开头指定的离散型的度量自
变量的分类都是必需的呢?它们是否可以合并到一起来减少离散型自变量的分类数目?
在含有离散型自变量的回归中,常用虚拟变量的方法来重新编码离散变量。例如:对于
“开发类型”这一离散型度量变量 x
7
,假设它有三个种类:“新型开发”,“进一步开发”,
“重新开发”。我们用虚拟变量的方法把原先用 1,2,3 区分的类,改用 2 个 0-1 型变量 x
71
x
72
表示,(x
71
,x
72
)分别取(1,0),(0,1),(0,0)对应 x
7
取 1,2,3。然后,我们再
对引入虚拟变量的回归模型进行变量选择,从而达到同时变量选择和分类合并的目的。
第二章 缺失数据的统计处理
剩余27页未读,继续阅读
资源评论
xinkai1688
- 粉丝: 337
- 资源: 8万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功