本科毕业论文---软件度量模型.doc资源-CSDN文库

193 浏览量 2023-06-30 06:01:53 上传评论收藏 365KB DOC 举报

软件度量模型毕业论文软件度量模型是基于软件工程项目的度量值（如项目团队大小）为将来的软件工程预测目标软件度量值，例如软件的开发工作量和错误率。这类模型的建立需要利用过去的类似项目的数据样本，但是这些数据样本中往往存在缺失数据的现象。因此，如何对带有缺失数据的数据样本构建简化的软件度量模型是本论文讨论和研究的主要课题。本论文的主要内容包括以下几个部分：第一章为绪论，讲述论文的主要研究背景，以及初步介绍所遇到的三个困难和现有的相关解决方法。这些困难包括缺失数据的处理、离散型变量的处理和变量选择的方法。第二章是缺失数据的统计处理。这部分首先介绍了一些缺失数据相关的背景知识，然后提出了一些对缺失数据问题的处理方法，最后详细地阐述了本文所采用的 k-NN 法及蒙特卡洛模拟法。这些方法可以有效地处理缺失数据，并提高软件度量模型的准确性。第三章主要考虑离散型变量的处理方法。介绍了一种比较常见的虚拟变量的方法，这种方法可以将离散型变量转换为连续型变量，从而便于软件度量模型的建立。第四章是变量选择的方法。在本章中，我们介绍了三种传统的变量选择方法，并通过比较选出比较好的逐步回归作为本文变量选择的方法。这种方法可以有效地选择出对软件度量模型最重要的变量，从而降低模型的复杂性。第五章是案例分析。用 R、SPSS、Java 等语言及程序把二、三、四章介绍的方法和理论应用到实际的数据样本中，完成了数据缺失下软件度量数据模型的简化。本论文的主要贡献是提出了一种简化的软件度量模型，该模型可以处理缺失数据和离散型变量，并选择出对软件度量模型最重要的变量。这种模型可以为软件工程项目的预测提供一个有用的工具。知识点： 1. 软件度量模型的建立需要利用过去的类似项目的数据样本。 2. 缺失数据是软件度量模型建立的主要困难之一。 3. k-NN 法和蒙特卡洛模拟法可以有效地处理缺失数据。 4. 虚拟变量的方法可以将离散型变量转换为连续型变量。 5. 逐步回归是一种有效的变量选择方法。 6. 软件度量模型可以预测软件工程项目的目标软件度量值，如开发工作量和错误率。

资源推荐

资源详情

资源评论

软件度量模型毕业论文

摘要

软件度量模型是基于软件工程项目的度量值（如项目团队大小）为将来的软件工程预

测目标软件度量值，例如软件的开发工作量和错误率。很明显，构建这样的软件度量模型

需要利用过去的类似项目的数据样本。但是，这些数据样本中往往存在缺失数据的现象。

回归建模中确定选择哪些度量变量作为自变量很可能基于直觉或是经验性的假设。模型建

立以后很少对经验性的假设做事后检验，这样就容易产生多余的度量变量，从而增加不必

要的复杂性。再者，这些度量值很可能既有连续型又有离散型的变量。如何对带有缺失数

据的数据样本构建简化的软件度量模型是本论文讨论和研究的主要课题。本论文的主要内

容包括以下几个部分：

第一章为绪论，讲述论文的主要研究背景，以及初步介绍所遇到的 3 个困难和现有的

相关解决方法（这些会在二，三，四章里详细论述）。

第二章是缺失数据的统计处理。该部分首先介绍了一些缺失数据相关的背景知识；然

后提出了一些对缺失数据问题的处理方法；最后详细地阐述了本文所采用的 k-NN 法及蒙

特卡洛模拟法。

第三章主要考虑离散型变量的处理方法。介绍一种比较常见的虚拟变量的方法。

第四章是变量选择的方法。在本章中，我们介绍了 3 种传统的变量选择方法。通过比

较我们选出比较好的逐步回归作为本文变量选择的方法。

第五章是案例分析。用 R、SPSS、Java 等语言及程序把二，三，四章介绍的方法和理

论应用到实际的数据样本中,完成了数据缺失下软件度量数据模型的简化。

关键词：

软件度量，变量选择，缺失数据，逐步回归，虚拟变量法

软件度量模型毕业论文

ABSTRACT

Software metric models can predict target software metric(s), e.g. the

development work effort or defect rates for any future software project based on

the project predictor software metric(s) such as project team size. Obviously,

the construction of such software measurement model requires use of past similar

project data samples. However incomplete data often appear in such data samples.

The decision on whether a particular predictor metric should be included is most

likely based on the intuition or experienced-based assumption. Unfortunately this

assumption is usually not verifiable after the model is constructed, leading to

redundant predictor metric(s) and/or unnecessary complexity of predictor metric

selection. Moreover, these predictor metrics may contain continuous and discrete

variables. This thesis mainly considers how to simplify the software metrics model

with incomplete data. The contents of this thesis include the following sections:

Chapter 1 is an introduction about the background of this study and details

on three main problems encountered and their solutions (details will be discussed

in Chapters 2, 3 and 4).

Chapter 2 discusses the methods how to deal with the missing data in statistics.

In this chapter, we describe current research progress associated with the missing

data processing and provided some methods related to this study. At last, we discuss

the k-NN method and Monte-Carlo simulation method.

Chapter 3 mainly focuses on the processing method for discrete variables. A

relatively simple approach using so called virtual variables is discussed.

Chapter 4 shows the study details of a method for variable selection. In this

chapter we introduce 3 classical methods often used for variable selection. After

some comparison, we choose stepwise regression method for our paper.

Chapter 5 gives a case study. Using R, SPSS, and Java language, we apply the

methods from Chapter 2, 3 and 4 to the real data, a simplified software metrics

model is constructed successfully.

Key words: software metrics, variable selection, missing data, stepwise regression,

virtual variable method

软件度量模型毕业论文

第一章绪论……………………………………………………………………………………4

第一节课题背景及意义…………………………………………………………………4

第二节研究内容及方法…………………………………………………………………4

一、缺失数据的处理……………………………………………………………………4

二、变量选择…………………………………………………………………………4

三、离散型变量（度量）的分类简化………………………………………………4

第二章缺失数据的统计处理…………………………………………………………………4

第一节缺失数据相关背景介绍………………………………………………………5

第二节形成缺失数据的原因……………………………………………………………5

第三节缺失数据的处理方法……………………………………………………………6

一、人工填写(filling manually) …………………………………………………6

二、平均值填充(Mean／Mode Completer) …………………………………………6

三、K 最近邻法(k-nearest neighbor method，简记 k-NN) …………………6

四、演绎估计法……………………………………………………………………6

第四节 k-NN 填补法………………………………………………………………………7

第三章离散型变量的处理方法………………………………………………………………8

第一节简单情况…………………………………………………………………………9

第二节复杂情况…………………………………………………………………………9

第四章变量选择的方法（经典方法）……………… … … … … … … … … … … … … 9

第一节前进法……………………………………………………………………………10

第二节后退法……………………………………………………………………………10

第三节逐步回归法………………………………………………………………………10

第五章案例分析………………………………………………………………………………11

第一节数据资料说明及预处理…………………………………………………………11

第二节用改进的 k-NN 方法填补缺失数据………………………………………………13

第三节虚拟变量法处理离散型变量…………………………………………………13

第四节模型简化…………………………………………………………………………14

第五节多重填补方法……………………………………………………………………18

第六节总结……………………………………………………………………………19

结论………………………………………………………………………………………20

致谢………………………………………………………………………………………20

参考文献………………………………………………………………………………………20

附录内容名称……………………………………………………………………………20

软件度量模型毕业论文

第一章绪论

第一节课题背景及意义

软件度量就是对软件系统的一些性能或者规格的测量。为了探究这些度量中可能存在

的相关性，就必须构造恰当的模型。所有这些模型被认为是软件度量模型。通常，每一个

模型都给出了一个特定的目标度量（应变量）和一个或多个度量（自变量）之间的关系。

例如，对一项工程根据 “工程函数点的数量”建立一个模型去预测“总工作量”。这个模

型非常重要，因为它能在一项工程发展的早期阶段估计出预期的总工作量。在这个估计的

基础上，我们就可以确定这个工程是否应该被继续或者为了在最终期限之前完成这项工程

需要进行哪些方面的调整（比如说聘请更多的开发者）。

第二节研究内容及方法

一、缺失数据的处理

另一点值得注意的就是缺失数据经常出现在用于构造度量模型的数据样本中。因为缺

失数据的问题并不是软件工程中所特有的，所以可以毫不惊讶地发现有很多处理缺失数据

的方法已经被提出。常见的处理缺失数据的方法如平均值填补，EM 算法，演绎估计法等，

大多存在一定的局限性或者误差较大。最近的研究表明 k 最近邻（k-NN）填补方法是一种

比其他填补方法更加稳健的方法。因此在这篇论文里面，我们运用 k-NN 填补方法来处理

缺失数据。

二、变量选择

在软件度量模型的构建中所面临的挑战之一就是自变量的选择。一般情况下，一个度

量变量是否应该包含在软件度量模型中，常于直觉或者根据经验做出的假设，即认为该度

量对目标变量的影响在统计上显著。有大量的文献关于变量选择的讨论。比较经典的方法

有前进法、后退法和逐步回归法，经我们后面的分析，选用逐步回归法。

三、离散型变量（度量）的分类简化

此外，我们面临的另一个挑战——分类简化。是不是所有开头指定的离散型的度量自

变量的分类都是必需的呢？它们是否可以合并到一起来减少离散型自变量的分类数目？

在含有离散型自变量的回归中，常用虚拟变量的方法来重新编码离散变量。例如：对于

“开发类型”这一离散型度量变量 x

，假设它有三个种类：“新型开发”，“进一步开发”，

“重新开发”。我们用虚拟变量的方法把原先用 1，2，3 区分的类，改用 2 个 0-1 型变量 x

表示，（x

）分别取（1，0），（0，1），（0，0）对应 x

取 1，2，3。然后，我们再

对引入虚拟变量的回归模型进行变量选择，从而达到同时变量选择和分类合并的目的。

第二章缺失数据的统计处理

剩余27页未读，继续阅读

评论收藏

内容反馈

xinkai1688

粉丝: 379
资源: 8万+

本科毕业论文---软件度量模型.doc

大学毕业论文---软件度量模型.doc

本科毕业论文-—金融市场风险的定量度量方法及matlab实现.doc

软件度量模型毕业论文.doc

基于VaR模型对中小板民营企业市场风险的度量研究毕业论文.doc

大学毕业论文-—上市公司财务数据多维联机分析设计.doc

毕业论文安卓830智能手机手写签章软件app.doc

金融市场风险的定量度量方法及matlab实现毕业论文设计.doc

Web信息抽取中的文本分类毕业论文.doc

财务会计毕业论文选题参考.doc

天津大学本科生毕业设计论文（论文）模板.doc

毕业论文springboot137欢迪迈手机商城设计与开发论文.doc

基于ssm+mysql软件缺陷管理系统源码数据库论文.doc

可编程器件实现卷积编码和译码的初步实现论文大学毕设论文.doc

有关零售超市数据中英文翻译.doc

27804基于颜色特征的图像检索方法和技术研究.doc

基于知网词语相似度的计算C#

北邮大三上2022年《算法设计与分析》期末试题-A卷

计算机毕业设计答辩PPT模板（11套）.zip

1000套计算机毕业设计带源码

2019city.zip

【浏览器插件】Zotero Connector.zip

MATLABSimulink电力系统建模与仿真

计算机统考408思维导图xmind

计算机组成原理唐朔飞ppt

头歌实践教学平台 MIPS流水CPU设计---HUST

计算机理论问答集锦包括OS、计算机组成原理等课程

AAAI2023 会议论文集合（Oral）

机器学习期末复习题选择题库

计算机网络谢希仁第七版课后答案完整版

最新资源