论文研究-基于uSD的情境感知系统设计与实现.pdf

所需积分/C币:9 2019-07-22 22:01:54 300KB .PDF
49
收藏 收藏
举报

基于移动终端、情境感知以及无线传感器网络的结合需求,提出了一种应用于移动终端的情境感知系统,包括若干无线传感器节点、情境感知及处理终端、应用服务及执行装置等。针对移动电子设备一般都不具备接入无线传感器网络所需功能单元的现状,利用uSD概念为移动终端设计了一个ZigBee通信功能扩展模块,使移动终端能够从无线传感器网络中获取情境信息,并提供相应的情境感知和处理功能。最后,设计了包含位置等信息的情境感知服务演示系统,初步验证了基于uSD的情境感知系统在移动终端上应用的新颖性和有效性。
66 计算机应用研究 中的现状,并且由于在使用半监督算法时就已纶存在了流形假其中:K即核函数,取K(x,y)=exp(-B‖x-y‖2)时为高斯 设的前提,本文将半监督与E算法相结合,提出了一种新的核函数。KIE算法将式(5)中的欧氏距离换成d",其 基于半监督的局部线性嵌人算法sSIE,该算法使用部分带标他步驟与SLLE算法相冋。最后实验结果表明,将高斯核昞 签的样本来指导LLE算法。在SLLE算法中所有的样本都是数引人到 SSLLE算法后婁比单纯的 SSLLE算法性能好 带有标签的,所以在计算新的距离矩阵时很容易进行调整。然3.4核半监督局部线性嵌入文本分类算法的步骤 而出于 SSLLE算法中只有部分样本是带标签的,不能计算类 由于 K-SSLLE算法只是改进了SSIE算法距离计算,其 与类之间的最大欧氏距离m(D),不能像SILE算法一样,可他两个步骤都相同,在此仅给出核半监督局部线性嵌入文本分 以采用下面的策略来调整距离矩阵从而指导LLE算法准确地 类算法的步骤描述。 寻找K个近邻点。 d4-ye-g①x;,x都带标记,并且属于同类 输入:C;类标记文档{d1,da,…,d}一共N篇以及大约 8N的未标记文档,测试文档集S={S1,S2,…,Sn}。 ②2x;,x都带标记,并目不属丁同一类 输出:S:所属的类别C。 Dd+y2c③x,x仅一个带标记,但xKN(k)或(5) a)对所有输入文档进行分词、去停用词等预处理,将得到 x∈KN(x1) 的特征词和词频保存在ⅩML文件中 ④其他 b)提取每个XML文件屮的原始文本向量,使用欧氏距离 其中:y(0<y<1)是调节系数,用于调节SSLE算法中带标签公式计算所有文本之间的距离,找出每个样本点的初始K邻 样本和不带标签样本在被选择为近邻点时的可能性。 近样本集合。 对于式(5),本文给出如下的定性分析:在算法第一次选 c)使用核函数(式(6)重新计算所有文本之间的距离,并 择K个近邻点时按照LE算法的步骤a)进行,然后再使用式利用初始K邻近样本集合和式(5)调整距离矩阵,然后重新为 (5)调整距离矩阵重新选择近邻点。为了加强半监督算法中每个样本点选择K邻近样本集合。 带标签样本的指导意义,在选择近邻点时,应该偏向于选择带 d)使用式(1)为每个样本点寻找权重向量,使其在由其K 标答的样本以增加算法的准确性。在标记样本选择K个近邻邻近样本线性表示时的损失最小。 时,其近邻点可能是标记的样本,该标记的近邻点可能与原样 使用式(2),利用步骤d)中的权重向量在低维空间中 本属于同一关,对于这样的近邻点应该有更大的可能性被选线性重建原高维向量,并满足在低维空间中的损大最小从而达 中,即式(5)中的①;该标记的近邻点也可能与原样本不属于到降维的目的,将降维后的特征词和词频保存在XML文件中 同一类,对于这样的近邻点被选屮的可能性应该较小,即式 f)使用EM半监督算法,利用步骤e)中保存的文本特征向 (5)中的2;若在标记样本选择K个近邻时,其近邻点是末标量将测试文档S依次分类,并输出其类别属性C。 记的样本,但在第一次选择时将其选为了近邻点,对于这样的 点在最后是否被选择为近邻点,采取式(5)中的③较好;对于4实验与分析 其他的情况(包括x,都不带标记和3中仅一个带标记,但另 个也不是其K近邻点的情况),采取式(5)中的④,其距离不4.1实验数据和环境 予调整。 本文使用的实验数据来自复旦大学计算机信息与技术系 选择了每个样本的K个近邻后,SLLE算法的其他两个步国际数据库中心自然语言处理小组。其中 answer. rar为测 骤与LLE算法相同,最后实验沚明该算法可以在一定程度上试语料,共9833篇文档;tain.rr为训练语料,共9804篇文 改善分类性能。 档,分为20个类别。然而该语料库过大,如果采用全部的文档 33核半监督局部线性嵌入算法( kernel based semi-super.进行实验,将会影响分类效率。为验证本文算法的有效性,只 vised LLE, K-SSLLE) 选取其中的部分诸料,其体如表1所示。 以上提到的三个算法,无论是LE、SLLE还是 SSLLE算 表1实验数据 法,都采用的是欧氏距离来计算两个样本之间的距离。然而对 类别训练集测试集类别训练集测试集 Cl-art 于具有相同欧氏距离长度的样本所在的位置信息却忽略了,这 240 是欧氏距离的最大缺点之一。另外,由于文本向量一般都是分 250 26 33 布在高维稀疏的空间中,考虑到使用核函数可以尽可能地保持 l690 高维空问中样本点的拓扑信息,本文将核函数的思想和半监督 实验平台:CPU为 Intel pentium dual core processor,规格 局部线性嵌入算法结合起来,提出了一种采用核距离函数的 Genuine Intel cpu21401.6Glk,内存为2 GB DDR2;实验开 SSLE算法,该算法能更好地保留空间样本在降维后的信息。发坏境: Windows Xp+ Microsoft visual studio2005C#NET。 同SIE和SLE算法一样, K-SSLLE算法也只是改进了ILE4.2实验与分析 算法的第a)步,即使用核距离代替欧氏距离来寻找K个近邻 本文的主要工作集中在文本向量的降维上,具体使用哪种 点,K-SI算法的后两个步骤与 SSLLE算法一致。 文本分类器不冉具体讨论。另外,本文在评价文本分类指标时 目前使用最广泛的核函数有三和,即多项式核函数、综合考虑分类的准确率 precision和召回率rcal,.将准 高斯核函数和 sigmoid核函数。但是目前核函数的选择据尚确率与召回率结合在一起得到综合指标F值,F1=(2 x preci- 没有定论,在机器学习模型中,一般是凭经验选取。由于高斯 Sion areca/( precision+reca)。针对以上提到的几个算法, 核函数是比较普遍使用的核函数,个文也采用高斯核函数将欧设计如下四个对比实验(其中参数K,,y都经过多次测试取 氏距离转换成馁距离,如式(6)所示 结果较好时的值)。 d"=dst(d(x),d(x))=(x)-由(x)12= 实验1不进行降维时进行文分类(数据集是仝标记 -2K.+K (6)的,即表1屮的训练数据仝都带标记),使用KNN分类器,实验 第1期 夏士雄,等:一种半监督局部线性嵌入算法的文本分类方法 67 结果如表2所示。 半监督的局部线性嵌入算法 SSLLE,并随后乂将SLLE算法扩 实验2使用SL算法降维后进行文本分类(数据集同展成∫基于核的半监督局部线性嵌入算法K-SLLE。这两种 实验1),使用KNN分类器,实验结果如表3所示。 算法都针对半监督训练样本集,并充分利用半监督训练数据集 表2实验1结果 表3实验2结果 中的部分带标签样本,通过算法,使用一些已标记的样本 类到 可以很好地构造样本点的局部邻域特征向量,能够有效地将高 I-art 0.8320.8450.838 O.8440.8320.838 0.8860.8710.87 0.860.8840.872 维空间中的点嵌入到低维空间中,有利于对数据进行分类,最 0.8250.8330.8293mmr0.8530.8420.847后的实验也证明了这一点。 CA4-enviornment 0.819 0.8420.815 C4-cnviprnment 0.844 0.823 0.833 在SSLE算法和 K-SSLLE算法中也存在一些需要改进的 C5 economy0.9020.8980.90c5- economy0.8850.9010.8931 C6-politica 0.8750.8460.860 C6-politics 0.8480.8620.855 地方。其中,如何选择近邻参数K就是一个很值得研究的问 C7-sports 0.9060.860.882 L7-spcrts 0.8960.8580.877题。如果K值过大,即选取了较多的近邻点,则这些大量的最 平均值 0.8680.8550.862 平均值 0.8610.8570.859 近邻域可能会促成流形小规模结构的消除以及鼍个流形的平 对于实验1没有进行降维处理,在进行实验时,从程序里滑;相反,K值太小,太少的邻域可能误将连续的流形结构划分 面了解到文向量的维度大约是1200;而实验2中,取参成脱节的子流形。另外,关丁调节参数、y的选取也都是值 数K=30,=0.01时,文本向量的维度大约是400维左右,实得研究的问题,这都是下一步工作需要研究的重点。 验2通过S降维处理后在很大程度上加快了算法的运行。参考文献: 通过分析以上两个实验结果,发现K\N文本分类的算法的正 [ 1] ZHU Xiao-jin. Semi-supervised learning literature survey, TR 1530 确率都是86%左右,在准确率和召回率以及F值上都没有很 [R]. Madison: University of Wisconsin-Madison,2007 大的波动,这说明使用SE算法进行降维后基本没有影响算[2]周志华,半监督学习中的协同训练风范[M]∥同志华,王珏,机 法的性能,从而为后面的实验使用改进LLE算法提供了可行 器学习及其应用.北宫:清华六学出版社,2007:259-275 性证明 [3] BALASUBRAMANIAN M, SCHWARTZ E L. The Isomap algorithm 实验3使用SSLE算法降维后进行文忄分类(数据集 and topological stability[ J]. Science, 2002, 295(5552): 7-7 是部分标记的,将表1中的每类训练数据随机标记1/8,其余[4] ROWEIS S T,SAUL.K. Nonlinear dimensionality reduction by lo 7/8取消其标记)。由于训练数据是半监督数据,可以使用一 cally linear embedding[J]. Science, 2000. 290(5500): 232 种常见的半监督算法进行分类—EM算法。实验结果如 表4所示 [5 SAUL L K, ROWEIS S T. An introduction to locally linear embedding 实验4使用K-SSLE算法降维后进行文本分类(数据集 [eb/Ol.(2001).http://www.cs.torontoedu/-roweis/lle. [6 TENENBAUM J B, De SILVA V, LANGFORD J C. A global geo 同实验3),使用EM算法进行分类,实验结果如表5所示。 meTric frame wurk for nunlinear dimensionality redue Lion[I]. Sci 表4实验3结果 表5实验4结果 ence,2000,290(5500):23192323 类别 precision recall A;值 类别 precision recall F1值 [7]苏全树,张博锋,徐昕,基于机器学习的文本分类技木研究进展 0.8620.8740.868C 0.8910.8940.892 8760.8770.876 0.8550.86|0.863 [J].软件学报,2006,17(9):1848-1859 C3· computer0.9370.9120.924 0.9330.9190.9268]陆玉昌,鲁明羽,李凡.向量空间法中单词权重函数的分析和构造 C4-enviornment 0.538 .840.839 C4-enviornment 0 906 0.934 0.g20 [冂].计算机研究与发展,2002,39(10):1205-1210 CS-economy 0.8560.8950.875 economy0.9130.8840.898 [9]王和剪,郑杰,姚正安,等.基于聚类和改进距离的LLE方法在数 Co-politics 0.8740.8980.886 6-polities O.8860.90.89 C7.9 0.9210.8880.904 7-sports 0.9330.9280.930 据降维中的应用[J].计算机研究与发展,2006,43(8):1485 平均值 0.8810.8830.882平均值 0.9040.9040.904 l490 首先对比实验2和3(不考虑其使用不同分类算法)。实10 De RIddER D, KOUROPTEVA O, OKUN O,aa. Superv ised lo 验3中取参数K=28,y=0.02。实验2中采用全标记样本,而 eally linear embedding[ M 1//ArTificial Neural Networks and Neural 实验3只采用了实验2中约18的标记样本,这在很大程度上 Information Processing ICANN/ICON IP. Berlin: Springer, 2003: 333 节约了获取标记样本的代价。比较这两个实验的结果发现,在 使用 SSLLE算法后,文本分类的准确性也比使用SLLE算法有 [1]张莉,周伟达,焦李成。核聚类算決[J].计算机学报,2002,25 (6):587-590 大约2.5%的提高,这从两个方面说明将半临督思想和LE算12]中文自然语言处理开放平台[EBOL].[20008-301.: 汏结合在一起取得∫成功。 alp. org. cn/docs/ doclist. php? cat_id =16 再对比实验3和4(实验4中参数取值同实验3)。实验4[131 YANG Yi-ming, PEdERSEN JO. A comparative study on feature se 比3的准确性提高了1.2%左右,这说明使用核函数的确可以 lection in text categorization[ C//Proc of the 14th International Con 在一定程度上改进高维空间中点的距离计算,即核函数可以更 ference on machine learning, san francisco. morgan kaufmann pub 好地保留高维空间中样本点的拓扑结构信息,证明了本文算法 fishers,1997:412-420 屮引人高斯核函数确实提高了算法的性能。 1 14 WANG Xin-hao, LUO Ding-sheng, Wt Xi-hong, et al. Improving Chinese text categorization by outlier learning[ C//Proe of IEEE In- 5结束语 ternat ional Conference an Natural Language Pmcessing and Know ledge Engineering. 2005: 602-607 局部线性嵌入算法作为一种无监督的非线性数据降维方151 NIGAM K, MCCALLUM A K, THRUN S,eta. Text classification 法,在很多机器学习领域都有很广泛的应用,本文率先将它引 from labeled and unlabeled documents using EM[J. Machine 入到文本分类的领域。基于LLE算法,本文提出了一种基于 Learning,2000,39(2):103-134

...展开详情
试读 4P 论文研究-基于uSD的情境感知系统设计与实现.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于uSD的情境感知系统设计与实现.pdf 9积分/C币 立即下载
1/4
论文研究-基于uSD的情境感知系统设计与实现.pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载 >