随着生物信息学的发展,基于基因表达数据的肿瘤分类已成为诊断癌症的重要有用技术。 由于基因表达数据通常包含数千个基因和少量样品,因此从基因表达数据中选择基因成为肿瘤分类的关键步骤。 粗糙集的属性约简已经成功地应用于基因选择领域,因为它具有数据驱动的特点,并且不需要额外的信息。 但是,传统的粗糙集方法仅处理离散数据。 至于包含实数值或噪声数据的基因表达数据,通常是通过离散预处理使用它们,这可能导致分类精度差。 在本文中,我们提出了一种基于邻域粗糙集模型的基因选择新方法,该方法具有在保留原始基因分类信息的同时处理实值数据的能力。 此外,本文提出了一种在邻域粗糙集框架下的熵测度,以解决基因表达数据的不确定性和噪声。 利用该措施可以发现紧密的基因亚群。 最后,基于邻域粒子和熵测度设计了一种基因选择算法。 对两个基因表达数据的一些实验表明,提出的基因选择是提高肿瘤分类准确性的有效方法。