# 基于卷积神经网络的天文光谱数据分类方法
智源杯天文数据算法挑战赛 第7名 剁椒鱼头真不辣
- 李鑫烨 南京大学 161220070@smail.nju.edu.cn
- 曹佳涵 南京大学 cjh327@126.com
## 摘要
本次比赛给出近100万个天体的光谱数据,要求选手根据这些光谱数据,把未知天体分成行星(star),星系(galaxy)和类星体(qso)三类。本队方案包括对数据进行归一化、滤波等预处理操作,对少数类别数据进行增强,分类模型经过探索GBDT和卷积神经网络,最终采取通过数据增强、网络结构等维度训练不同神经网络并融合的策略。该方案最终在决赛测试集上达到0.98448的Macro-F1 score,在480支参赛队伍中排名第7名。
**关键词**:天体分类;卷积神经网络;数据挖掘
## 一、赛题简介
在大规模光学光谱观测和大视场天文学研究方面,郭守敬望远镜(LAMOST,大天区面积多目标光纤光谱天文望远镜)居于国际领先的地位。它的视场和口径规模都居世界领先地位。焦面上有4000根光纤可以同时获得4000个天体的光谱,所以也是世界上光谱获取率最高的望远镜。
作为世界上光谱获取率最高的望远镜,LAMOST 每个观测夜晚能采集万余条光谱,使得传统的人工或半人工的利用模板匹配的方式不能很好应对,需要高效而准确的天体光谱智能识别分类算法。
本次比赛给出近100万个天体的光谱数据,要求选手根据这些光谱数据,把未知天体分成行星(star),星系(galaxy)和类星体(qso)三类。
## 二、相关背景
随着科学技术的发展和观测设备不断升级,天文数据呈现爆炸式的增长。人工智能(AI)技术能够辅助天文学家们处理分析海量天文数据,发现新的特殊天体和物理规律。天体光谱数据的智能处理正由传统机器学习方法逐步转向深度学习,主要采用基于计算机视觉的技术手段。 参考文献[1]提出了使用 5 层卷积神经网络估计大气参数的方法。 参考文献[2]提出使用自编码算法的神经网络对斯隆数字巡天(SDSS)光谱进行恒星大气物理参数的估计。 参考文献[3]提出使用深度神经网络模型并构造分类器对光谱进行分类。深度学习方法较机器学习在处理天体光谱数据上的精度、鲁棒性和泛化性都有明显提升。
本文基于光谱数据的特点,对光谱数据进行归一化和滤波等预处理,在分类时将卷积神经网络应用到了该问题上,并对网络结构进行优化,通过模型结构、训练增强方式等多个维度进行模型融合。该方法应用在智源杯天文数据算法挑战赛中,在480支参赛队伍中排名第7名。
## 三、主要思路
天体光谱数据是天体的点源光经过色散形成的、分布在不同波长下流量强度的序列。根据其吸收线、发射线的位置、强弱、宽度等性质,天文学家可以判断该天体的所属类别。可以说天体光谱的在一维坐标系下的“样子”决定了它的类别,这种“样子”决定“类别”的任务天然适合于卷积神经网络。传统的卷积神经网络预训练模型都是针对二维图像数据构建并训练得到的,并不适用于一维天体光谱数据。 针对光谱数据的特点,我们采用一维卷积神经网络,为了加深网络层数,我们在卷积层后加入Batch Normalization层来抑制过拟合。
## 四、数据探索
每个样本是2600维的光谱序列数据。每个类别随机选取了部分数据进行可视化,以star类和galaxy类为例:
![star](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhd258wj30hs0dc756.jpg)
![galaxy](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhdu4eij30hs0dcaaz.jpg)
### (一)归一化
我们发现,不同类别星体的光谱总体上形状呈现出较大的差异,波峰波谷的位置是用来区别类别非常显著的特征,对于同一类别星体的光谱,其绝对大小也相差很大,这是因为我们在观测天体光谱时,它们的亮度由于距离地球远近不同而强弱不同,导致光谱流量量纲(即数量级)存在很大差异。也就是说,同一类型的天体光谱也会因为这些原因使得光谱能量大小差异巨大,从而为光谱分类带来很大难度。因此要对数据进行归一化。
根据参考文献[2],我们希望模型能够通过学习光谱能量的分布或是光谱上的特征模式来对不同星体分类,所以应当排除这种能量量级带来的影响。与传统输入特征归一化的方式不同,这里采用“流量归一化”,即每个样本根据自己的能量大小进行归一化,而不是在整个数据集上归一化。因此我们采用单位化标准因子进行归一化,公式为:
$$
y=\frac{x}{\sqrt{\sum_{i=1}^nx_i^2}}
$$
归一化后的效果(以star类和galaxy类为例):
![star_stand](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhcud3dj30hs0dcabb.jpg)
![galaxy_stand](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhe5l74j30hs0dcq3f.jpg)
归一化前不同光谱的流量不在同一数量级,归一化后不同光谱的流量统一,归一化有利于卷积神经网络更快速地学习不同天体光谱之间的特征差异,使神经网络关注的重点不包含流量因素,有利于神经网络训练速度加快、精度提升。
### (二)主成分降维
主成分分析可以在保留大部分信息的前提下降低维度,并且过滤掉部分噪声,最终选择750个主成分代替原有2600维度的数据,从而达到降低数据维度,提升计算效率的目的。
### (三)Savitzky-Golay滤波
为了平滑噪声,我们对原始光谱数据进行Savitzky-Golay滤波。Savitzky-Golay滤波拟合法是根据时间序列曲线的平均趋势,确定合适的滤波参数,用多项式实现滑动窗内的最小二乘拟合;利用Savitzky-Golay滤波方法(基于最小二乘的卷积拟合算法)进行迭代运算,模拟整个时序数据获得长期变化趋势。
我们发现窗口宽度显著影响滤波效果,较小的窗口宽度能有效过滤噪声,提升预测精度,而过大的窗口会抹除数据的细节,损失有用的信息,造成预测精度的降低。经过小数据集的验证,最终选择窗口宽度为7.
### (四)数据增强
训练数据中行星(star),星系(galaxy)和类星体(qso)三类数据各占比为83.94%, 12.25%, 3.80%,是一个典型的类别不平衡问题,行星的数量远多于其他两类。不平衡的数据会使卷积神经网络的分类效果下降,因此数据增强是非常必要的。我们通过在星系、类星体数据上增加具有物理意义的噪声进行过采样扩充数据,从而增加星系和类星体所占比例。
参考了阿里云天池天文数据挖掘大赛中银河护卫队的数据增强方案,对原始数据加入不同幅度的正态分布随机数,公式为:
$$
x_{noise} = x+L\times s\times k
$$
其中x_noise是加噪的光谱数据,x是原始的光谱数据,L是标准正态分布随机数,s是原始光谱的标准偏差,k是实验得到的折减系数,我们最终取值为k=0.2。
![ratio1](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhdbdxhj30d50b7dfz.jpg)
![ratio2](https://tva1.sinaimg.cn/large/007S8ZIlgy1gewuhcjqlxj30cu0bhjrj.jpg)
原始训练数据是一个明显的类别不平衡问题。因此在数据增强时,我们有意针对小类别(qso和galaxy)增强更多的样本,来平衡各个类别的数量。上图战术了原始数据集和增强后数据集各类别占比情况,最终增强后三个类别的数量比约为3:1:1,经过实验发现,如下图所示,在单CNN模型上使用增强后的数据集进行训练相较于原始数据集训练过程更加稳定,波动�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
教育部认可的大学生竞赛备赛资料代码,源码,竞赛总结,所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通 全国电子设计大赛、全国大学生智能汽车竞赛、蓝桥杯、集成电路创新创业大赛、光电设计竞赛、挑战杯、大创项目、互联网+、三创赛、计算机设计竞赛、创新创业大赛、ACM-ICPC国际大学生程序设计竞赛、全国大学生数学建模竞赛、全国大学生电子商务“创新、创意及创业”挑战赛、全国大学生节能减排社会实践与科技竞赛、全国大学生工程训练综合能力竞赛、全国大学生机器人大赛-RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛、“中国软件杯”大学生软件设计大赛、全国大学生光电设计竞赛、中国机器人及人工智能大赛、“大唐杯”全国大学生移动通信5G技术大赛、华为ICT大赛、全国大学生嵌入式芯片与系统设计竞赛、中国高校智能机器人创意大赛
资源推荐
资源详情
资源评论
收起资源包目录
竞赛资料源码-智源杯天文数据算法挑战赛 2020.1.15 - 2020.4.2.zip (104个子文件)
result_9838.csv 6.95MB
result.csv 6.95MB
result_98339.csv 6.95MB
report.docx 464KB
.gitignore 18B
report.ipynb 16KB
preprocess.jpg 136KB
experiment.md 24KB
README.md 14KB
README.md 667B
201905.00065v1.pdf 2.46MB
Bai_2019_AJ_157_9.pdf 1.5MB
sdss2018.pdf 841KB
巡天光谱分类前的预处理_流量标准化_李乡儒.pdf 128KB
drop_out.png 514KB
star_standardized.png 55KB
star_standardized.png 55KB
cnn_aug.png 48KB
6_conv_curve.png 48KB
galaxy.png 43KB
bn_curve.png 43KB
star.png 42KB
qso_standardized.png 40KB
qso_standardized.png 40KB
cnn.png 40KB
tune_pca_medium_100_1000.png 39KB
qso.png 39KB
dropout_curve.png 35KB
star_0_smooth.png 31KB
star_4.png 30KB
star_8.png 30KB
star_2.png 29KB
galaxy_8.png 29KB
star_5.png 28KB
galaxy_6.png 28KB
galaxy_standardized.png 28KB
galaxy_standardized.png 28KB
star_9.png 28KB
star_1.png 27KB
1_x_nos_standa.png 27KB
star_6.png 27KB
lgb_importance.png 27KB
galaxy_3.png 27KB
qso_9.png 27KB
1_x_standa.png 27KB
tune_pca_small_10_20.png 27KB
star_7.png 26KB
0_x_nos_standa.png 26KB
qso_8.png 26KB
galaxy_7.png 26KB
star_3.png 26KB
qso_4.png 26KB
1_x_nos.png 26KB
0_x_standa.png 26KB
galaxy_4.png 25KB
galaxy_5.png 25KB
qso_1.png 25KB
qso_5.png 25KB
0_x_nos.png 25KB
star_0.png 25KB
qso_0.png 24KB
1_x.png 24KB
galaxy_1.png 24KB
0_x.png 24KB
tune_pca_small_10_15.png 24KB
qso_2.png 23KB
qso_3.png 23KB
qso_7.png 23KB
qso_6.png 23KB
galaxy_0.png 23KB
tune_pca_small_10_12.png 22KB
lgb_metric.png 21KB
galaxy_9.png 20KB
galaxy_2.png 17KB
ratio2.png 16KB
ratio1.png 15KB
tune_pca.png 13KB
fusion.py 16KB
lgb_classifier.py 10KB
dense_net.py 7KB
tune_pca.py 5KB
main.py 5KB
rf_classifier.py 4KB
read_data.py 3KB
interval.py 3KB
convert_data.py 2KB
qso_vs_galaxy.py 2KB
plot_minconf.py 2KB
augmentation.py 2KB
analyze_data.py 2KB
augmentation.py 1KB
lgb_tune.py 1KB
standardize.py 1KB
balance.py 1KB
integrate.py 1KB
abnormals.py 965B
pca.py 899B
standardize.py 538B
read_data.py 448B
extract_data.py 302B
共 104 条
- 1
- 2
资源评论
妄北y
- 粉丝: 9637
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- yolo目标检测项目实验
- downloadFile-1.hc
- Centos7.9环境下离线安装开源版Nginx(亲测版)
- C++课程设计:基于Qt的航班信息管理系统
- ADS7822UVerilog驱动,前面传的有点问题
- 基于python的高性能爬虫程序,使用了多线程+缓存+xpath实现的,这里以彼-岸图库为例,实现,仅用于学习交流
- 中分辨率成像光谱仪(MODIS)烧毁面积产品信息MODIS-C6-BA-User-Guide-1.2.pdf
- Screenshot_20240427_172613_com.huawei.browser.jpg
- 关于学习Python的相关资源网站链接及相关介绍.docx
- (HAL库)基于STM32F103C8T6的温控PID系统[Dht11、ESP8266、无线透传、L298N……]
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功