语境
此分析是Microsoft数据科学家课程的一部分。 在本笔记本中,其目的是通过回答问题来查找航班起飞或到达延迟的原因。
我找不到数据集链接,但是我得到的信息是,这是一个真实的数据集,其中包含来自美国运输部的2013年美国国内航班的航班数据。
数据集
该数据集具有246484行和20列:数字和非数字。 其中包含的所有信息都与机场的现实有关。 在开始回答问题之前,我必须从异常值和空值中清除数据。
挑战
提出了7个问题来帮助理解数据集:
平均(平均)出发和到达延迟时间是多少?
运营商如何比较到达延迟性能?
一周中的某些日子比其他日子更容易到达吗?
哪个出发机场的平均出发延误最高?
比起准时出发,晚出发是否会导致更长的到达延迟?
哪条路线(从出发机场到目的地机场)到达时间最晚?
哪条路线的平均到达延误最高?
他们都被回答了,有时以图表的形式,有时以熊猫的形式输出。 我有Mi