这段时间看了数据分析方面的内容,对Python中的numpy和pandas有了最基础的了解。我知道如果我不用这些技能做些什么的话,很快我就会忘记。想起之前群里发过一个学校的四六级成绩表,正好可以用来熟悉一下pandas中的一些用法。
1.数据介绍。
成绩表中包含的字段十分详细,里面有年级、性别、姓名、分数等等的一系列内容,我只想简单的分析一下我们学校的四六级过关率而已,所以去除了一些不必要的字段。留下的有如下几个字段:
第一列是自增的序号,没有什么实际意义。
第二列就是代表着该学生参加的是四级还是六级。
第三列是我们学校的院系名称。
第四列是学校院系的各个专业。
第五列是年级,13代表着20