从零学python系列之数据处理编程实例（二）.docx资源-CSDN文库

版权申诉

33 浏览量 2022-01-22 09:01:55 上传评论收藏 18KB DOCX 举报

### 数据处理编程实例知识点 #### 一、Python 文件操作与数据读取 - **os 模块**: Python 的 `os` 模块提供了许多用于与操作系统交互的功能。 - `os.getcwd()`: 获取当前工作目录。 - `os.chdir(path)`: 更改当前工作目录到指定路径。 - **文件读取** - 使用 `with open(file_name) as f:` 语句来安全地打开文件。这种语法确保即使发生异常，文件也会被正确关闭。 - `f.readline()`: 读取文件的一行。 - **字符串处理** - `strip()`: 去除字符串两端的空白字符。 - `split(',')`: 将字符串按逗号分割成列表。 #### 二、数据处理与转换 - **列表处理** - 使用 `pop()` 方法从列表中移除元素并返回该元素。 - 列表推导式: 如 `[modify_time_format(s) for s in data_list]`，这是一种快速生成新列表的方法。 - **字典构造** - 使用 `{key: value}` 形式创建字典，例如：`{"name": data_list.pop(0), "date_of_birth": data_list.pop(0), "times": ...}`。 #### 三、自定义函数设计 - **get_filedata 函数** - 功能: 从文件中读取数据并进行处理。 - 实现: - 读取文件的第一行数据。 - 分割数据并提取姓名、出生日期和时间记录。 - 对时间记录进行格式化处理。 - 返回包含姓名、出生日期以及处理过的时间记录的字典。 - **modify_time_format 函数** - 功能: 统一时分表达方式为“分钟.秒”。 - 实现: - 根据不同的分隔符（`-`, `:`, `.`）判断时间格式。 - 使用字符串的 `split()` 方法分离分钟和秒。 - 返回统一格式的字符串。 - **get_prev_three 函数** - 功能: 返回文件中排名前三的不重复时间记录。 - 实现: - 首先调用 `get_filedata` 函数获取所有时间记录。 - 使用列表推导式结合 `modify_time_format` 函数对时间记录进行格式化。 - 使用集合 `set()` 来去除重复的时间记录。 - 最后通过 `sorted()` 函数排序，并返回前三个记录。 #### 四、程序运行示例 - **示例运行** - 程序依次处理 `james2.txt`、`julie2.txt`、`mikey2.txt` 和 `sarah2.txt` 四个文件。 - 输出每个同学的姓名、最好的三个不重复时间记录以及出生日期。 - 示例输出: ```plaintext James Lee's fastest times are: 2.22, 2.34, 2.45 James Lee's birthday is: 2021-3-14 Julie Jones's fastest times are: 2.11, 2.18, 2.23 Julie Jones's birthday is: 2021-8-17 Mikey McManus's fastest times are: 2.22, 2.38, 2.49 Mikey McManus's birthday is: 2021-2-24 Sarah Sweeney's fastest times are: 2.18, 2.39, 2.54 Sarah Sweeney's birthday is: 2021-6-17 ``` #### 五、总结与扩展 - 本教程通过具体的示例讲解了如何使用 Python 进行基本的数据处理任务，包括文件读写、数据清洗、数据转换等。 - 可以进一步扩展功能，如添加异常处理机制、优化算法性能、增加用户输入界面等，使程序更加健壮和实用。通过上述知识点的学习，初学者可以掌握如何使用 Python 处理实际的数据问题，为进一步学习高级数据分析和机器学习打下坚实的基础。

资源推荐

资源评论