基于Python实现国会投票记录【100012490】资源-CSDN文库

共7个文件

txt：1个

data：1个

license：1个

版权申诉

Python

课程设计

89 浏览量 2023-05-31 14:15:06 上传评论收藏 30KB ZIP 举报

在本项目中，我们将探讨如何使用Python编程语言处理和分析美国国会的投票记录数据。这个项目的核心是利用Apriori算法来发现数据集中高置信度的关联规则。Apriori算法是一种经典的关联规则学习算法，常用于市场篮子分析，以找出顾客购物习惯中的模式。在这个场景下，我们可以理解为寻找议员投票行为之间的关联性。我们需要导入必要的Python库，如pandas用于数据处理，sklearn.preprocessing进行数据预处理，以及mlxtend库中的apriori和association_rules函数来执行Apriori算法和生成关联规则。 1. **数据预处理**：在开始之前，我们需要加载数据集`xdu_dataminingus`。这可能是一个CSV或Excel文件，包含国会投票记录的详细信息。使用pandas的read_csv或read_excel函数读取数据，将其转换为DataFrame对象。数据预处理步骤包括清理缺失值、统一数据格式、对类别变量进行编码（例如，将“是”、“否”转换为1、0）等。 2. **构建项集**：在Apriori算法中，项集表示数据中的单个元素或事件。我们需要将投票记录转化为这种形式，例如，每个投票作为一个项，"投赞同票"或"投反对票"。这样，我们就可以构建一个项集列表，其中每个元素都是一个议员的投票序列。 3. **Apriori算法**：使用mlxtend库的apriori函数，我们可以指定支持度阈值为30%（意味着至少30%的议员有相同的行为）和置信度阈值为90%（意味着规则出现的置信度至少为90%）。Apriori算法会生成满足条件的频繁项集，即在数据集中频繁出现的投票组合。 4. **生成关联规则**：有了频繁项集，我们可以进一步生成关联规则。关联规则描述了项集之间的关系，比如“如果议员A经常投赞同票，那么议员B也倾向于投赞同票”。mlxtend库的association_rules函数可以帮助我们完成这一步，它会基于支持度和置信度生成规则，并提供其他有用指标如提升度和leverage。 5. **规则评估与解释**：对生成的关联规则进行评估，挑选出最有意义和实用性的规则。这通常涉及到理解和解释规则的业务含义，以及根据规则的置信度、支持度和其他统计指标进行排序。 6. **结果可视化**：可视化结果可以帮助我们更好地理解数据。可以使用matplotlib或seaborn库绘制条形图、热力图等，展示不同规则的支持度和置信度。 7. **应用与扩展**：这种分析可以帮助我们发现议员间的投票模式，或者揭示特定议题下的共识。此外，还可以考虑将此方法应用于其他领域，比如社交媒体分析、消费者行为研究等。通过Python实现Apriori算法分析国会投票记录，不仅能深入了解议员的投票行为，还能为政策制定者提供有价值的洞察。同时，这也是一个很好的Python编程和数据挖掘实践案例，有助于提升数据分析技能。

资源推荐

资源详情

资源评论

收起资源包目录

100012490-基于Python实现国会投票记录.zip （7个子文件）

xdu_dataminingus

ParliamentVote

data

house-votes-84.data 18KB

Index.txt 135B

house-votes-84.names 7KB

Main.py 1KB

美国国会投票记录.docx-md

1-de795d989d23ee6d75ed4b62cab93652.png 23KB

LICENSE 1KB

README.md 4KB

# 美国国会投票记录实验报告 ## 分析与设计 ### **参考：** 利用第三包。 ### **详细实现** ![](https://www.writebug.com/myres/static/uploads/2021/11/12/815304b4b3b94f4a88f083f710433bd0.writebug) ### **实验结果** ``` {0} -> {-1} (conf: 0.990, supp: 0.462, lift: 0.995, conv: 0.467) {1} -> {-1} (conf: 0.998, supp: 0.995, lift: 1.002, conv: 1.995) {-1} -> {1} (conf: 1.000, supp: 0.995, lift: 1.002, conv: 2298850.575) {republican} -> {-1} (conf: 0.994, supp: 0.384, lift: 0.999, conv: 0.772) {0} -> {1} (conf: 0.995, supp: 0.464, lift: 0.997, conv: 0.467) {republican} -> {1} (conf: 0.994, supp: 0.384, lift: 0.996, conv: 0.386) {democrat} -> {-1} (conf: 0.996, supp: 0.611, lift: 1.001, conv: 1.228) {democrat} -> {1} (conf: 1.000, supp: 0.614, lift: 1.002, conv: 2298850.575) {0, 1} -> {-1} (conf: 0.995, supp: 0.462, lift: 1.000, conv: 0.929) {-1, 0} -> {1} (conf: 1.000, supp: 0.462, lift: 1.002, conv: 2298850.575) {0} -> {-1, 1} (conf: 0.990, supp: 0.462, lift: 0.995, conv: 0.467) {1, republican} -> {-1} (conf: 1.000, supp: 0.384, lift: 1.005, conv: 4597701.149) {-1, republican} -> {1} (conf: 1.000, supp: 0.384, lift: 1.002, conv: 2298850.575) {republican} -> {-1, 1} (conf: 0.994, supp: 0.384, lift: 0.999, conv: 0.772) {0, democrat} -> {-1} (conf: 0.993, supp: 0.326, lift: 0.998, conv: 0.657) {1, democrat} -> {-1} (conf: 0.996, supp: 0.611, lift: 1.001, conv: 1.228) {-1, democrat} -> {1} (conf: 1.000, supp: 0.611, lift: 1.002, conv: 2298850.575) {democrat} -> {-1, 1} (conf: 0.996, supp: 0.611, lift: 1.001, conv: 1.228) {0, democrat} -> {1} (conf: 1.000, supp: 0.329, lift: 1.002, conv: 2298850.575) {0, 1, democrat} -> {-1} (conf: 0.993, supp: 0.326, lift: 0.998, conv: 0.657) {-1, 0, democrat} -> {1} (conf: 1.000, supp: 0.326, lift: 1.002, conv: 2298850.575) {0, democrat} -> {-1, 1} (conf: 0.993, supp: 0.326, lift: 0.998, conv: 0.657) ``` ## **心得体会** 使用了包，因此实验没有什么难度。之后或许会考虑自己实现。利用层次聚类思想实现一个社区发现算法，在 karate 数据集上进行检测。 ### **分析与设计** **参考：**Newman M E J, Girvan M. Finding and evaluating community structure in networks 算法采用 Girvan-Newman 算法，利用模块度 Q 作为寻找社区数量的依据。 Girvan-Newman 算法的基本流程如下：计算网络中所有边的边介数；找到边介数最高的边并将它从网络中移除；重复步骤 2，直到每个节点成为一个独立的社区为止，即网络中没有边存在。 ![](https://www.writebug.com/myres/static/uploads/2021/11/12/4ea4faa6c47304c373e6366ddf4c9173.writebug) ### **详细实现** 使用 Python 编写代码使用 networkx 作为实现网络的包使用 matplotlib 绘制 Q 的变化使用 gephi 查看图构建 GN 类，其中有两个主要方法的划分方法： GN.run(self)：以 Q 最大作为划分依据 GN.run_n(self, n)：当划分为 n 个时，停止划分 ![](https://www.writebug.com/myres/static/uploads/2021/11/12/e1c4cc24d8ff531c18415c0cdc80c131.writebug) 以 run 为例：一直去除介数最大的边，同时计算划分后的图的 Q 是否最大，如果最大，则以此图作为新的结果，否则继续划分。 GN.add_group(self)：将原图的拷贝按照划分后的节点进行标记，方便之后的查看 GN.draw_Q(self)：画出 Q 的变化趋势 GN. calculateQ(partition, G)：计算目前的 Q ### **其余可参见代码：** ### **结构如下：** - Main.py 程序实现 - /data: - karate.gml：原始数据 - out.gml：依据 Q 最大划分结果 - two_parts.gml：依据两个社区划分结果 ### **实验结果** ![](https://www.writebug.com/myres/static/uploads/2021/11/12/716c153a06ae20cde99fc50eaf052285.writebug)

评论收藏

内容反馈

版权申诉