数据、分析代码和调查结果支持 BuzzFeed 新闻对最佳影片提名电影对话多样性的分析.zip
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
奥斯卡剧本分析 — 1989、2015 和 2017 该存储库包含支持 BuzzFeed News 对2018 年 3 月 2 日出版的最佳影片提名电影对话多样性分析的数据、分析代码和调查结果。请在继续之前阅读该文章,其中包含重要的背景和细节。 数据 此分析依赖于两个数据文件,均在data/. data/actor-metrics.csv 列出我们分析中的每个参与者,并包含以下列: year: 电影上映年份 film:电影名称(在某些情况下缩短) actor 在 IMDB 或 Variety Insights 上找到的演员姓名 characters:角色名称/参考,如剧本中所见 imdb: IMDB 链接供参考 gender:演员性别,在 Variety Insights 上找到 race:演员竞赛,如在 Variety Insights 上发现的,并补充了额外的报告 race_simple:简化的演员种族——要么White或POC(有色人种) words: 说的字数 sentences:说出的句子数(未在已发表的文章中使用,但提供参考和上下文) data/character-word-counts-csvcharacter + word为我们分析中的每个参与者计算每个组合(不包括“停用词”;有关详细信息,请参见下文)。它包含以下列: year: 电影上映年份 film:电影名称(在某些情况下缩短) character:角色名称/参考,如剧本中所见 actor:在 IMDB 或 Variety Insights 上找到的演员姓名 word: 这个角色在这部电影中说的话 count: 这个词被这个角色说出的次数 数据源 该存储库中的分析使用 1990 年、2016 年和 2018 年奥斯卡金像奖提名的 22 部电影的剧本作为主要来源材料。(这些电影分别于 1989 年、2015 年和 2017 年上映。) 对于《疯狂的麦克斯》和《我的左脚》两部电影,我们找不到剧本,因此我们依靠电影抄本,然后将其与最终电影进行核对。然后我们将这些成绩单输入到Writer Duet脚本编写程序中,并将结果导出为 XML(与我们用于其他剧本的格式相同)。 提名影片名单来自奥斯卡奖数据库和奥斯卡网站。 角色名称和对话是从电影剧本中提取的,这些剧本可以在公共网站(如Script Slug和互联网电影剧本数据库)和各种电影发行商的网站上找到。 重要的是要注意: 电影剧本通常结构不完善,可能包含错误。写作风格和句法的不规范会导致难以正确地将对话归因于相关字符。我们已尝试尽可能标准化数据。 电影剧本有时也与最终出现在屏幕上的不同。 每个脚本角色的官方名称均来自Variety Insights和IMDB。 每个演员的演员性别和种族/民族的来源主要是Variety Insights。如果在 Variety Insights 中无法确认演员的性别种族/民族,我们有时会根据照片、传记和其他信息进行判断。在演员的种族或性别完全有问题的情况下,我们与他们的代表确认了事实。 在某些情况下,演员的名字无法与演员匹配,因为角色的部分没有包含在完成的电影中,或者演员没有被署名。这些名称已从分析中删除。 数据处理步骤 首先,我们使用Writer Duet或Story Writer将电影脚本的 PDF 转换为 XML 文件。然后,我们使用 Python 的Beautiful Soup、TextBlob和ftfy库从 XML 文件中提取字符名称和对话,进行清理,并将对话“标记化”为句子和单词。然后,我们将每个字符的行数以及总字数和句子数导出到一个 CSV 文件中。 使用该 CSV 文件,我们使用上面列出的来源手动将每个角色分配给演员。然后,我们删除了符合以下任一条件的角色: 无法与演员匹配的角色(例如,因为他们没有明确的功劳) 出现在剧本中但最终没有出现在电影中的角色 说话少于 100 个单词的角色——主要是因为这些角色通常没有名字(例如“患者 1”)并且很难与演员匹配 最终,我们移除谁11个字符做至少能说100个字: “收音机”,来自born-on-the-fourth-of-july(176 字) “男人”,来自bridge-of-spies(269) “播音员”,来自bridge-of-spies(120) “叙述者”,来自call-me-by-your-name(317) “士兵”,来自dunkirk(112) “黑色”,来自the-big-short(154) “现代商人”来自the-big-short(387) “年轻的银行家”,来自the-big-short(108) “BRAZEAU”,来自the-revenant(155) “猪”,来自t
- 1
- 粉丝: 8435
- 资源: 473
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助