机器人的识别是一项重要而复杂的任务。 机器人分类器 Botometer 被成功引入,作为估计给定帐户列表中机器人数量的一种方法,因此,它经常用于学术出版物。 鉴于它与学术研究的相关性以及我们对任何给定 Twitter 话语中自动帐户的存在的理解,我们对 Botometer 的诊断能力随着时间的推移而感兴趣。 为此,我们在三个月内以两种语言(英语/德语)收集了五个数据集(三个验证为机器人,两个验证为人类;n=4,134)的 Botometer 分数。 我们表明,在估计机器人时,Botometer 分数是不精确的; 尤其是在不同的语言中。 我们在随时间推移对 Botometer 分数的分析中进一步表明,即使使用非常保守,Botometer 的阈值也容易出现差异,这反过来会导致假阴性(即机器人被归类为人类)和假阳性(即,人类被归类为机器人)。 这会对学术研究产生直接影响,因为大多数使用该工具的研究会在不知不觉中将大量人类用户视为机器人,反之亦然。 我们最后讨论了计算社会科学家应该如何评估为识别机器人而开发的机器学习系统。该论文现已发表在 PLOS One:https://doi.org/10.1371/journal.pone.0241045