过去五年,中国法院在网上发布了数千万份法院判决书。 我们通过对河南省 1,058,990 份文档的数据集的构建和检查,分析了使用这一非凡的新数据源的前景和缺陷。 法院在 2014 年对大约一半的案件发布了判决,尽管自那时以来在线发布的案件百分比可能有所上升,但研究人员面临的最大挑战仍然是记录数据中的差距。 我们发现缺失的数据因法院而异,中级法院披露的文件明显多于基层法院。 但法院级别、人均 GDP、人口和调解率不足以完全解释披露率的变化。 需要进一步开展工作以更好地了解资源和激励措施可能如何扭曲数据。 尽管信息不完整,但一个包含 20,321 条行政法院判决的主题模型展示了法院判决的大规模数字化如何为中国日常法律实践打开了一扇新窗口。 无监督机器学习结合对选定案例的仔细阅读,揭示了行政纠纷和重要研究问题的惊人趋势。 综上所述,我们的研究结果表明,寻求使用中国法院大规模数据的学者需要保持谦逊和方法论多元化。 现在可用的大量不完整数据可能会挫败对现有问题的快速答案的尝试,但这些数据擅长开辟新的研究途径,并为有关法院在中国社会中的作用的现有假设增添细微差别。