在数据新闻中,数据错误可能会对调查报道产生连锁反应,并对受众的信任度产生破坏性影响——因为许多其他错误、趋势和结论都可能源于最初的错误。
在最近在田纳西州纳什维尔举行的 NICAR23 会议(由美国调查记者和编辑协会(IRE)组织的年度数据新闻峰会)上,GIJN 邀请了几位演讲者分享那些曾危及或损害调查的常见数据错误或疏漏。
“每个记者都会犯错误,关键是要聪明地确保你永远不会再犯同样的错误,并对你的受众保持透明,”美国大学调查报道工作坊数据编辑 Aarushi Sahejpal 说:“但你确实可以最大限度地减少错误的机会。”
Sahejpal 表示,想要避免犯错,通常需要问自己三个问题,其他专家也表示赞同:你真的拥有完整的数据集吗?你是否与数据背后的人交谈过,了解它的真正含义?数据没有告诉你什么?
据数据新闻培训师 Samantha Sunne(目前是ProPublica的本地报道研究员)介绍,一个常见且具有破坏性的错误是错误地认为你已经在 Google 表格中选择或突出显示了整个数据列。但问题在于,电子表格在下面的空行处停止突出显示,Sunne表示,有些记者没有发现这种数据排除,导致他们在调查中得出错误的结论。
Sunne 解释道:“通常情况下,你的数据中会出现空行——也许那是页面分隔符的位置,或者某个项目没有数据——如果你不向下滚动,你可能很容易就不会注意到它们。如果你不小心确保选中所有数据ebet易博真人平台,它可能会彻底破坏你的分析。”
她的解决方案是什么?在点击任何数据列后,按一次 Control + A(在 Mac 电脑上是 Command + A),然后再按一次 Control + A(或 Command + A),以确保能够选中空行下面的数据。
路透社数据新闻编辑 Janet Roberts 表示,政府和市政机构经常更改其功能编码,而这可能在你收集他们的数据时发生——报道发表前,记者需要检查数据集中的所有数据是否指代同一事物。
“在圣保罗(明尼苏达州),我们正在对贫民窟房东进行调查,我们获得了建筑违规数据,准备找出哪个房东犯了某种违规行为最多,”Roberts 回忆道。“我们做了所有的数据分析——但结果发现,建筑部门在某个时间改变了代码,所以也许‘02’过去表示老鼠横行,但现在表示你没有清扫人行道,或者其他什么事。幸运的是,我们发现了这一点——尽管是在后期——因为如果我们没有发现,整个报道都将是错误的。”
她补充说:“这里潜在的错误是没有理解数据,没有与保存数据的人交谈,(我们需要)留意数据如何随着时间演变。”
尽管这是一个低级错误,但仍然是一个常见的错误,并可能在不经意间误导受众。“如果某个数据从20%跳到30%,实际上是增加了50%,而不是增加了10%——这可能很棘手,但需要特别注意,”Sunne 解释道。数据专家强调,百分比变化是指一个比率的变化,ebet易博真人平台而百分点变化则意味着数量的变化。为避免混淆,最好说某个数据“翻了一番”来描述100%的增加。“很多人不了解百分点和百分比之间的区别,”Sahejpal说。“同理,‘人均’——在同一句话中使用百分比和人均是不合理的,因为人均是指每个人。”
根据 Roberts 的说法,大的整数或数据行的整数,例如7000或2000,通常意味着记录搜索或数据传输的某种限制,而不是真实的总数。
“我们有数据显示,只有5000家公司提交了关于某件事的必需报告,我们想:‘确切地说是5000家?’”Roberts 回忆道。“这似乎很不寻常,而且数字很低。记者没有注意到的是,网站将搜索结果限制为5000条记录,而真实的结果是这个数字的三倍。”
“如果你有一个完全是 1000 或 10000 行的数据集,我敢打赌一定有什么地方出了问题,”Sahejpal 说。“而且之前有很多我的学生学生下载了一个文件,却没有意识到他们下载的是一个已经滤过的版本。另一个错误是,如果你没有检查数据集的范围是否等于政府网站上报告的范围。”
“美国的$1,753.00在拉丁美洲写作‘$1.753,00’——逗号、句号和撇号的位置不同——但电子表格没有考虑到不同的标点符号,”国际调查记者联盟(ICIJ)拉丁美洲协调员 Emilia Diaz-Struck 说:“如果你不考虑数字的来源,也有可能犯一些非常基本的概念性错误。”
即使在电子表格中检查了数据并与人工数据来源进行了核实,有经验的记者有时仍会觉得这些数据令人不安ebet易博真人平台,或与他们对该主题的了解相矛盾。ICT(前印第安国家今日)的高级编辑 Dianna Hunt 建议,记者应该尊重这种直觉,寻找其他或历史数据,或向学术研究人员请教,以独立核实这些数据,或至少确认它们在该主题的“合理范围”内。例如,这种直觉可能揭示了原政府数据收集者的重大错误,或者仅仅是输入阶段的小数点错位。
Hunt 说:“当某件事看起来有问题时,你需要关注你的直觉,这在我参与的一些调查中确实得到了回报。”
“在使用数据之前,你需要联系数据来源,了解每一列的含义,”Sahejpal 说。“或许你正在从一个有着完美方法论的网站上下载数据,但我敢肯定,你所查看的大部分数据在实际意义和非意义方面都不清楚。数据新闻领域的人们往往没有解释这一点,但实际上,我们与人们的交流比你想象的要多得多,我们并不只是盯着电脑屏幕。ebet易博真人平台”
他补充说:“与输入数据的人取得联系,比弄清楚如何处理他们的数据集要容易得多。”
Sahejpal 建议记者立即找出并明确指出那些数据集无法回答的相关问题。
他说:“作为编辑,我避免犯错的首要方法就是列出数据没有告诉你的内容。”他补充道:“我们称之为数据集的‘局限性部分’,它是你最强大的盟友,因为如果你知道它没有告诉你什么,你就明白不应该说什么,以及还需要提出哪些进一步的问题。”
Sahejpal 还指出:“例如,如果你有一个关于华盛顿特区停车罚单违规的数据集,你可以列出可能影响你分析的未包含的地区和变量。这样一来,你一开始就能掌握你所需的完整画面。接下来,你可以给负责数据的人打电话,确认你掌握的数据。”
媒体发布的图表或提供给记者的图表,有时会以一个任意数字,如“1500”而不是零,作为坐标轴的起点,这可能会让观众感到困惑,或者产生错误。“要对你发布的可视化内容持批判态度,”Sahejpal说。“确保检查X轴和Y轴,进行比较的变量,以及刻度尺,以确保准确性。在任何数据可视化中,都要观察刻度尺是否从错误的地方开始,或者变化的增量是否合适。我经常看到这种错误。”
排序数据通常是通过整理行来呈现简单的角度,例如,从最差到最好:如一列顶部的某种原因的最高死亡率,以下是表现较好的城镇。
在 Google 表格中排序相当简单,它甚至会弹出建议来协助,但它需要按照表格上的逐步顺序操作。
根据 ESPN 的数据记者 Tisha Thompson 的说法,记者可以尝试许多功能,但她警告说,记者务必不能忘记的一步就是在 Google 表格中排序时点击“左上角的方格”:选择列和行轴的空白框。这个框将排序列与整个数据集关联在一起。她说,忘记这个方格不仅会弄乱你的数字,而且可能在你发现错误之前就已经造成了损害。
“忽视左上角是你可能犯的最简单的错误,而这可能导致职业生涯的终结,”Thompson 警告道。“你需要确保你的数据与其他行和列保持关联,因此你需要突出显示整个数据集和排列。不要仅仅对单列进行排序;始终使用左上角——就像系鞋带一样。”
Rowan Philp 是全球深度报道网的资深记者,也是南非媒体 Sunday Times 的前首席记者。作为一名驻外记者,他曾在全球20多个国家报道新闻、政治、腐败和冲突。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。