本帖最后由 远牵 于 2022-2-24 15:37 编辑
脏数据
我们生活中每有不懂的问题冒出来,第一反应常是不假思索地百度,在那里总能找到想要的答案,不知不觉中我们对百度(知乎也算上)等的依赖越来越甚,它们解决了我们生活中的十万个为什么,俨然成了我们身边不可或缺的认知工具。百度知乎代表的这样网络时代的大数据不仅为我们提供了建立在算法之上的知识红利,也为我们的生活提供了互联共享的巨大便利,当我们搜索出答案,直接拿来用就可以了!
数据是个好东西!一一对此我深信不疑。直到最近的一件事儿让我知道了,原来大数据里也有渣渍,它们有个名字叫"脏数据″。
因为常用手机编辑文字的缘故,除了百度知乎这样的神助攻,一个叫讯飞语记的书写软件也甚得我心。语记的功能是强大的,强大到什么程度呢?有了它,牵笔君子基本不用牵笔就能出口成章,一气“呵”成,这感觉简直不要太好了!……可是当如果打开后发现1万个字符竟突然长翅膀飞走不见了,这不能不让人抓狂!情急之下问讯飞的人工客服,用了一个"时光机"的功能,总算恢复到字数最多的一个版本。当然这个"时光机"功能是付费的,语记的客服非常好,他们主动我报销了这笔费用,他们处理问题的能力无可挑剔,我只不明白的是,为什么好好的内容会无端丢失?还是从语记客服那里,我知道原来是有“脏数据”在从中作崇。
什么是“脏”数据?通俗来说,它是因数据重复录入、共同处理等不规范操作而产生的混乱、无效数据。这些数据不能为企业带来价值,反而会占据存储空间,浪费企业的资源。因此,这些数据被称为“脏”数据,脏数据不仅没有价值,还会“污染”其它的数据。一一以上信息来自百度。
这些脏数据,平常不显山露水,遇到问题它们就现形作怪,关键时刻还会耽误大事儿。
比如有问必答人尽可知的百度,几年前21岁的大学生魏则西通过百度找医院而延误治疗离世的事件让我们知道,原来数据被搜索到也是因着一定的机制在发挥着作用的,是大数据让你看到了这个而不是那个,大数据让你选择了这个而不是那个。大数据还以此为链条让你一条道儿走到黑,大数据让你必须承受你选择的结果,大数据同时也限制了我们的想象。
还可以想见的是,大数据会让喜欢坐享其成的聪明人变成傻瓜,也会让我这等笨人越来越笨。因为,基于"共同处理等不规范操作而产生的混乱、无效数据"这样脏数据的形成机制,有不便示于人前的深层利害关系,而这才是脏数据"真正"脏"的地方。
在这两天对徐州某县事件的省调报告中,出现的"认定杨某侠即小花梅"的DNA数据用的数据,不知是最新采样的可以经得起检验的数据还是当时为了上户囗上报给DNA数据库的"未比中"的原始数据,这个DAN数据有没肖可能因为当时某些失职人员的"不规范操作"而成为脏数据呢,如果脏数据被使用,让鹿变成了马,这样得出来的"真相"是真相吗?
至于人像鉴定特征,不知采用的又是什么数据,既承认"与实际容貌有差异″,说辞也是煞费苦心,但最终还是指向鹿脸就是马脸。本省查本省的单方面的调查有自扫门前雪的局限,除非上一级部门或独立第三方出面调查,否则其立场难脱显失公正的嫌疑。
报告里还提到“走访4600余人次、调阅档案材料1000余份”,这样的数据看上去既确定又不确定,从数量上看无疑是可观的,但先不说这些数据是否必要,以及这些数据在这短短几天里的完成度怎样,只要把关键的核心数据凿实,而非无效数据的堆砌,更非脏数据的干扰,这样的数据才能指向真相,也就是说,实事求是的数据才能让真相具有信服力。
至于遗害无穷的脏数据,因为它的漏洞百出会导致系统难以为继,相信它们最后一定都会被时间修正。
(1536字)
|