拣着测、挑着存、采着样处理,问题在于自我选择机制导致的低数据质量。有个老外写了本书叫《Raw data is an oxymoron》,直译是“原始数据的说法是一种矛盾修辞法”。因为数据不是自然资源,它不是“原始”的,它是带着文化背景和主观倾向的人去产生和解释的,带入了自我选择机制,从前数字时代到数字时代,无一例外。所以,必须尽量地减少主观性。第一,尽量由“机器”来决定采什么、哪里采。拿在程序里加日志为例,可以通过源代码分析工具来自动插入日志的写入点。第二,如果是答案产生的过程本身带有主观性(如民意调查),那数据采集可能需要设计成多变量(如通过问很多问题)来约束主观误差。第三,尽量把数据采集和存储纳入基础框架,而不是来一个业务做一种采集/存储方案。