‘数据挖掘’理论出现了几十年。但在工业界的成功应用并不多。笔者认为:重要的原因之一是缺乏一个合适的数据分析处理理论。笔者认为:用好工业大数据需要关注三个要点:
1、可靠性。可靠的结论才能用于工业实际。在本人看来,所谓可靠性,包含精确性、适用范围的广泛性和适用范围的可知性。现实中,绝对的可靠是不存在的,我们只能追求相对的可靠。相对的可靠,可以由尽量多的、独立的知识或分析结果来支撑。要做到可靠,就不能仅仅满足与‘相关性’,而是要尽量关注‘因果性’。
这一点,工业大数据与商务大数据的理论是矛盾的。同时,可靠性要求我们尽量使用传统的、有坚实理论基础的统计方法——只是不能盲目适用这些方法,要关注对适用条件的验证和构造。
2、超越性。新发现的知识一定要超越人的认识,否则就没有价值。在商务活动中,人的认识相对模糊,大数据研究容易得到超越性的结果。在工业领域,人们对物理对象的了解往往非常深刻。肤浅的研究很难超越人的经验。这时,要让新知识超越人的经验,往往要以精确定量为基础的。
我们不宜将发现不同于经验的知识作为研究目标:在工业领域,与专家认识不同的结论多数是错的。有例外的话,也往往是量变引发质变造成的——这种现象,正是以结论的精确定量为前提的。
3、嵌入性。大数据的应用必须嵌入合适的流程。一般来说,仅仅满足于发现知识并不能创造价值。在工业应用中,常见的做法是将新发现的知识嵌入到生产和管理流程中去。最好用模型为载体来实现,促进流程的智能化。众所周知,商务大数据的应用一般要结合新的商业模式。这一点,工业大数据与商务大数据是相通的。