大数据是什么专业?
“数据”这个概念太大,先把它拆解一下——数字(量)+信息(质)=数据 从信息的角度来谈“数据”的问题,是比较合适的。 而谈到信息,就不得不谈谈什么是信息熵。 信息熵,是度量信息的不确定性的一个量化指标。 这个不确定性,可以理解为模糊性、随机性或不可靠等。 如果一个事物具有较大的信息熵,那就意味着我们对其了解得非常不确定,就像是一团模糊的雾,不知道里面隐藏着什么;而如果一个事物的信息熵相对比较小,那我们就比较能确定地知晓它的消息。
比如,我们在街头捡起一张纸条,上面的信息对我们来说是非常不确定的,因为有很多可能的组合——这张纸条可能来自任何地方,上面写着任何信息。这张纸条的信息熵很高。而如果你捡到的是一张信用卡账单,虽然仍然有许多不确定的地方,但是我们比较能掌握它大概的意义——这是商家(银行)发给持卡人(你)的一张告知账单明细的单据,信息熵就相对较小。
回到问题本身,从信息熵的角度来看大数据,大数据其实包含了两层含义。 第一层含义:大量数据的采集与存储。 这属于数据基础的工程,在技术上要解决两个问题:如何高效采集并传输大量的数据?如何高效存储巨量数据? 第二层含义:对数据进行智能的处理与分析。 这属于数据分析的智慧,在技术上要解决三个问题:怎样对海量数据进行实时处理?如何通过统计方法进行过滤和分析?如何解决大规模数据下的计算效率问题? 最后,大数据其实还可以进一步抽象为这样一层含义:通过对大规模数据的收集、整理和利用,发现新规律、创造新知识。