数以万计的大数据在无时不刻地生产出来,它们拥有四个基本的特性——Volume、Variety、Velocity、Veracity,也被称为 4V。


Volume

数据的体量很大,现在的用户每天都在产生大量的数据,并且还在以每年 40% 的增速指数级增加。

相应的,也增加了数据处理的难度。

Variety

采集到的数据是各种类型的。

在数据源上包括了图像、文本、音频;在数据的组织方式上包括了几种不同的类型,如:结构化的关系数据库、未组织的文本数据、半结构化数据、图结构的数据等。

因此,如何将非结构化的数据转化到结构化的数据是当前的难点。

同时,如何利用好多源数据,利用好各个数据之间的关系也是我们所关心的问题。

Velocity

数据产生的速度很快,实时的数据流以从不间断的方式产生,需要做实时、快速的处理。

例如:导航时的行车数据、购物时的选择推荐等。

Veracity

现实世界中的数据并非完全正确有序的,往往伴随着杂乱无章的数据。

在数据处理的前期,我们需要通过各种手段剔除多余的信息,这样有助于我们去挖掘数据的隐含特征。