随着信息技术的飞速发展,互联网及各种新媒体信息已经取代传统纸媒成为人们获取信息的主要方式,这些信息具有非常宝贵的凭证价值和档案价值。如何归档和长期保存这些重要信息成为非常紧迫的问题。新华云互联网档案库采用SaaS服务的模式为用户提供服务。用户只需提供要归档的网址,系统就会自动完成归档工作,并提供相关的归档报告。
大数据时代的到来,使信息呈现出一个爆炸式增长,普通存储方式已经无法满足人们的需求。大数据时代,数据存取除了硬件介质更新优化,存取空间、时间、地点也不受限制,从本地硬件存取发展到网络云存取的无限容量,大数据到底是什么,到底有多大?
让时间倒回2014年9月9日,当时苹果公司(Aple)推出了一款手机iphone6,屏幕大小为4.7英寸,比以往型号的手机大了不少。广告文案为“ Bigger than bigger”。一开始,国内对该文案有很多“神”翻译,诸如“大无止境”“大有不同”“更大的逼格”“比逼格更有逼格”等,不胜枚举。最后,苹果香港公司给出了韵味十足的翻译:“岂止于大”,才使得这三个单词的翻尘埃落定。
借助苹果公司文案中的这个“大”字,我们也来说说“大数据”的内涵。对于大数据,我们首先要纠正一个容易犯错的概念,这就是“大数据”就等于“数据大”,其实不然,大数据岂止于大!
Forrester公司分析师 Brian Hopkins把针对大数据的“岂止于大”,定义的非常中规中矩:“Big is more than just big”。那么,大数据除了“大”,还具备什么内涵与特征呢?判断某些数据是不是大数据,依据何在呢?
其实,衡量大数据的标准,就是业界广为接受的4V特征(4个以V为首字母的英文描述):
由于IBM在大数据研究和应用方面的名气,很多人以讹传讹地认为,前三个V特征是由IBM首创提出的。事实上,最早用3v来描述数据特征的是麦塔集团(METAGroup)的数据分析员一一道戈・菜尼( Moug Lane)。2001年2月,他便撰写了篇名为“三维度数据管理:控制数据的体量、速度和多样性”的麦塔趋势预测报告。
针对日益庞大的电子商务发展趋势,这份报告分析了它在数据管理的三个维度方面( Volume、 Velocity和 Variety)遇到的挑战与机遇,这三个维度合称为“3V”。但菜尼当时所提的“3V”特征,是立足于电子商务的,和大数据时代的“3v”大相径庭。考虑到麦塔集团已被著名咨询公司高徳纳收购,因此,从某种意义上说,这“3V”特征还是由高德纳公司提出的。
2011年6月,国际数据公司发表了“从混沌中抽取价值”( ExtractingValue from Chaos)的报告,报告指出:大数据技术,描述了新一代的技术和架构,旨在通过高速地( Velocity)采集、发现和(或)分析,从超大容量( Volume)的、模态各异的( Variety)扫码寻宝数据当中,以非常经济的方式提取价值( Value)。
也就是说,在前面提到的3V特征的基础上,IDC给大数据添加了一个新的V特征一一Vale(价值),合计并称"4V"特征,流传甚广,广为接受。这4个V特征,就像4张滤网,可以过滤掉那些“伪”大数据。