huozm32831 |
2021-11-16 21:27 |
以前之所以没有大数据分析近两年才有,有一个很关键却很容易被忽视的原因:现在是互联网时代,以前不是,20年前网络到底是什么很多人都不知道,哪怕有大量数据、如超过10tb的数据集放在你的手中,但也无法简单通过人力、纸笔做分析,甚至连一本500kb的书籍看完都要好几个月,更何况是10tb的数据,等人力看完了早就过了对应的时效性了。而随着互联网的高速发展,各种软件、系统层出不穷,大数据分析也随之而生。
大数据分析用什么软件
那么,到底大数据分析用什么软件?下面就由我来具体分析和介绍一下,希望对大家有所帮助。
1、hadoop,在谈及hadoop的时候不少人会将它直接等同于数据分析,可见它有多重要。Hadoop乃是一个软件框架,它能对大量数据进行分布式处理,它可靠高效又可伸缩。具体来说,它在设定时就已经融入了一个想法“假设计算元素和存储会失败”,因为它可维护多个工作数据副本,就失败的节点再次进行二次分布。它同时还是可并行的方式,因为可并行所以处理起来的速度更快。还有,hadoop也是可伸缩的,它能处理达到pb级数据。更重要的是,hadoop还有高的扩展性,它能利用计算机的分配数据完成计算任务。
2、Hpcc,在1993年的时候美国提交了重大挑战项目,它就被称呼hpcc计划,也叫做美国总统科学战略项目,该项目包含了hpcs、asta、nren、brhr、iita等诸多部分,翻译成中文分别是高性能计算机系统、先进软件技术与算法、国家科研与网络教育、基本研究与人类资源、信息基础结构技术和应用,而现在hpcc已经不再单纯代表着以上这些了,它还是一个可被用于大数据分析的软件工具。
3、Storm,它乃是开源软件,系分布式的、容错性强的计算系统,它的主要特色体现在:能用来快速处理十分庞大的数据量,而且它还支持不同编程语言,用起来感觉不错。Storm乃是由twitter开源来的,它的应用领域极广,包含实时分析、在线机器学习、rpc、etl等等。
4、Apache drill,它乃是一种查询软件,主要的价值体现在:能用来寻找更有效快速查询数据的方法。
关于大数据分析一些人会错误的认为,只要将以上软件系统都get起来即可,其实不然大数据分析是一个跨学科岗位,除了要懂软件外还得了解算法、统计学、概率学等等学科,学会软件只是具备了基础哦。 |
|