切换到宽版
  • 535阅读
  • 0回复

[数码讨论]学习大数据需要了解Python吗?有什么联系? [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
105353
金币
1246
道行
19523
原创
29307
奖券
17126
斑龄
188
道券
10111
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 19504(小时)
注册时间: 2007-11-29
最后登录: 2024-09-20
只看楼主 倒序阅读 使用道具 楼主  发表于: 2021-10-12
— 本帖被 兵马大元帅 执行锁定操作(2024-02-28) —
        现如今,说起大数据大家都比较熟悉了,大数据作为目前火热的一个行业,越来越多的人投入到大数据行业当中来。很多人新手在学习中会问到,学习大数据需要了解Python吗?他们之间又有什么联系?今天我们就来一起看看。



学习大数据为什么需要了解Python?

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

而Python作为公认的适合大数据的语言,想要做大数据开发和大数据分析,不仅要用到Java,Python也是非常重要的一个核心。

大数据和Python之间有什么联系?

了解大数据之后你会知道,大数据想要成为信息资产的话,需要有两步,一是数据怎么来,二是数据处理。

数据怎么来:

数据挖掘成为很多公司的首选,这对他们的业务方向能有很大的帮助,比较大多的公司是没有能力产生这么多数据的,所以需要依靠数据挖掘。

而网络爬虫是Python的传统强势领域,最流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的类库。

网络爬虫不仅仅是很多人想象的那么简单的,不仅仅只是打开网页,解析html那么简单,高校的爬虫技术能够同时爬取几千甚至上万的网页,而传统的技术是达不到这个程度的,传统的线程方式资源浪费比较大。

Python能够很好的支持协程操作,基于此发展起来很多并发库,如Gevent、Eventlet,还有Celery之类的分布式任务框架。被认为是比AMQP更高效的ZeroMQ也是较早提供了Python版本。有了对高并发的支持,网络爬虫才真正可以达到大数据规模。

数据处理:

挖掘出数据之后,下一步是需要去处理,这样才能帮助企业找到适合自己的数据,数据处理这一块大多都使用的是Python,Python作为一门工程性语言,数据科学家用Python实现的算法,可以直接用在产品中,这对于很多公司节省成本是非常有帮助的。
1条评分金币+15
兵马大元帅 金币 +15 优秀文章,支持!n神马都是浮云 02-22
山庄提示: 道行不够,道券不够?---☆点此充值☆