Python实现的分布式计算框架:DPark -电脑资料

时间:2018-06-02 06:19:38
染雾
分享
WORD下载 PDF下载 投诉

DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算,

Python实现的分布式计算框架:D

Park

。 DPark 由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark 完成,正日趋完善。

import dpark file = dpark.textFile("/tmp/words.txt") words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1)) wc = words.reduceByKey(lambda x,y:x+y).collectAsMap() print wc

项目主页:http://www.open-open.com/lib/view/home/1370500999727

Python实现的分布式计算框架:DPark -电脑资料

手机扫码分享

Top