zoukankan      html  css  js  c++  java
  • DPark安装及相关资料整理

    最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。

    不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。

    这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。

    1. DPark一句话简介:

    DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆。

    2. python2.6下DPark安装:

    git clone git://github.com/douban/dpark.git
    cd dpark
    python setup.py install

    DPark使用easy_install进行安装,我这边没有setuptools,因此安装下:

    yum -y install python-setuptools

    问题继续出现,如下:

    error: Couldn't find a setup script in /tmp/easy_install-riZxUs/protobuf-2.5.0.zip

    坑爹,查了很久才在protobuf的google code中的issue 66中发现了如下说明:

    #52 gregory....@gmail.com

    Workaround: use easy_install's --allow-hosts options to force downloading from PyPI:
    
    easy_install --allow-hosts pypi.python.org protobuf
    
    Worked for me

    配置了easy_install的下载域名:

    easy_install --allow-hosts pypi.python.org protobuf

    之前的错误消失了,个人推测是之前默认下载google code的protobuf有问题?麻烦知情者告诉我一声,非常感谢!

    新的错误总是会出现,又来:

    error: Setup script exited with error: command 'gcc' failed with exit status 1

    这个问题一般是由于缺少python-dev包导致的,继续装吧!

    yum -y install python-devel

    总算OK了,对python不熟确实不行,最近只是学习了python的语法,各种常用包的使用还不太清楚,需要继续努力。

    3. 最后附上DPark的一些资料

    官方中文wiki: https://github.com/jackfengji/test_pro/wiki

    google group:https://groups.google.com/forum/#!forum/dpark-users

    支持迭代计算的MapReduce框架PDF:http://velocity.oreilly.com.cn/2011/ppts/dpark.pdf

    没了。。好惨。有知道其他资料的麻烦继续告诉我,多谢!

  • 相关阅读:
    怎么分辨是eclipse还是 android studio开发的
    一个帖子学会Android开发四大组件
    Android Studio ADB响应失败解决方法
    500 OOPS: could not read chroot() list file:/etc/vsftpd/chroot_list
    理解 with递归调用 Sqlserver 树查询
    SQLServer树查询
    数字证书原理【转】
    linux 基础命令
    项目经验分享[转自min.jiang]
    ios
  • 原文地址:https://www.cnblogs.com/iblaze/p/DPark_install.html
Copyright © 2011-2022 走看看