zoukankan      html  css  js  c++  java
  • S2X环境搭建与示例运行

    S2X环境搭建与示例运行

    http://dbis.informatik.uni-freiburg.de/forschung/projekte/DiPoS/S2X.html

    环境

    依赖

    根据 pom.xml 文件,S2X 主要有以下六个依赖包

    结构

    java文件名 引用包 功能
    QueryExecutor.java log4j:一个打日志的包
    spark:操作spark的包
    jena:用于操作sparql的包
    1. 将args交给 ArgumentParser 解析
    2. 使用SparkFacade创建spark上下文
    3. 使用SparkFacade加载 HDFS (实例层)文件
    4. 处理查询语句
    - 使用IntermediateResultsModel清理中间值
    - 使用jena.query.QueryFactory解析并生成query对象、处理前缀、编译query
    - 使用AlgebraTranslator从opRoot开始对query进行重写,并获得可执行序列
    - 通过SparkOp.execute()开始执行顺序序列中元素
    ArgumentParser.java cls:一个处理命令行的包
    log4j:一个打日志的包
    de.tf.uni.freiburg.sparkrdf.constants.Const:工程内另一个包
    1. 解析命令行参数
    2. 将参数传递至de.tf.uni.freiburg.sparkrdf.constants.Const中

    环境搭建步骤

    1. 安装并配置好 jdk1.7jdk1.8

    2. 访问网站,下载并安装 Eclipse Kepler Package 并解压,建议选择 JavaEE 并使用国内镜像下载

    3. 配置 Maven 环境

    4. 配置scala环境

    5. 配置spark环境

      • 根据 pom.xml 中的信息,理论上应该下载基于 Scala 2.10Spark 1.2-CDH5.3.0版本,然而我并找不到。。暂时下载了spark-1.6.0-bin-hadoop2.6.tgz
      • 解压,并将 bin 目录加入 path
    6. 配置hadoop环境

      • 根据上一步,下载hadoop2.6.0
      • 解压,新建环境变量 HADOOP_HOME ,并填入解压目录(很关键)
      • 将 bin 目录加入 path
      • 开启 cmd,运行 spark-shell,若出现"java.lang.NullPointerException, not found: value sqlContext",请参考连接:https://blog.csdn.net/u011242657/article/details/53968135
      • 最后新建 cmd 窗口,运行 spark-shell,出现以下两句话,视为 spark 与 hadoop 环境配置成功,参考:Spark在Windows下的环境搭建
        • Spark context available as sc.
        • SQL context available as sqlContext.

    关于 5、6 两步,官方推荐使用 Cloudera's Distribution of Hadoop CDH,我暂时也没有弄明白 CDH 是什么

    运行项目

    1. 从 github 仓库 clone 项目

    2. 打开Eclipse Kepler,File->import->Existing Maven Project->选择仓库中src文件夹,一路确定,等待 Maven 自行下载所有包

    3. 准备好数据,我使用的是里海大学提供的可自动生成的数据集 LUBM1.nt 约包含 13 万条三元组数据。

    4. 如果是在windows上运行代码,需要修改几行代码:

      • 修改 args 参数

        • 由于在 Spark 上运行代码,需要将代码整理为 jar 包的形式,在测试时需要提前设置命令行参数,或者直接在 QueryExecutor.javamain 函数中第一行中修改 args 变量( -l 参数很关键 ):

          args=new String("-i c:/Users/chenyanji/Downloads/S2X_DATA/lubm1.nt " +
                          "-mem 2g " +
                          "-q c:/Users/chenyanji/Downloads/S2X_DATA/query3.new " +
                          "-t c:/Users/chenyanji/Downloads/S2X_DATA/Record.txt " +
                          "-p -l -jn chenyanjiTest").split(" ");
          
      • 修改 SparkFacade.java

        • 程序开始运行后,首先通过 SparkFacade.LoadGraph() 加载图,LoadGraph 需要先判断路径(父目录与参数目录进行拼接)下是否存在图(看起来使用的是相对父目录的路径),随后根据上一步的参数选择使用哪种方式读取图,这里将路径进行修改
        • 删去 fs.getHomeDirectory().toString()

    运行结果:

    ...
    18/10/23 10:00:43 INFO run.QueryExecutor: Started Graph loading
    18/10/23 10:00:56 INFO run.QueryExecutor: Finished Graph Loading in 12958 ms
    18/10/23 10:00:56 INFO run.QueryExecutor: Started query file: c:/Users/chenyanji/Downloads/S2X_DATA/query3.new
    18/10/23 10:00:56 INFO run.QueryExecutor: Started BGP
    18/10/23 10:01:05 INFO run.QueryExecutor: Finished BGP in 8713 ms
    18/10/23 10:01:05 INFO run.QueryExecutor: Started Result
    18/10/23 10:01:06 INFO run.QueryExecutor: Finished Result in 798 ms
    18/10/23 10:01:06 INFO run.QueryExecutor: Started Projection
    18/10/23 10:01:06 INFO run.QueryExecutor: Finished Projection in 6 ms
    18/10/23 10:01:07 INFO run.QueryExecutor: Result count 6
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication4>
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication2>
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication0>
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication5>
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication1>
    ?x
    <http://www.Department0.University0.edu/AssistantProfessor0/Publication3>
    
    

    待解决的问题

    1. -so 参数
      • GraphLoader 在加载图时,如果命令中存在 -so 参数,则最后将生成 verticeedge 信息对应的 object 文件,但是文件路径会有一个问题:操作系统中不能存在同名文件与文件夹,因此以本地模式运行代码时不能在参数中添加 -so
  • 相关阅读:
    office2007快捷键
    To be solved
    网址Favorites
    C#网址
    developer's website
    Visual Studio快捷键
    如何跟进大客户?
    这些话让我们意识到流程的重要性
    恭祝大家情人节快乐!
    知已知彼,大客户管理10策
  • 原文地址:https://www.cnblogs.com/ChildishChange/p/9803620.html
Copyright © 2011-2022 走看看