arp 是dremio 提供的一个高级关系下推框架,可以方便我们开发自定义的数据连接器
arp 开发流程
- 结构 (比drill 开发方便多了)
存储插件配置 [data source]Conf,java
插件arp yaml 定义文件 [data source].arp.yaml - 说明
配置定义了,界面如何进行连接配置,以及数据驱动如何使用
arp yaml 文件,可以进行sql 查询的修改,可以进行不同数据类型、函数,以及重写
arp 文件格式
- 包含的部分
主要包含以下几个部分
Metadata 高级元数据信息
Syntax 语法
Data types 定义了jdbc 驱动的数据类型以及如何与dremio 类型映射
Relational Algebra 包含以下部分
Aggregation 指定聚合算法,可以进行重写
excep/project/join/sort/union/unpin_all/values 自定操作的支持情况
exressions 概述操作的支持
operators 概述标量操作的支持,同时可以进行重写
variable_length_operators 定义标量支持的操作的数量,比如and、 or (算是逻辑操作)
参考模板
说明
dremio 的arp 开发是扩展数据连接一个很不错的选择,同时开发也不是很难, 实际中如果大家为了方便我们可以直接集成
maven-shade-plugin 方便jdbc 驱动依赖的集成,后边尝试写一个简单的驱动插件,同时如果注意观察,会发现有些开源的扩展
对于ui 部分使用了一个json 定义文件,这样编写插件就更简单了
参考资料
https://www.dremio.com/tutorials/how-to-create-an-arp-connector/
https://github.com/panoramichq/dremio-bigquery-connector
https://github.com/dremio-brock/dremio-dynamodb-connector