在完成了数据的手动预处理和样本描述文件的准备(处理教程:SnpHub搭建 | 数据预处理与样本描述文件准备)之后,就可以开始配置SnpHub实例了。
1. SnpHub框架下载
可以从GitHub上进行SnpHub框架的下载。下载方法可以是直接用git clone,也可以下载为zip文件。
git clone https://github.com/esctrionsit/snphub
2. 填写配置文件
从GitHub上下载的SnpHub中,有一个advanced_config.R
文件,其内容如下。
# filepaths
path_fa_index <- "./test/Aet_v4.0.fasta.fai"
path_geneindex <- "./test/geneinfo.txt"
path_vcf <- "./test/Aet.ann.bcf.gz"
path_gff3 <- "./test/Aet_v4.0.gff3.gz"
path_fasta <- "./test/Aet_v4.0.fasta"
path_metadata <- "./test/sample_name.txt"
path_groupdata <- "./test/group_info.txt"
path_sam_location <- "./test/location_info.txt"
path_sysinfo <- "./test/sys_info.txt"
path_UIsetting <- "./test/Aet.json"
不难发现,配置文件的每一项都是由配置项名称、->
和用引号引住的文件路径构成。例如第一项,就是对于配置项path_fa_index
,填入fasta文件的索引文件路径"./test/Aet_v4.0.fasta.fai"
path_fa_index <- "./test/Aet_v4.0.fasta.fai"
本配置文件中的大部分,都在数据处理教程(处理教程:SnpHub搭建 | 数据预处理与样本描述文件准备)中能够找到,同时下载的SnpHub自带一个demo数据集(位于./test/
路径下),因此不再赘述。
path_UIsetting
项记录了SnpHub实例每个功能页面的初始值,可参照demo文件填写。
不需要或信息缺失时的处理
对于path_sysinfo
和path_UIsetting
两项,在不需要时可填入NA
。
path_sysinfo <- NA
path_UIsetting <- NA
对于样本地理信息项path_sam_location
,不需要(或没有信息)时需要创建空文件,并将空文件路径填入。
对于分组信息项path_groupdata
,至少需要记录有一个分组,目前不能留空文件。
3. 特殊配置项目
3.1 使用自定义路径的SAMtools工具集与seqkit
打开配置文件setup.conf
,从第63行开始,可以分别定义各个软件的自定义路径
3.2 引入其他位置的R lib
在配置文件setup.conf
底部添加下述代码即可(路径替换成自己的)
.libPaths(c("/R_lib1", "/user/somebody/R_lib2", "/user/somebodyelse/R/lib3"))