zoukankan      html  css  js  c++  java
  • 蓝鲸6.0前置准备

    准备工作:

    在配置install.config 之前,我们可以做以下操作可以降低机器内存的使用:

    修改es的jvm的堆内存值

    在中控机上修改脚本:/data/install/bin/install_es.sh
    JVM_MEM=$(awk '/MemAvailable/{print int($2/1024/1024/2)}' /proc/meminfo) 给定一个较小值
    如:JVM_MEM=2 建议
    
    修改saas模板的线程数
    在中控机上修改模板文件:/data/src/paas_agent/paas_agent/etc/templates/docker/uwsgi.ini
    将"workers = 16" 改成"workers = 8"
    
    永久修改saas超时时间
    在中控机上修改模板文件:
    /data/src/open_paas/support-files/templates/paas#conf#settings_production.py.tp
    任意位置添加: EVENT_STATE_EXPIRE_SECONDS = 3600
    /data/src/paas_agent/support-files/templates/#etc#paas_agent_config.yaml.tpl
    EXECUTE_TIME_LIMIT: 300 改为 EXECUTE_TIME_LIMIT: 30000(考虑到咱们机器慢,可以加大这个时间)
    

    配置install.config

    安装基础平台
    install.config文件直接拷贝官网文档上”1.5 生成并配置 install.config”模板

    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
    

    安装监控平台

    deply_iplist地方的填写的ip如下:
    
    deply_iplist:10.0.0.3,10.0.0.2,10.0.0.1
    注:请按照上面ip的填写顺序填写。
    

    配置文件如下:

    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
    [bkmonitorv3]
    10.0.0.3 kafka(config),monitorv3(transfer)
    10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
    10.0.0.1 es7,monitorv3(monitor)
    

    安装日志平台

    deply_iplist填写的ip如下:
    
    deply_iplist: 10.0.0.2
    

    安装故障自愈

    deply_iplist填写的ip如下:
    deply_iplist: 10.0.0.2
    
    最终生成install.config如下:
    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
    [bkmonitorv3]
    10.0.0.3 kafka(config),monitorv3(transfer)
    10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
    10.0.0.1 es7,monitorv3(monitor)
    [bklog]
    10.0.0.2 log(api),log(grafana)
    [fta]
    10.0.0.2 fta,beanstalk
    

    ####################################################
    故障解决方法
    1.【社区版 6.0】 监控平台数据未上报排查思路
    https://bk.tencent.com/s-mart/community/question/1672
    2.glibc和glibc-common版本冲突解决
    https://blog.csdn.net/qq_38695182/article/details/85295105
    3.nginx配置访问密码,输入用户名和密码才能访问
    https://feiutech.blog.csdn.net/article/details/82817874?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control
    4.配置消息通知:邮件
    https://bk.tencent.com/docs/document/6.0/148/8700
    5.标准运维远程加载 https://gitee.com/rustylee/doc/blob/master/标准运维/标准插件远程加载.md
    (仓库链接 https://gitee.com/rustylee/plugins_example.git
    文件托管仓库链接 https://gitee.com/rustylee/plugins_example/-/raw/
    分支名 master
    根模块 版本 导入模块
    custom_plugins 1.0.0
    custom_plugins.components.collections.test1)

    邮箱配置 https://gitee.com/rustylee/doc/blob/master/PaaS平台/配置邮箱通知.md
    ###########################################################################
    1 系统limits配置不当,无法正常安装SaaS应用
    安装官方文档正常配置limits即可
    cat >> /etc/security/limits.conf << EOF
    root soft nofile 102400
    root hard nofile 102400
    EOF
    2 DNS配置文件首行非nameserver 127.0.0.1,导致无法正常解析
    6.0不会自动在系统/etc/resolv.conf中添加consul服务器地址,需要手动添加
    sed -i '1inameserver 127.0.0.1' /etc/resolv.conf
    3 安装paas多处报错
    检查3台主机名是否相同,若相同需要修改
    4 CLUSTER_IP_LIST(-j) 不能为空,部署paas失败,提示Exited woth error code 1
    检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
    检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
    若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤
    chattr -i ~/.tag/
    rm -rf ~/.tag/
    rm -rf /data/install/bin/01-generate/
    rm -rf /data/install/bin/02-dynamic/
    rm -rf /data/install/bin/04-final/*
    echo "" > /data/install/.bk_install.step
    ./bk_install common
    机器上执行命令看是否能获取到正确的ip

    ip route get "10.0.0.1" | awk '{print $NF}'
    若是无法获取到,请自行修改 /data/install/bin/update_bk_env.sh 脚本第61行,只要能获取到ip即可
    若是以上均正常,请查看
    pcmd -m all "echo $BK_CONSUL_KEYSTR_32BYTES"
    若是为空,说明 ./bk_install common 没生成dbadmin相关配置。需要重新生成
    5 安装paas的时候报错,Stderr: Command “python setup.py egg_info” failed with error code 1 in /tmp/pip-build-1vs9US/virtualenvwrapper/ Python工程安装virtualenvwrapper=4.8.4 报错
    source /data/install/utils.fc
    ssh $BK_PAAS_IP
    /opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip stevedore1.32.0
    /opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper
    4.8.4"
    6.部署job报错
    all_iam_api fail,method: http_post path: /api/v1/model/systems/bk_job/actions error: bad request: action id [accessbusiness] related resource type [biz] not exists
    execute operation [ upsert action] bad request : action id [ access business ] related resource type [ biz ] not exists fail,error message : id = access busmigrate [ / data / src / job / support-files / bkiam / 0001 bk job 20200808-1000 iam ison ] failIta / src / job / Support-files / bkiam / 0001 bk job _ 20200808-1000_iam.json import err, Abort.
    解决思路
    (1)、检查iam服务是否正常
    systemctl status bk-iam.service
    若是iam服务一次请查看日志处理,启动iam服务
    若是iam正常,请检查是否可以正确获取业务id

    /data/install/health_check/check_cmdb_blueking_id

    若是获取失败请初始化下cmdb

    ./bkcli stop cmdb
    ./bkcli start cmdb
    pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
    ./bkcli initdata cmdb //若是initdata 失败请查看cmdb日志
    7.部署fta报错 登录到fta机器执行

    /opt/py27/bin/pip install --no-index --find-links=/data/install/pip stevedore1.32.0
    /opt/py27/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper
    4.8.4
    8.安装pass平台报错CLUSTER_IP_LIST(-j)不能为空
    检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
    检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
    若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤
    chattr -i ~/.tag/
    rm -rf ~/.tag/
    rm -rf /data/install/bin/01-generate/
    rm -rf /data/install/bin/02-dynamic/
    rm -rf /data/install/bin/04-final/*
    echo "" > /data/install/.bk_install.step
    ./bk_install common

    8.部署job报错找不到bkid
    检查iam服务是否正常
    systemctl status bk-iam.service
    若是iam服务一次请查看日志处理,启动iam服务
    若是iam正常,请检查是否可以正确获取业务id
    /data/install/health_check/check_cmdb_blueking_id
    ./bkcli stop cmdb
    ./bkcli start cmdb
    pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
    ./bkcli initdata cmdb //若是initdata 失败./bkcli restart bkiam
    9.部署 bknodeman(节点管理)超时
    (1)、更改paas所在的主机
    /data/bkce/open_paas/paas/conf/settings_production.py
    EVENT_STATE_EXPIRE_SECONDS = 3600
    HISTORY_EVENT_STATE_EXPIRE_SECONDS = 9000
    (2)、更改appo所在的主机
    /data/bkce/paas_agent/paas_agent/etc/paas_agent_config.yaml
    EXECUTE_TIME_LIMIT: 3000
    ./bkcli restart appo
    ./bkcli restart paas

    10.请求系统'metadata_v3'错误,返回错误码: 400,返回消息: 400: {"results":[{"error":"get cluster failed"}]},请求URL: /get_ts_data/
    cd /data/install/
    ./bkcli start bkmonitorv3 influxdb-proxy
    或者

    systemctl start bk-influxdb-proxy.service
    11.安装job报错
    /etc/host手动添加地址

    12.安装组件时出现“SaaS App应用当前状态:正在上线,不能进行部署操作!”
    域名+/admin/app/app/ 选择相应saas进去修改应用开发状态为(测试中),可在终端重新部署。
    13.蓝鲸监控主机无上报数据
    (1). 手动启动basereport、processbeat进程
    /usr/local/gse/plugins/bin/start.sh basereport -c /usr/local/gse/plugins/etc/basereport.conf
    /usr/local/gse/plugins/bin/start.sh processbeat -c /usr/local/gse/plugins/etc/processbeat.conf
    (2). 检查monitor状态是否有异常
    ./bkcli check monitorv3
    ./bkcli status monitor3
    (3). 重启
    ./bkcli restart monitor3

    14../bk_install common 报错
    检查yum源及epel源,更换为腾讯
    wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
    wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
    15.安装到bk_install paas时consul 报错
    (1)、检查selinux 防火墙等是否关闭,或者策略是否开放
    (2)、检查consul 服务是否启动
    ./bkcli status consul
    (3)、consul 未组成集群
    install.config 中的ip必须有唯一对应的主机名
    时间需要同步
    consul members 查看集群状态
    (4)、可以查看consul日志

    /var/log/consul/consul.log
    15.安装itsm报错
    /data/bkce/logs/paasagent/agent.log appo机器看下部署日志
    查看各个状态是否正常,如果出现异常可重启后,都正常后再次安装
    ./bkcli status bkiam
    ./bkcli check bkiam
    ./bkcli status cmdb
    ./bkcli check cmdb
    16.JOB安装agent报错:get agent status error, [3800003] {'message': 'Fail to connect GSE service. Please check if GSE service is normal
    (1)、./bkcli restart gse
    再尝试部署agent
    (2)、agent机器查看是否能连接上gse的48533端口

    netstat -ptn | grep 48533
    17.社区版 6.0 基础包快速部署,执行./bk_install common 提示pssh不存在
    (1). 更新yum源
    wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
    wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
    yum clean all
    yum makecache
    (2). 更新后执行
    cd /data/install/
    ./bk_install common
    18.JOB安装:do migrate [/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json] fail
    /data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json import err, Abort.
    解决方法:./bkcli restart bkiam
    ./bkcli initdata cmdb
    19.监控平台check错误信息:请求系统'metadata_v3'错误,返回错误码: 500,返回消息: b'{"results":[{"error":"no backend available now"}]}',请求URL: /get_ts_data/
    解决方法:cd /data/install/
    ./bkcli start bkmonitorv3 influxdb-proxy
    或者
    systemctl start bk-influxdb-proxy.service
    登录influxdb主机
    source /data/install/utils.fc
    ssh $BK_ZK_IP
    systemctl restart influxdb
    20.部署 蓝鲸SaaS(bk_fta_solutions) 1 分钟后报超时错误 ,日志显示APIError: rewrite request failed, oops, there is no topo can be used
    按顺序执行以下
    ./bkcli stop cmdb && ./bkcli start cmdb && ./bkcli initdata cmdb && ./bkcli restart cmdb
    21.安装saas时报错, "Can't connect to MySQL server on 'mysql-default.service.consul'
    cd /data/install && ./bkcli check consul
    有问题重启即可

    ##################################################################
    配置邮件通知参数
    (开发者中心-蓝鲸消息通知-发送邮件)
    smtp_host :smtp.qq.combr/>smtp_port:465
    smtp_user:275374785@qq.com
    smtp_pwd :kfumorvzmryqbjiabr/>smtp_usessl:True
    smtp_usetls:False
    mail_sender:275374785@qq.com
    #################################br/>admin常用邮箱:wujiatong@esharex.com
    登录密码:Nuonuo1314
    ##################################
    Postman测试:
    (示例:http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/?bk_app_code=bk_sops&sender=275374785@qq.com&title=<吴佳桐>; 考试邮件测试&content=<吴佳桐> 考试邮件测试&bk_app_secret=2cba76bc-b10f-437f-b40f-0bcfdb2cb69e&bk_token=WI8TO_mdtWeEgo_skrb0_d2EXhduCTCtgUXTM7pRT8E&receiver=wujiatong@esharex.com)
    GET http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/br/>bk_app_code:bk_sops
    sender:275374785@qq.com
    title:<吴佳桐> 考试邮件测试
    content:<吴佳桐> 考试邮件测试
    bk_app_secret:开发者中心-S-mart应用-应用TOKEN
    bk_token:web页面-f12-f5-network-console-Cookies-bk_token
    receiver:wujiatong@esharex.com

    努力到无能为力,拼搏到感动自己。
  • 相关阅读:
    Android引导页设计
    QQ5.0左侧滑动显示效果
    QQ左侧滑动显示之按钮切换
    QQ左侧滑动显示之自定义属性
    HDU 4009——Transfer water——————【最小树形图、不定根】
    HDU 2121——Ice_cream’s world II——————【最小树形图、不定根】
    POJ 3164——Command Network——————【最小树形图、固定根】
    HDU 5532——Almost Sorted Array——————【技巧】
    UVA 10462 —— Is There A Second Way Left?——————【最小生成树、kruskal、重边】
    HDU 4081—— Qin Shi Huang's National Road System——————【次小生成树、prim】
  • 原文地址:https://www.cnblogs.com/jin-yuana/p/14801758.html
Copyright © 2011-2022 走看看