zoukankan      html  css  js  c++  java
  • 总结

    工具
    nexus
    jira jenkins mirror

    统计和特征提取和建模
    关系分析 画像分析 轨迹分析
    时空关系计算
    数据挖掘算法
    数据可视化Echarts等(数据可视化案例palantir)
    预统计


    其他意见:
    1.流程
    入职流程、新人培养计划
    培训
    工作计划

    开发/代码规范
    版本维护/版本管理/发布管理
    ## NEW FEATURES ### BUG FIXS ### OPTIMIZATIONS 升级

    不同产品接口人
    产品发布管理
    机器管理


    功能和需求:
    大数据服务异常断电恢复
    大数据集群UPS
    HBase启动check和recover
    大数据日志集中管理,滚动,定期清理
    大数据安全(认证、基于角色授权、加密;Kerberos)
    大数据运维(安装部署、配置、监控、异常恢复、健康检查、日志管理、可视化操作、数据备份、告警)
    大数据接口(REST/WS/JDBC)
    数据迁移(ETL)
    数据统计/预统计
    大数据统一资源管理(资源弹性调度和隔离,动态回收,任务挂起)
    任务队列/任务优先级/资源抢占

    内部刊物(知识产权、竞争)


    技术
    适当的减少ES和Executor的内存也可以达到不错的效果,但是在核数降低时,对索引建立的速度影响较大
    在索引的建立过程中,也要注意索引的总shard数量,不能够分配太多的shard数从而影响到建立索引的速度。这里给出的建议是每个索引的shard最少不少于3个,
    最多不要超过20个。每个shard的大小最好控制在1-10G的范围内为最佳,根据shard数的大小来决定数据到底分配多少个索引。

    计算慢
    Spark增量加载占核太多
    HBase Region太大
    Spark长的计算链做checkpoint
    数据循环覆盖
    ES/Solr深度分页优化

    采集水平扩张,增加并发

    集群大时,硬盘损坏问题;磁盘写满问题;集群网络问题
    HBase坏块检查和修复

    Kafka NotLeaderForPartition
    原因:可能是Producer连接了follower而不是Leader尝试写数据,follower拒绝了请求。
    解决:restarting the brokers?
    Kafka hostname大小写问题


    基于表达式引擎实现可配置的Rowkey生成
    Groovy
    maven-assembly-plugin打包

    单元测试
    powermock-module-junit4 powermock-api-mockito powermock-module-junit4-rule-agent
    HBase单元测试
    本地启动一个HBase的mini集群
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-testing-util</artifactId>
    <version>1.2.0-cdh5.7.0</version>


    Keepalived启停
    启动命令/usr/local/keepalived/sbin/keepalived -D -d -S 0

    查看进程ps -ef|grep keepalived

    停止Pkill -9 keepalived

    验证同网段是否有相同virtual_router_id的集群
    tcpdump -nn -i any net 224.0.0.0/8


    修改日志输出路径:
    Keepalived默认所有的日志都是写入到/var/log/message下,由于message的日志太多了,而Keepalived的日志又很难分离出来,需要调整Keepalived日志输出路径。
    修改/etc/sysconfig/keepalived:

    vim /etc/sysconfig/keepalived
    把KEEPALIVED_OPTIONS="-D" 修改为KEEPALIVED_OPTIONS="-D -d -S 0"
    KEEPALIVED_OPTIONS="-D -d -S 0"

    设置rsyslog,修改/etc/rsyslog.conf:
    在vim /etc/rsyslog.conf里添加:

    # keepalived -S 0
    local0.* /var/log/keepalived.log

    重新启动keepalived和rsyslog服务:
    service rsyslog restart
    service keepalived restart

    查看keepalived日志
    在/var/log/keepalived.log里查看log

    Spark
    spark.cleaner.referenceTracking.cleanCheckpoints=true

    h属性应用

    1.结构化信息描述
    2.以图搜图
    3.广告投放
    4.个人视频智能应用

    h属性提取用了深度学习的卷积神经网络(CNN)

    算法考虑
    性能、耗时、内存、训练时间

    主流网络结构
    LeNet AlexNet/CaffeNet GoogleNet VGG/VGGMX DeepResudialNet

    属性太多时,不可能一个属性一个网络,大量耗时的工作放在共享卷积层,一个网络处理多个属性。人体属性采用多标签能获得较好性能

    大数据
    Kafka性能:1k每条数据,从进Kafka到可以消费,平均耗时5ms,最大不超过10ms

    公司
    新员工 -- 新员工培养计划
    综合知识竞赛 --(提升管理要求认知)


    Shell:
    结束进程
    val proInfo: Array[String] = Array("/bin/sh", "-c", "/usr/sbin/lsof -i:" + 8080 + "|grep -v COMMAND | awk '{print $2}' | xargs kill -9")
    Runtime.getRuntime.exec(proInfo)


    学习URL:
    http://www.runoob.com/scala/scala-break-statement.html
    阿里云栖社区
    https://yq.aliyun.com/articles/

  • 相关阅读:
    冷门Javascript API——element.insertAdjacentHTML
    一些CKEditor定制问题
    HTML中的base标签
    深入Require.js
    狂神说SpringMVC笔记
    GeoServer之Dispatcher类(Controller控制器)
    java之ThreadLocal<>线程
    java获取当前路径&文件读写
    GeoServer服务扩展
    Spring之getBeanNamesForType
  • 原文地址:https://www.cnblogs.com/warmingsun/p/7026511.html
Copyright © 2011-2022 走看看