[大叔基础系列]
【原创】大数据基础之SPARK(9)SPARK中COLLECT和TAKE实现原理
【原创】大数据基础之SPARK(8)SPARK中JOIN实现原理
【原创】大数据基础之SPARK(7)SPARK读取文件SPLIT过程(即RDD分区数量)
【原创】大数据基础之SPARK(6)SPARK RDD SORT实现原理
【原创】大数据基础之SPARK(5)SHUFFLE实现原理及代码解析
【原创】大数据基础之SPARK(3)SPARK THRIFT实现原理及代码实现
【原创】大数据基础之SPARK(2)SPARK ON YARN:CONTAINER MEMORY ALLOCATION容器内存分配
【原创】大数据基础之SPARK(1)SPARK SUBMIT即SPARK任务提交过程
【原创】大数据基础之HIVE(2)HIVE SQL执行过程之SQL解析过程
【原创】大数据基础之HIVE(1)HIVE SQL执行过程之代码流程
【原创】大数据基础之HDFS(2)HDFS副本数量检查及复制逻辑
【原创】大数据基础之HDFS(1)HDFS新创建文件如何分配DATANODE
【原创】大数据基础之OOZIE(3)OOZIE从4.3升级到5.0
【原创】大数据基础之DRILL(2)DRILL1.14+HIVE2.1.1运行
【原创】大数据基础之DRILL(1)简介、安装及使用
【原创】大数据基础之ZOOKEEPER(1)介绍、安装及使用
【原创】大数据基础之ElasticSearch(1)简介、安装、使用
【原创】大数据基础之ElasticSearch(2)常用API整理
【原创】大数据基础之Ambari(2)通过Ambari部署ElasticSearch
【原创】大数据基础之Ambari(3)通过Ambari部署Airflow
【原创】大数据基础之Ambari(4)通过Ambari部署Impala
【原创】大数据基础之Ambari(5)通过Ambari部署Hue
【原创】大数据基础之CM5(Cloudera Manager)+CDH5离线安装
【原创】大数据基础之Mesos+Marathon+Docker部署nginx
【原创】JAVA基础之FREEMARKER(1)模板加载及清空机制
【原创】Java基础之Nginx缓存
【原创】Linux基础之redhat6升级glibc-2.12到2.14
[大叔经验系列]
【原创】大叔经验分享(27)linux服务器升级glibc故障恢复
【原创】大叔经验分享(26)hive通过外部表读写elasticsearch数据
【原创】大叔经验分享(25)hive通过外部表读写hbase数据
【原创】大叔经验分享(24)hive metastore的几种部署方式
【原创】大叔经验分享(23)SPARK SQL插入表时的文件个数研究
【原创】大叔经验分享(21)YARN中查看每个应用实时占用的内存和CPU资源
【原创】大叔经验分享(20)SPARK JOB之间会停顿几分钟
【原创】大叔经验分享(19)SPARK ON YARN提交任务之后执行进度总是10%
【原创】大叔经验分享(18)HIVE2.0以后通过BEELINE执行SQL没有进度信息
【原创】大叔经验分享(17)编程实践对比JAVA VS SCALA
【原创】大叔经验分享(15)SPARK SQL LIMIT实现原理
【原创】大叔经验分享(14)SPARK ON YARN提交任务到集群后SPARK-SUBMIT进程一直等待
【原创】大叔经验分享(12)如何程序化KILL提交到SPARK THRIFT上的SQL
【原创】大叔经验分享(11)PYTHON引入模块报错IMPORTERROR: NO MODULE NAMED PANDAS NUMPY
【原创】大叔经验分享(9)YARN重要配置YARN.NODEMANAGER.LOCAL-DIRS
【原创】大叔经验分享(8)创建HIVE表时用内部表还是外部表
【原创】大叔经验分享(6)OOZIE如何查看提交到YARN上的任务日志
【原创】大叔经验分享(5)OOZIE提交SPARK任务如何添加依赖
【原创】大叔经验分享(4)YARN RESOURCEMANAGER页面如何实现主被自动切换
【原创】大叔经验分享(3)HBASE CLIENT 如何选择
【原创】大叔经验分享(2)为什么HIVE在大表上加条件后执行LIMIT很慢
【原创】大叔经验分享(1)在YARN上查看HIVE完整执行SQL
[大叔案例系列]
【原创】大叔案例分享(5)基于CRF的地址分词以及层级标注
【原创】大叔案例分享(3)用户行为分析--见证SCALA的强大
【原创】大叔案例分享(2)处理大批量数据时如何实现“高效”同时实现“断点续传”功能
[大叔问题定位系列]
【原创】大叔问题定位分享(30)mesos agent启动失败:Failed to perform recovery: Incompatible agent info detected
【原创】大叔问题定位分享(29)datanode启动报错:50020端口被占用
【原创】大叔问题定位分享(28)openssh升级到7.4之后ssh跳转异常
【原创】大叔问题定位分享(27)spark中rdd.cache
【原创】大叔问题定位分享(25)ambari metrics collector内置standalone hbase启动失败
【原创】大叔问题定位分享(24)hbase standalone方式启动报错
【原创】大叔问题定位分享(23)Ambari安装向导点击下一步卡住
【原创】大叔问题定位分享(22)HIVE同时执行多个INSERT OVERWRITE TABLE只有1个可以执行
【原创】大叔问题定位分享(21)SPARK执行INSERT OVERWRITE非常慢,比HIVE还要慢
【原创】大叔问题定位分享(20)HDFS文件CREATE写入正常,APPEND写入报错
【原创】大叔问题定位分享(19)SPARK TASK在EXECUTORS上分布不均
【原创】大叔问题定位分享(18)BEELINE连接SPARK THRIFT有时会卡住
【原创】大叔问题定位分享(17)SPARK查ORC格式数据偶尔报错NULLPOINTEREXCEPTION
【原创】大叔问题定位分享(13)HBASE REGION频繁下线
【原创】大叔问题定位分享(12)SPARK保存文本类型文件(TEXT、CSV、JSON等)到HDFS时为什么是压缩格式的
【原创】大叔问题定位分享(11)SPARK中对大表子查询加LIMIT为什么会报BROADCAST超时错误
【原创】大叔问题定位分享(7)SPARK任务中JOB进度卡住不动
【原创】大叔问题定位分享(6)DUBBO MONITOR服务IOWAIT高,负载高
【原创】大叔问题定位分享(5)KAFKA客户端报错SOCKETEXCEPTION: TOO MANY OPEN FILES 打开的文件过多
【原创】大叔问题定位分享(4)KAFKA集群BROKER节点从ZOOKEEPER上消失
【原创】大叔问题定位分享(3)KAFKA集群BROKER进程逐个报错退出
【原创】大叔问题定位分享(2)SPARK任务一定几率报错JAVA.LANG.NOSUCHFIELDERROR: HIVE_MOVE_FILES_THREAD_COUNT
【原创】大叔问题定位分享(1)HBASE REGIONSERVER频繁挂掉
[大叔算法系列]
【原创】大叔算法分享(9)分类算法SVM
【原创】大叔算法分享(8)聚类算法KMeans
【原创】大叔算法分享(4)CARDINALITY ESTIMATE 基数计数概率算法
【原创】大叔算法分享(3)HMM隐马尔可夫模型
【原创】大叔算法分享(2)CRF条件随机场