鱼往深处游 2017/11/15 15:02:11
技术栈:
1. 熟练掌握hive
2. 熟悉开发语言(python,Java,Scala)
备注:建议spark 开发使用Scala
3. 了解一下JVM底层,可能涉及Spark优化
4. 熟悉hadoopSparkSparkStreaming
5. 熟悉tensorflow深度学习框架
6. 常用机器学习算法原理
7. 深度学习[强]化学习的基本理论(后期)
8. 腾讯参数服务器angel熟悉(目前正在部署)
业务栈:
1. 服务端和算法端的关系
2. 在线学习和在线预测的区别
3. 在线特征和离线特征的区别
4. 推荐系统的一般架构(召回+重排)
5. 特征工程的一般步骤和处理过程
广告线:
1. 贝叶斯平滑优化线上LR模型(从统计特征角度出发)
2. FFM模型优化广告ctr模型(从模型角度出发)
3. 用户基本属性准确性校验,以及与广告特征二级交叉,融合标签特征,进行线上LR模型(从交叉特征的角度出发)
4. 学习angel参数服务器架构,后期大维度特征模型训练尽量用angel实现
5. LR+GBDT优化优化广告ctr模型(从模型角度出发)
技术栈:
1. 熟练掌握hive
2. 熟悉开发语言(python,Java,Scala)
备注:建议spark 开发使用Scala
3. 了解一下JVM底层,可能涉及Spark优化
4. 熟悉hadoopSparkSparkStreaming
5. 熟悉tensorflow深度学习框架
6. 常用机器学习算法原理
7. 深度学习[强]化学习的基本理论(后期)
8. 腾讯参数服务器angel熟悉(目前正在部署)
业务栈:
1. 服务端和算法端的关系
2. 在线学习和在线预测的区别
3. 在线特征和离线特征的区别
4. 推荐系统的一般架构(召回+重排)
5. 特征工程的一般步骤和处理过程
广告线:
1. 贝叶斯平滑优化线上LR模型(从统计特征角度出发)
2. FFM模型优化广告ctr模型(从模型角度出发)
3. 用户基本属性准确性校验,以及与广告特征二级交叉,融合标签特征,进行线上LR模型(从交叉特征的角度出发)
4. 学习angel参数服务器架构,后期大维度特征模型训练尽量用angel实现
5. LR+GBDT优化优化广告ctr模型(从模型角度出发)