online math website
https://mathvault.ca/websites/
这是一份英语清单,列出了数据科学方面的常见面试问题,分成机器学习算法、概率统计、产品和实验设计、程序设计、算法和数据结构、SQL 六个大类。
熟悉数据仓库建模理论,5年以上相关领域实践经验;
2、 Hadoop、Hive、Hbase、Storm、Spark等技术框架;
3、 精通Java、Python、Scala、go等开发语言中的1到2种;
4、 熟练使用Python/Java/scala或其他语言进行复杂业务逻辑的数据处理工作,具备海量数据处理以及性能优化的能力;
5、 对MySQL、Redis、HBase等数据库有一定的了解和使用经验;
6、 对olap,多维分析及kylin熟悉的更好;[https://blog.csdn.net/forlogen/article/details/88634117--[fact table,dimension table, star, snow,]data cube[drill down,roll-up,slice,dice,pivot]]
2、 Hadoop、Hive、Hbase、Storm、Spark等技术框架;
3、 精通Java、Python、Scala、go等开发语言中的1到2种;
4、 熟练使用Python/Java/scala或其他语言进行复杂业务逻辑的数据处理工作,具备海量数据处理以及性能优化的能力;
5、 对MySQL、Redis、HBase等数据库有一定的了解和使用经验;
6、 对olap,多维分析及kylin熟悉的更好;[https://blog.csdn.net/forlogen/article/details/88634117--[fact table,dimension table, star, snow,]data cube[drill down,roll-up,slice,dice,pivot]]
7、 思路清晰,具备良好的沟通能力和理解能力,较强的学习能力以及快速解决问题的能力;
8、 对新技术,新事物有很好的探索和求知欲;
9、 熟悉常规的机器学习算法:降维(PCA、SVD)、SVM、逻辑回归(Logistics Regression)、决策树(GBDT、RandomForest)、关联规则(Apriori、FP-Growth)、聚类(K-Means)等优先。
8、 对新技术,新事物有很好的探索和求知欲;
9、 熟悉常规的机器学习算法:降维(PCA、SVD)、SVM、逻辑回归(Logistics Regression)、决策树(GBDT、RandomForest)、关联规则(Apriori、FP-Growth)、聚类(K-Means)等优先。
Manuscript illustration of William of Ockham.
Occam's razor (also Ockham's razor or Ocham's razor (Latin: novacula Occami); further known as the law of parsimony (Latin: lex parsimoniae)) is the problem-solving principle that essentially states that simpler solutions are more likely to be correct than complex ones. When presented with competing hypotheses to solve a problem, one should select the solution with the fewest assumptions
decision tress id3----iterative dichotomiser
https://blog.csdn.net/acdreamers/article/details/44661149
svm/loss /cost function, outliner/slack variables/ =====maximum marginal hyperplane classification.
https://blog.csdn.net/u012581541/article/details/51181041
loss fuction= loss term + regualarization term
losss term :
Gold Standard (ideal case) (0-1 loss)
Hinge (SVM,soft margin)
Log (logsitic regression,cross entropy error)
Squared loss(linear regression)
Exponential loss (boosting)