关于网站数据挖掘的方向或者实战内容有哪些好的网站、博客或者书籍等资料? - 知乎
如果是要对网站上的文字进行挖掘分析的话,其实可以归类为文本挖掘相关问题。聚类、分类、找主题啊啥的,这个方面所使用的方法和传统数据挖掘机器学习的方法没有差别,请参考右侧相关问题中的问题答案或者看一下我回答过的关于数据挖掘教材的答案。要说文本挖掘与数据挖掘的区别,就是前期需要对进行文本特征抽取,推荐你看一下 http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction ,有代码,照着运行一下就能有个大概感受。其他具体任务的例子,比如 http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_with_nmf.html 和 http://scikit-learn.org/stable/auto_examples/applications/wikipedia_principal_eigenvector.html 都是不错的例子。
如果要深入进入进入自然语言处理方面的话,推荐 Natural Language Toolkit。如果要进行主题发现的话,推荐 Gensim – Topic Modelling for Humans。
如果是网站日志挖掘啥的,用的方法也是数据挖掘方法,我的其他回答中也涉及到了。
如果是用户行为分析的话,可以考虑非常古老的通常是没有啥用的关联规则挖掘,和最近非常时髦的推荐系统。中间的领域其实也都能转化成现有的机器学习问题,这个要说起来就没完没了了,你问题中也没说太详细,所以也没法针对性的回答。
真的觉得写的挺泛的,没啥针对性,赶紧折叠我吧!