文本分类过程:http://www.cnblogs.com/luchen927/archive/2012/02/14/2349551.html;
语料库资源:
1:搜狗中文新闻语料库:http://www.sogou.com/labs/dl/c.html;
2:博客园园友自行收集的语料库:http://www.cnblogs.com/finallyliuyu/archive/2010/09/10/1823676.html;
两者皆为新闻类信息,前者标题使用数字表示,不便于对分类结果的快速验证;后者资源在数量,准确性、平衡性方面稍欠缺。
网页正文抓取相关文章:
1:园友蛙娃正文抓取器:http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html;
2:园友finallyliuyu正文抓取器:http://www.cnblogs.com/finallyliuyu/archive/2010/09/29/1838442.html;