enmm,今天主要了解了一下信息领域热词的分析整理等内容,毕竟在爬取数据前要先找到自己想要爬取的内容,在那个网站爬取。
第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据(后面再添加相应的其他网站),为什么选这两个网站,可能是因为前辈较多,做起来会比较简单。
来看一下知乎的首页,
首页并没有什么特别的,就是平常的高点击量,高观看量的作品,这样如何得到关于信息领域的热词呢?
这样每个页面就展示在我们眼前了,这样在将每个页面加入队列,
具体页面展示:
加粗为热词,下面为解释,所以找准这个去爬取就可以了,下次更新。