平时电影看的比较多(记得当时学校内网睿思上的电影都快被我看光了),所以觉得应该为这个兴趣做点什么。
首先归纳一下过程中涉及到的相关知识点:linux(ubuntu), mysql, spring, mybatis, webmagic(爬虫), js/html/css/jsp, nginx。大概就这么多吧,另外就是还有一些域名绑定之类的操作。
服务器选择
要搭建一个网站,首先你需要一台有公网地址的服务器,这里有很多云计算厂商可以选择,调研下来比较推荐的有这些,国内有阿里云、网易蜂巢。国外的有aws、digitalocean。个人对于PaaS类的服务不太喜欢,用起来太不自由,所以抛弃了原先申请到的免费新浪sae平台。最后选的是网易蜂巢,基于docker的全ssd容器。
数据源
既然是电影网站,所以首先考虑的就是数据来源问题,如今网上的电影资源几乎是应有尽有。第一步随意找一个自己常用的网站作为数据来源就可以了,等爬虫算法逐渐完善以后可以改为从多个网站爬取数据源。所以接下来是爬虫的使用,说到爬虫,第一时间想到的是python的Scrapy,java世界里也有许多成熟的爬虫框架,这里我们选用了WebMagic。爬虫的使用非常简单,只需爬取所需得网页,解析出自己想要的数据就可以了。
......
阅读全文(http://www.lchml.com/blog/2015/12/18/moviehell.html)