本次系统实现的需求:
要采集豆瓣电影网所有的电影信息及其排名。
实现功能的理论:
浏览器把资源文件渲染成了我们看到的网页的样子,我们如果要取出网页中的数据,就需要拿到资源文件。发起Http请求,然后解析服务器返回的响应,就是爬虫的工作,所以爬虫的第一步是获取html文件。
我负责的是代码的复审,所以没有办法把代码贴出来