zoukankan html css js c++ java

python爬取电影网站信息

一、爬取前提
1）本地安装了mysql数据库 5.6版本
2）安装了Python 2.7

二、爬取内容
 电影名称、电影简介、电影图片、电影下载链接

三、爬取逻辑
1）进入电影网列表页， 针对列表的html内容进行数据提取 电影名称，电影简介， 电影图片， 电影详情URL， 插入数据库表
2）通过步骤1获取到的电影详情URL， 进入电影详情页， 获取下载链接， 更新数据库的下载链接字段
3）循环执行如上过程，直到数据被爬取完或者循环完毕。

三、爬取步骤
1）本地初始化数据库脚本 database.sql

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`;
CREATE TABLE `movie` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `title` varchar(100) DEFAULT NULL,
  `pic_url` varchar(100) DEFAULT NULL,
  `target_url` varchar(100) DEFAULT NULL,
  `introduction` varchar(1000) DEFAULT NULL,
  `download_url` text,
  `create_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

2) 运行 MovieSpider.py 文件，开启爬虫（当前只爬取1000页数据，总共约10万部电影）

3）查询数据库表，观察爬取数据清空

select * from movie;

四、github代码地址

https://github.com/mhlmelon/SpiderMoviePython

查看全文

相关阅读:
Linux 下没有 my.cnf 文件的解决方式，完全是我自己整的，好多教程都是瞎扯的 (zhuan)
Virtualbox虚拟机安装CentOS6.5图文详细教程(zhuan)
virtualbox中centos系统配置nat+host only上网(zhuan)
VirtualBox的网络配置，Host Only+NAT方式 (zhuan)
Linux上安装Mysql后除了本机其他机器不能访问的问题(zhuan)
VirtualBox没有64位选项，无法安装64位的解决方法(zhuan)
CentOS查看内核版本，位数，版本号 (zhuan)
datagrid实现单行的选择、取消
 datagrid实现行的上移和下移
 Excel 、数据库一言不合就转换 (zhuan)

原文地址：https://www.cnblogs.com/mhl1003/p/11766709.html