zoukankan      html  css  js  c++  java
  • 用java编写爬虫爬取电影

    一、爬取前提
    1)本地安装了mysql数据库
    2)安装了idea或者eclipse等开发工具

    二、爬取内容
    电影名称、电影简介、电影图片、电影下载链接

    三、爬取逻辑
    1)进入电影网列表页, 针对列表的html内容进行数据提取 电影名称,电影简介, 电影图片, 电影详情URL, 插入数据库表
    2)通过步骤1获取到的电影详情URL, 进入电影详情页, 获取下载链接, 更新数据库的下载链接字段
    3)循环执行如上过程,直到数据被爬取完或者循环完毕。

    三、爬取步骤
    1)本地初始化数据库脚本 database.sql
    SET FOREIGN_KEY_CHECKS=0;
    
    -- ----------------------------
    -- Table structure for movie
    -- ----------------------------
    DROP TABLE IF EXISTS `movie`;
    CREATE TABLE `movie` (
      `id` bigint(20) NOT NULL AUTO_INCREMENT,
      `title` varchar(100) DEFAULT NULL,
      `pic_url` varchar(100) DEFAULT NULL,
      `target_url` varchar(100) DEFAULT NULL,
      `introduction` varchar(1000) DEFAULT NULL,
      `download_url` text,
      `create_time` datetime DEFAULT NULL,
      PRIMARY KEY (`id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

    2) 运行 MovieMain.java 函数, 开启爬虫(当前只爬取1000页数据, 总共约10万部电影)

    3)查询数据库表, 观察爬取数据清空

    select * from movie;

    四、github代码地址

    https://github.com/mhlmelon/SpiderMovie

     五、总结

    优点:方便调试

    不足:java版本速度较慢(每秒爬10条左右),后续会补上python的版本。

  • 相关阅读:
    day01_02.php的开发环境准备
    day01_01.了解php
    day05_01 鸡汤+内容回顾
    河北省科技信息通用调查系统需求-----------开发日志---第一天
    开发项目注意事项总结
    JavaScript学习心得
    掌握需求过程读后感
    自我检讨
    安卓开发使用get请求想服务器发送数据
    对安卓移动应用开发的学习
  • 原文地址:https://www.cnblogs.com/mhl1003/p/11711816.html
Copyright © 2011-2022 走看看