zoukankan      html  css  js  c++  java
  • Perl 未完工的爬虫

    根据实际的逻辑,综合了各家所长,我决定手工测试下,是否能够写出满意的爬虫.

    对此还是写出来看看,一边写一边思考,今天写了一点,等回家继续想想.

    根据逻辑思考,我觉得应该使用队列,和BS算法做基础,还要做链接索引.

    其中最难的莫过于链接索引了,这个东西还是得思考下的.现在还没想好,等等再看吧.

    #!/usr/bin/perl
    use LWP::Simple;
    use HTML::LinkExtor;
    use threads;
    use threads::shared;
    use Thread::Queue;
    use Thread::Semaphore;
    use Bloom::Filter;
    
    $base_url="http://bbs.chinaunix.com/";
    $html = get($base_url);
    
    $link_extor = HTML::LinkExtor->new(&handle_links);
    
    $link_extor->parse($html);
    
    sub handle_links
    {
        ($tag, %links) = @_;
    
        if ($tag eq 'a') {
    
            foreach $key (keys %links) {
    
                if ($key eq 'href') {
    
                    if($links{$key} =~m#^(http|https)://#){
                            if($links{$key}=~m#^$base_url#){
                                    print "$links{$key}
    ";
                            }
                    }else{
                            print $base_url.$links{$key}."
    ";
                    }
                }
    
            }
        }
    }
  • 相关阅读:
    08测试环境配置_数据库配置
    11等价类
    15状态迁移
    12边界值分析法
    10用例格式
    python的转义字符和原字符
    13数据分析法
    14正交试验
    python软件安装
    cookie的secure属性
  • 原文地址:https://www.cnblogs.com/xiaoCon/p/3346496.html
Copyright © 2011-2022 走看看