zoukankan      html  css  js  c++  java
  • soulmate

    今天花了一天时间将py下抽取html数据的代码,用ruby的方式写了一遍,

    总得过程感觉清晰度没有python好,但是ruby的写法多,所以代码还是省了不少,另外也优雅了使用了mixin

    晚上正在慢慢下图片,现在我的爬虫是完全基于数据库了,之前在写python时完全文本化的脚本,部分中间过程的代码放在sqlite中,最终得脚本都可以独立于数据库存在,不过由于用的python的库多,还是依赖非常的严重。

    另外近来的新得是crawler还可以使用yql,gae等,不过我感觉远程的还是不是很靠谱啊。

    现在使用的ruby的话,完全依赖于rake+db

    使用的是单线程,由于在纤程方面我认为eventmachine等做得还是有问题,这方面做非阴塞下载还是没有python成熟。我也怕和ror及python协同使用,所以也就有了完整的代码重写到ruby style的事情。

  • 相关阅读:
    复制
    rpm 软件包管理
    xfsdump 备份文件系统
    dhcp服务器(一)
    【转】kafka集群搭建
    postgresql主从配置
    centos7 安装配置postgresql
    centos7 安装配置zookeeper
    zookeeper
    piplinedb 安装配置
  • 原文地址:https://www.cnblogs.com/lexus/p/1940743.html
Copyright © 2011-2022 走看看