soulmate - 走看看

zoukankan html css js c++ java

soulmate

今天花了一天时间将py下抽取html数据的代码，用ruby的方式写了一遍，

总得过程感觉清晰度没有python好，但是ruby的写法多，所以代码还是省了不少，另外也优雅了使用了mixin

晚上正在慢慢下图片，现在我的爬虫是完全基于数据库了，之前在写python时完全文本化的脚本，部分中间过程的代码放在sqlite中，最终得脚本都可以独立于数据库存在，不过由于用的python的库多，还是依赖非常的严重。

另外近来的新得是crawler还可以使用yql,gae等，不过我感觉远程的还是不是很靠谱啊。

现在使用的ruby的话，完全依赖于rake+db

使用的是单线程，由于在纤程方面我认为eventmachine等做得还是有问题，这方面做非阴塞下载还是没有python成熟。我也怕和ror及python协同使用，所以也就有了完整的代码重写到ruby style的事情。

查看全文

相关阅读:
自定义类似smarty模板
 PHP函数相关知识点
 cookie的使用和设置
 进程通过内核缓存区请求设备I/O的一些事情
 多线程模型和问题
 C10K问题和多进程模型
 node.js----一个httpserver提交和解析get参数的例子
 nodejs解析url参数的三种方法
 node.js http模块和fs模块上机实验·
c++中的srand()和rand() 转载自：http://blog.sina.com.cn/s/blog_624c2c4001012f67.html

原文地址：https://www.cnblogs.com/lexus/p/1940743.html

Copyright © 2011-2022 走看看