zoukankan      html  css  js  c++  java
  • 定向采集某些网页的数据入库

    ---恢复内容开始---

    /* * 功能:定向采集某些网页的数据入库 * 时间:2013-4-27 * 作者:lovelover * 操作: 按照以下顺序执行 1、建立数据源的目标数据库,导入sql。 2、 ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关) ./shstart_getcode.sh #(提取网页标题和内容 入库) ./shstart_jiance.sh #(打开检测save文件夹有新增文件没) ./shstart_killallphp #(定时杀死php保证鲜活度) 关闭larbin进程用 killall larbin 结束 限定某一单一网站提高效率: 1、将larbin.conf里面的waitDuration设置为1 2、将types.h里面的maxUrlsBySite修改为254; 3、main.cc 数字改成 30 15 4、larbin.conf #noExternalLinks */

    ---恢复内容结束---

  • 相关阅读:
    字典的key都可以是什么
    groupby 的妙用(注意size和count)

    希尔排序
    TCP和UDP
    闭包(python)
    快速排序
    mysql t4模板_Model
    vue前端性能优化
    系统稳定性问题总结
  • 原文地址:https://www.cnblogs.com/zhaoguoliang/p/3046957.html
Copyright © 2011-2022 走看看