zoukankan      html  css  js  c++  java
  • 给@dudu 一个idea

    好长时间没写文章了,因为我最近一直在琢磨博客园如何才能成为一家上市公司,上市前我在博客园买点原始股,说不定就发了。

     

    现在遇到错误总是先谷歌,谷歌背墙,在百度,百度不到在到博客园找 找看看

    因为找找看的数据都是博客园的,数据量太少,我想找找看这个功能能不能升级都全网搜索,主要搜索和代码相关的网页,

    这个搜索分英文版和中文版,中文错误 走中文版国内采集,英文错误 走国外采集的网页

    当然,要上市,必须要有概念性的功能,我觉得

    1指定关键词全网抓取和指定域名全网抓取 ,用户可以自己指定 要抓取的内容

    (这个主要用于查找各种错误等等)

    2 抓取算法的开源和透明是必须

    3展示算法的开源和透明也是必须

    大家补充下其他功能

    ============================================================

    ps:idea 开源与我最近在折腾自己的小站(http://www.unknownerror.org/) ,主要练习ASP.NET MVC3,各种开源orm,基于Html Agility Pack和ScapySharp的数据采集,

    外加lucenenet

    发现一个一个网站的采集是在太郁闷了

    后来找到 Nutch 这个东西,一看是做搜索引擎用,怎奈是java的,俺不会。。SO,这个想法交给dudu和看到园友们,最合适了

  • 相关阅读:
    ==与is区别
    词典操作
    前端工具---取色截图测量
    css零碎合集
    基于bootstrap的在线布局工具
    js常用功能工具库--Underscore.js
    前端资源荟萃
    在线绘图工具---processon
    表单form浅谈
    前端工具----iconfont
  • 原文地址:https://www.cnblogs.com/qqloving/p/3182657.html
Copyright © 2011-2022 走看看