zoukankan      html  css  js  c++  java
  • 数据抓取可否发展出好的商业模式?

    数据抓取可否发展出好的商业模式? - olmec - 商业模式

    数据抓取可否发展出好的商业模式?

    这个帖子来源于周末 @刘永辉 发的两篇, 一篇是 有人愿意接数据抓取的活吗?(http://42qu.us/oQso) 还有一篇是 为什么没有一家公司专门做数据抓取的业务呢? (http://42qu.us/oQsp) 发这个帖子的初衷是想跟对这个话题感兴趣的,或者参与过数据抓取的同学做一点讨论,交流一下经验,发散一下思维,看看这方面有没有可能定义出什么商业模式来。
    作为42qu里面最廉价的产品经理,我目前带队开发着两个项目,一个是在线理财社区(http://42qu.us/oQsq),还有一个是财经资讯聚合(http://42qu.us/oQsr),跟数据抓取直接相关的是后者。
    目前抓取的对象包括财经新闻,股票行情,财经名人博客等,抓取的目标网站目前大概有20个,实现的语言是Java。@刘永辉 跟我聊天的时候说到,数据抓取服务中,一个需要注意的问题是维护,对于这点我也有些体会。目前我们主要是通过分析文档结构,定义相应的正则表达式,后台用Quarz定时启动抓取任务,包括启动多个线程,建立URL连接,分解文档抽取数据,再存入数据库等等。有些网站为了防抓取,会定期更改文档结构,导致我们的解析实效,所以所谓的维护,就是跟着他们的文档结构变化而变化。还有一点麻烦的是对于动态加载的数据,追溯JS调用,找到数据真正的源,比较麻烦。
    除了数据抓取以外,我们还做了简单的数据分析。对于抓取的新闻,简单定义了一个热度算法,对于相近的新闻,作了归并处理。我觉得,也许数据分析的价值要大于数据抓取,但是我们现在这方面的能力还比较弱。
    手头的这两个项目短期内都看不到盈利的可能,所以一直在考虑怎么用手头的资源,来给自己的项目带来一点现金流,目前已经实现的功能也就是数据抓取了。看到 @刘永辉 的帖子,眼前大亮,试着联系了一下,可惜已经包了出去。站内信跟他联系了一下,加了Q,可惜时间比较短,聊得还不深入。
    针对 为什么没有一家公司专门做数据抓取的业务呢? 这篇帖子,我去百度了"数据抓取"这个词,结果有很多,说明这个命题并不成立,事实上是有很多公司在做数据抓取的事情的。A.报价可以参照这个(http://42qu.us/oQss)。这些网站多数在卖静态数据,提供一次性服务,根据抓取信息的复杂程度和信息量,来确定价格,比较常见的是大众点评的评论数据,电商的价格数据等等。B.比价,团购,本地分类信息,这些应该也有不少数据是从网上抓取的,不知道他们是用了自己的开发力量,还是找了第三方服务。C.Discuz论坛好像是有文章自动采集的工具,算是数据抓取的一种实现。D.一些公司在做的所谓微博舆情监控,需要借助于微博官方的API接口,抓取微博数据。
    关于爬虫,我不知道我们目前的财经资讯数据抓取的功能算不算是爬虫,也没必要纠结于这个定义,只能说,能满足我们自己的需求。还看到不少使用Python实现网页数据抓取的,这个是主流?
    数据抓取是否是一项通用的,真实存在的需求? 哪些客户有这样的需求,是否愿意为这样的需求付费? 数据抓取这个事情是否可以作标准化,让它成为一个产品,以规范的方式运作?
    在数据抓取之上的数据分析,可以做哪些事情? @van @ghostdom.wj @Alex Rezit @echoHUST @丁家远 @杨子江 @陈钢
    olmec : 商业模式 2推荐&5收藏昨天 上午9点52分

    下期邮件中会提到这篇文章 :)

    这和网站的网站编辑一样,找数据,编辑数据,发布数据一般,只不过上文提到的是技术抓取!

    数据抓取太简单了,一般公司的程序员都会做。数据分析才是核心。

    用python是因为比较容易而已. 用什么语言都一样, 同样的流程(代理)->(模拟登录)->(抓数据). 盈利的话现在已经有很多服务了, 比如说实时监控App在市场中销售情况的, 各种新闻/体育赛事信息的推送等等...

    谈一下个人浅见:
    有个很重要的认识:技术还没发展到具有足够的智能。技术和智能,扮演不同的分工,也体现了不同的内在价值。
    技术还是在节约时间,节省重复劳动,提高工作效率。不可否认,这是有价值的。只是一种工具价值。
    但对于数据,人们,特别是商业领域,更多的是一种智能价值——对于数据的理解、分析、判断。这是一种高附加值。这需要人的经验、阅历、知识、技能、人脉、能力的综合。目前的技术水平对此望尘莫及。
    有点像“用粉笔划一道杠1美元,知道在哪里划杠值4999美元”的那个故事。
    
    所以,如果真想发展出“数据抓取可否发展出好的商业模式”
    一般是抽取一种工具需求,提供功能性服务,比如对于Twitter的数据监控、分析。有很多app。
    在此基础上,开发一种在线工具,提供功能的服务:基础版免费、标准版xx价、定制版xx价
    
    如果再想要提升,显得“智能“,那就得和某一领域的行家合作,比如电商领域,如果xx数据出现了xx情况,那可能是由于什么原因出现的,如果是由某个原因出现,则在数据上有什么表现——这样一套由经验和内在逻辑判断结合,形成一种模式,但可能逻辑交叉起来比较复杂,但能通过技术实现。但要面对具体情况,还是离不开人的解读和判断。

    我觉得有一个方式不错,  我们来写一个可配置的爬虫, 暂时只考虑抓取纯html的页面, 不考虑ajax等情况,  然后要方便用户自己去配置,  比如用浏览器插件点击要抓取的目标后能自动生成配置文件,  能配置url, 比如http://***?page={1-100}
    然后免费给用户抓取,  让他们学会自己去配置,  然后在增值服务上赚钱,  比如定期推送,  比如数据分析(比如根据鞋子名称用算法来识别鞋子是运动鞋还是凉鞋, 是高跟还是坡跟等)
    只有做到自己写平台, 不维护爬虫(交给用户自己维护), 才能做大这个业务, 个人看法

    这个商业模式 成功案例很多。比如 火车头,猎兔,中科点击。国内大批做舆情监控的都有数据抓取有关。

    谢谢张教主.
    @joyfire 给我们分享一点数据分析方面的经验吧,:)
    @Alex Rezit  是否可以详细说说市场销售情况监控的模式? 比如什么公司在做,有哪些典型用户,提供的服务具体是怎样的,收费模式是怎样的? 新闻和体育赛事的推送现在基本都是免费的?
    @于宏庆 我现在还没有确切的认识,感觉上,数据采集仅仅是初级原料,附加值最大的应该在深度加工上。你的观点加深了我这个印象。我们说的商业模式,简单的说,就是这个业务是怎么赚钱的,赚谁的钱;具体的操作上,就是要整合资源,满足愿意付费的需求。整合资源包括IT的经验,也包括对于特定领域,行业的经验,包括苦逼的自动运行的程序,也包括人工的数据资讯编辑团队,包括自己拥有的资源,也包括能够联络到的愿意合作的外部资源。关于人工的数据资讯编辑团队,早上专门去找一个朋友聊了聊,他做的是基础化工的信息和报价(http://www.icis-china.com/chemease/information/default.aspx),数据采集的方式主要靠电话,IT系统的呈现,加上人工的数据采集,就有了行业价格,信息的一个汇总,让客户了解到更全面的信息,也就有了他们存在的意义和价值。(相关的还有,有卓创资讯、中宇资讯、中华商务网、金银岛等等) P.S.他们暂时还没有做交易中介,不过有这方面的客户关系,数据信息平台,行业经验,做交易中介不是没有可能的。
    @刘永辉 昨天聊天的时候你也提到了这点,简单的说就是要减少人力投入,提高服务的自动化程度,或者把一部分需要人参与的事情转嫁出去,这点我是认同的。单纯的说数据抓取,应该是可行的。如果涉及数据分析,估计就有些难度了。其实我考虑更多的是是否有一些需求量比较大的,相对通用一些的数据,比如网上的点评的数据,提供一个公共的数据平台,这样就不是点对点的卖项目,而是点对面的卖数据服务了。

    @olmec 是的,  不过如果你能做到自动化的点对点抓取,  就能在这个基础上总结数据做到你说的点对面,  但是如果不能把维护的工作分给用户, 那么你会面对两个问题,  一个是大量数据需求和维护成本的矛盾,  另一个是干活的人会不爽.

    数据挖掘涉及的方面很广,国内也有很多做的
  • 相关阅读:
    GDUFE ACM-1087
    背包九讲
    OJ4TH|Inverse number:Reborn
    OJ4TH|Let's play a game
    GG第四次作业
    OpenCV(3)其他常用数据类型
    OpenCV学习(2)读取视频和摄像头
    OpenCV(1)读写图像
    GG第三次作业
    GG第二次作业
  • 原文地址:https://www.cnblogs.com/lexus/p/2491109.html
Copyright © 2011-2022 走看看