zoukankan      html  css  js  c++  java
  • 【简易采集】美团数据抓取方法 八爪鱼

    【简易采集】美团数据抓取方法

    最近学习了 一下 如何爬取数据  然后就接触了 八爪鱼 数据分析  这个软件

    详细信息访问这个:http://www.bazhuayu.com/tutorial/hottutorial/shfw/xfdp

    对于某些用户来说,直接自定义规则可能有难度,所以在这种情况下,我们提供了网页简易模式,网页简易模式下存放了国内一些主流网站爬虫采集规则,在你需要采集相关网站时可以直接调用,节省了制作规则的时间以及精力。

    对于我们采集用户来说,美团数据抓取下来可以分析每一家商铺的价格,销量,位置,人均消费,好评率等各种主要信息,帮助你做出更好的判断,分析当下主流消费用户的消费情况。

    所以本次介绍八爪鱼简易采集模式下“美团爬虫规则”的使用教程以及注意要点。

    步骤一、下载八爪鱼软件并登陆

    1、打开/download,即八爪鱼软件官方下载页面,点击图中的下载按钮。


    2、软件下载好了之后,双击安装,安装完毕之后打开软件,输入八爪鱼用户名密码,然后点击登陆


    步骤二、设置美团数据抓取规则任务

    1、进入登陆界面之后就可以看到主页上的网站简易采集了,选择立即使用即可。

    2、进去之后便可以看到目前网页简易模式里面内置的所有主流网站了,需要采集美团内容的,这里选择第四个--美团即可。

    3、美团爬虫规则下内置了很多常用的采集规则,大家可以根据自身实际需求选择相应的规则,这里仅以“美团-》商家信息-关键词搜索”这条爬虫规则举例说明,点击“立即使用”即可使用。

    美团爬虫规则列表

    4、美团-商家信息-关键词搜索简易采集模式任务界面介绍


    查看详情:点开可以看到示例网址

    任务名:自定义任务名,默认为美食商家列表信息采集

    任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组

    城市页面地址:输入你要在美团网上采集的城市url(可放入多个)

    搜索关键词:设置你要搜索的关键词,填入即可

    示例数据:这个规则采集到的所有字段信息。

    美团-商家信息-关键词搜索简易采集模式任务界面介绍

    5、 美团数据抓取规则设置示例

    例如要采集南昌市所有烧烤类的商家信息

    在设置里如下图所示:

    任务名:自定义任务名,也可以不设置按照默认的就行

    任务组:自定义任务组,也可以不设置按照默认的就行

    城市页面地址:http://nc.meituan.com/

    搜索关键词:烧烤

    注意事项:URL列表中建议不超过2万条,大量的URL可以通过八爪鱼先抓取美团里每一个城市的url,少量可直接去浏览器里获取。

    步骤三、保存并运行美团数据抓取规则

    1、设置好爬虫规则之后点击保存。

    2、保存之后,点击会出现开始采集的按钮。

    3、 选择开始采集之后系统将会弹出运行任务的界面,可以选择启动本地采集(本地执行采集流程)或者启动云采集(由云服务器执行采集流程),这里以启动本地采集为例,我们选择启动本地采集按钮。

    4、选择本地采集按钮之后,系统将会在本地执行这个采集流程来采集数据,下图为本地采集的效果。(由于数据量较大,我这展示能够采集到数据后手动停止了)

    5、采集完毕之后选择导出数据按钮即可,这里以导出excel2003为例,选择这个选项之后点击确定。

    6、然后选择文件存放在电脑上的路径,路径选择好之后选择保存。

    7、这样美团上南昌市关于烧烤类的商家数据就被完整的采集导出到自己的电脑上来了。

       爬取数据就是这么的简单哦

  • 相关阅读:
    android 自定义动画4 RotateAnimation源码分析
    Android 绘图 阴影制作(Shadow)
    view, surfaceView, invalidate, postInvalidate, 刷新屏幕
    android database 常用字段描述
    Android标题栏进度指示器使用
    ThumbnailUtils Android2.2新增类
    Android 重力感应 测试代码
    Android中内嵌字体实现个性化
    Android中悬浮窗口
    Android布局Java代码构造法
  • 原文地址:https://www.cnblogs.com/zhukaixin/p/9197769.html
Copyright © 2011-2022 走看看