zoukankan      html  css  js  c++  java
  • python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包

    ---------------环境配置---------------

    1、在Windows操作系统下安装python-3.6.4-amd64.exe

    2、配置环境变量

    Path变量:如C:UsersAdministratorAppDataLocalProgramsPythonPython36

    打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。

    3、把beautifulsoup4-4.6.0.tar.gz解压后,放在Python36目录下,在cmd中...Python36eautifulsoup4-4.6.0下执行命令

    python setup.pyinstall ,安装成功不报错。

    4、把get-pip.py放在...Python36目录下,执行命令:python get-pip.py,安装pip成功。

    5、在...Python36Scripts目录下,打开cmd,导入requests、pymysql、urllib等模块,执行命令如下

    pip installrequests

    pip installpymysql

    pip installurllib

    测试一下python的环境---导入几个包,不报错即可

    import requests

    from bs4 importBeautifulSoup

    import pymysql

    fromurllib.request import urlopen

    -------------执行app应用信息爬取-----

    1、首先把app爬取脚本getmiAppInfo整个文件夹放在...Python36Libsite-packages目录下

    2、修改数据库配置文件

    GetAllAppInfoaseconfig.ini

    如下:

    [db]

    DB_HOST=192.168.2.73

    DB_PORT=3306

    DB_USERNAME=root

    DB_PASSWORD=cecgw

    DB_BASEDATA=app

    3、需要创建一个mysql数据库,数据库名称为app

    执行表创建脚本

    ------------------------------

    -- Tablestructure for appinfo1

    ------------------------------

    DROP TABLE IFEXISTS `appinfo1`;

    CREATE TABLE`appinfo1` (

      `id` int(11) NOT NULL AUTO_INCREMENT,

      `channel` varchar(50) DEFAULT NULL,

      `Faclassname` varchar(255) DEFAULT NULL,

      `subclassname` varchar(100) DEFAULT NULL,

      `appname` varchar(255) DEFAULT NULL,

      `score` varchar(50) DEFAULT NULL,

      `loadcounts` varchar(50) DEFAULT NULL,

      `size` varchar(50) DEFAULT NULL,

      `author` varchar(255) DEFAULT NULL,

      `updatetime` varchar(50) DEFAULT NULL,

      `version` varchar(100) DEFAULT NULL,

      `supsystem` varchar(100) DEFAULT NULL,

      `suplang` varchar(50) DEFAULT NULL,

      `appurl` varchar(255) DEFAULT NULL,

      `loadurl` varchar(255) DEFAULT NULL,

      `str1` varchar(255) DEFAULT NULL,

      `str2` varchar(255) DEFAULT NULL,

      `str3` varchar(255) DEFAULT NULL,

      `str4` varchar(255) DEFAULT NULL,

      `str5` varchar(255) DEFAULT NULL,

      PRIMARY KEY (`id`)

    ) ENGINE=InnoDBAUTO_INCREMENT=1038 DEFAULT CHARSET=utf8;

    4、运行app爬取脚本

    打开...Python36Libsite-packagesGetAllAppInfo目录,打开cmd,

    执行命令python RunMain.py

    根据渠道说明,输入渠道标号

    如输入1,自动执行‘360手机助手’渠道的app应用信息爬取

    存储到数据库后,根据loadurl需要下载app.apk包下载到GetAllAppInfopkg,请执行python appDownload.py

    注意:

    源代码详见

    链接:https://pan.baidu.com/s/1ggOJl2j 密码:0auz

  • 相关阅读:
    强连通 HDU 1827
    强联通 HDU 2767 3836
    强连通 HDU 1269
    网络流 poj 2135
    强联通 poj 2762
    android20-[【转】Android的EditText自动获取焦点并弹出输入法问题]
    windows开发中的一点总结
    android19
    android18
    android17
  • 原文地址:https://www.cnblogs.com/xianjie0318/p/8431266.html
Copyright © 2011-2022 走看看