zoukankan      html  css  js  c++  java
  • 机器学习:如何解决fetch_20newsgroups下载速度巨慢的问题?

    用朴素贝叶斯做一个分类问题,数据就用sklearn新闻数据集。

    但是下载巨慢,没耐心等。接下去就是一波操作,上篮成功。

    因为版本之间可能存在差异,所以就不发数据集的安装包了。

    1)当你在运行程序的时候,控制台是这么输出的

    Downloading 20news dataset. This may take a few minutes.
    Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)

    2)默认在当前用户下生成文件

    cd C:Users73107scikit_learn_data
    可以看到20news_home这个文件,里面是20news-bydate.tar.gz这么一个安装包。
    请记住它的名字20news-bydate.tar.gz。
    可以把这个安装包删除,程序也可以停止了。

    3)打开运行时下载链接

    https://ndownloader.figshare.com/files/5975967
    下载安装包,下载完毕之后。
    该安装包的名字改成上面说的那个名字(20news-bydate.tar.gz)。
    并且把这个安装包放到 C:Users73107scikit_learn_data20news_home里面。

    4)打开运行程序的Python环境

    Python环境别搞错了,特别是用虚拟环境的。别乱搞。
    cd site-packagessklearndatasets
    打开twenty_newsgroups.py文件
    把第一个红框注释(其实就是原本用来下载的代码)。
    写上第二个红框,也就是下载安装包的路径。

    技术图片

    5)运行程序,完美解决。
    程序会自动解压20news-bydate.tar.gz。
    然后删除,最后生成一个缓存文件20news-bydate.pkz。
  • 相关阅读:
    Ural_1018. Binary Apple Tree(树形DP)
    2011 Asia Shanghai Regional Contest Problem A
    Ural_1012. Kbased Numbers. Version 2(dp)
    HDU_1524 A Chess Game (sg函数)
    HDU_1760 A New Tetris Game(dfs + 博弈)
    POJ_2023 Choose Your Own Adventure(DFS)
    POJ_3267 The Cow Lexicon(DP)
    Qt 的QString类的使用
    用QFileSystemModel和Listview做的简易图片浏览
    Qt 对文件的操作
  • 原文地址:https://www.cnblogs.com/peijz/p/12711917.html
Copyright © 2011-2022 走看看