广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    机器学习——fetch_20newsgroups离线下载

    来源:网络收集  点击:  时间:2024-05-31
    【导读】:
    在初次使用sklearn.datasets中的fetch_20newsgroups新闻数据集时,需要下数据。而在线下载数据有非常慢。因此可以离线下载数据集,然后将此数据集加载到数据集中。工具/原料moreAnacondajupyterspyder方法/步骤1/12分步阅读

    下载fetch_20newsgroups数据集。

    2/12

    按‘windows’加‘E’快捷键打开资源管理界面。

    3/12

    打开C盘。

    4/12

    选择用户文件夹。

    5/12

    选择Administrator文件夹。

    6/12

    选择scikit_learn_data文件夹。

    7/12

    首次打开后是个空白文件夹。

    8/12

    打开此文件夹后,回到Jupyter下,导入相应模块。

    9/12

    运行 fetch_20newsgroups(subset=all)语句,会自动在上面打开的文件夹中创建一个文件夹。

    10/12

    自动创建的创建文件夹。

    11/12

    打开创建的文件夹。

    12/12

    将下载好的数据集,复制到此文件夹中。

    打开Anaconda的安装目录1/21

    根据自己安装Anaconda时选择的路径,打开安装文件夹目录。

    2/21

    选择Lib文件夹。

    3/21

    选择site-packages文件夹。

    4/21

    选择sklearn文件夹。

    5/21

    选择datasets文件夹。

    6/21

    打开spyder软件。

    7/21

    将datasets文件夹下的twenty_newsgroups.py拖动到spyder中。

    8/21

    找到‘download_20newsgroups’函数。

    9/21

    下载语句部分如图示。

    10/21

    解压语句部分如图示。

    11/21

    由于已经自己下载好数据集,因此需要注释掉下载数据集的代码。

    12/21

    将刚刚存放的数据集的文件目录存入archive_path变量。

    13/21

    修改完毕后并保存。

    14/21

    再次运行 fetch_20newsgroups(subset=all)语句,解压下载的数据集文件。

    15/21

    执行过程中,会新建两个文件。

    16/21

    解压完成后,会自动删除压缩文件。

    17/21

    接着会自动删除刚刚生成的两个文件夹。

    18/21

    最终只剩下一个后缀名为pkz的文件。

    19/21

    到此为止fetch_20newsgroups数据集添加完成。

    20/21

    获取训练集和测试集数据。

    21/21

    调用数据效果如下。

    PYTHON机器学习
    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_865252.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号05-05 22:23:36  耗时:0.030
    0.0296s