zoukankan      html  css  js  c++  java
  • 维基下载页面说明(指南)

    中文维基下载地址: https://dumps.wikimedia.org/zhwiki/

    英文维基下载地址: https://dumps.wikimedia.org/enwiki/

    当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。

    1.    Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream:包含了许多的文章,也有许多的日志信息等等..

           Recombine multiple bz2 streams:上述整合的文件压缩。

           Index.txt.bz2: 每个词条的编号信息。

        

    2.  All pages with complete edit history (.7z)和All pages with complete page edit history (.bz2)内容相同。(大小不一样是因为压缩方式不同。)

         都是文章的edit的历史,包括哪个用户修改了什么。

    3. 每个user和page的日志记录。混乱,没有用。

      

     4. 我们所需要的文件,包含文章正文摘要等信息。      

      

    5.所有页面的标题

      

    6. 词条开放的分类链接

      

    7. 词条重定向  

        

    8. 词条页面内容外链

        

  • 相关阅读:
    shell脚本检查文件是否存在
    自己制作rpm软件包(1)
    lsusb是如何工作的
    Linux脚本Shell命令之葵花宝典
    Linux中find常见用法示例
    RPM包制作
    VIM查找替换归纳总结
    vim全局替换命令
    自己制作rpm软件包(2)
    linux shell编程if语句内判断参数
  • 原文地址:https://www.cnblogs.com/dhName/p/11859318.html
Copyright © 2011-2022 走看看