zoukankan      html  css  js  c++  java
  • 维基下载页面说明(指南)

    中文维基下载地址: https://dumps.wikimedia.org/zhwiki/

    英文维基下载地址: https://dumps.wikimedia.org/enwiki/

    当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。

    1.    Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream:包含了许多的文章,也有许多的日志信息等等..

           Recombine multiple bz2 streams:上述整合的文件压缩。

           Index.txt.bz2: 每个词条的编号信息。

        

    2.  All pages with complete edit history (.7z)和All pages with complete page edit history (.bz2)内容相同。(大小不一样是因为压缩方式不同。)

         都是文章的edit的历史,包括哪个用户修改了什么。

    3. 每个user和page的日志记录。混乱,没有用。

      

     4. 我们所需要的文件,包含文章正文摘要等信息。      

      

    5.所有页面的标题

      

    6. 词条开放的分类链接

      

    7. 词条重定向  

        

    8. 词条页面内容外链

        

  • 相关阅读:
    asp.net
    深度优先遍历
    计算机存储体系
    CPU 进程 线程 关系与区别
    OLAP、OLTP的介绍和比较
    几种消息队列对比
    协议那些事(四)
    协议那些事(三)
    协议那些事(二)
    协议那些事(一)
  • 原文地址:https://www.cnblogs.com/dhName/p/11859318.html
Copyright © 2011-2022 走看看