zoukankan      html  css  js  c++  java
  • 维基百科镜像处理

    维基百科语料资源丰富,而维基百科又提供数据库下载,是语料资源来源的良好途径。

    1. 中文维基数据下载

    下载dump:https://dumps.wikimedia.org/zhwiki/latest/,维基数据主要包含以下几部分


    zhwiki-latest-pages-articles.xml.bz2          
    词条正文
    zhwiki-latest-redirect.sql  词条重定向(同义词)
    zhwiki-latest-pagelinks.sql  词条页面内容外链
    zhwiki-latest-page.sql 词条标题及摘要
    zhwiki-latest-categorylinks.sql  词条开放分类链接

    本文处理的数据是: zhwiki-latest-pages-articles.xml.bz2

    2. 中文维基数据解析

    下载后需要对该xml文件的压缩包作处理,所幸gensim的WikiCorpus已经预置了部分处理。几行关键的python代码如下:

    input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或数据库

  • 相关阅读:
    HUD--2553 N皇后问题
    poj--2139
    poj--2236
    poj--2229
    poj--2376 Cleaning Shifts
    poj--3669
    poj--1979 Red and Black
    poj--1258
    经典DP问题--poj1088滑雪
    Poj 1041--欧拉回路
  • 原文地址:https://www.cnblogs.com/zhaobang/p/7077669.html
Copyright © 2011-2022 走看看