zoukankan      html  css  js  c++  java
  • 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

    Python 大神库

    作为一个程序员每天最快乐的事情就是去 github 翻阅,在闲逛的途中经常会发现一些非常棒的大佬开发的开源库,有时候忍不住点赞分享,这不,在 1024 这么一个特殊的日期里就碰到了这个神奇的库,而且作者还是用 Python 编写的,双重符合要求,必须唠叨唠叨了。

    在这里还是要推荐下我自己建的Python开发学习群:1156465813,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2020最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴!

    该项目是基于 Python 爬虫采集数据,积累大量的 唐诗,宋词数据,作者在 github 说明中已经进行了说明:

    The most comprehensive database of Chinese poetry 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗. 两宋时期 1564 位词人,21050 首词。

    厉害厉害!

    是不是非常期待看到了,下面的链接就是大佬的项目地址了 https://github.com/chinese-poetry/chinese-poetry

    所有的数据都被作者上传分享了出来,大家可以利用数据做一些诗词类的网站或者 APP 都是非常不错的。

    数据格式已经转成了 JSON,方便导入到各种数据库中。

    分享这些还不够,作者也同时分享了爬取代码,方便你阅读,贴上链接地址:https://ijg.io/r/words/crawl-ci.html

    代码阅读过程中,发现 parsel 库在爬虫百例中竟然还给遗漏了,抽时间加餐篇给大家增加上去。

    写在后面

    本文单纯的为爱好爬取数据的人点赞,希望更多的朋友加入到数据采集的大军中。当然更想让大家看到,用 Python 爬虫可以去做很多自己喜欢的事情,当数据慢慢积累到一定量的时候,你就已经开辟出来一条独特的路线了。

    以下内容无用,为本篇博客被搜索引擎抓取使用
    (* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
    python 是干什么的 零基础学 python 要多久 python 为什么叫爬虫
    python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
    python 基础教程 网络爬虫 python python 爬虫经典例子
    python 爬虫
    (* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
    以上内容无用,为本篇博客被搜索引擎抓取使用

  • 相关阅读:
    POJ2528——Mayor's posters (线段树区间更新查询+离散化)
    C++STL——unique函数总结
    HDU 5618 Jam's problem again(CDQ分治+树状数组(三维模板题))
    c++解决爆栈,手动加栈!
    POJ1741——Tree (树分治之点分治)
    树分治之点分治模板总结
    CodeForces
    字典树
    卡特兰数高精度算法
    基数排序
  • 原文地址:https://www.cnblogs.com/shuchongzeishuai/p/13905493.html
Copyright © 2011-2022 走看看