最全中华古诗词数据库, 唐宋两朝近一万四千古诗人

chinese-poetry

Build Status
License
[tang poetry]()
[song poetry]()
[song ci]()

最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.

为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝, 我们应该传承下去, 虽然有古典文集, 但大多数人并没有拥有这些书籍. 从某种意义上来说, 这些庞大的文集离我们是有一定距离的。而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你.

古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析.

数据分析

一些简单的高频分析

唐诗高频词唐诗作者作品榜
唐诗高频词唐诗作者作品榜
宋诗高频词宋诗作者作品榜
宋诗高频词宋诗作者作品榜
宋词高频词宋词作者作品榜
宋词高频词宋词作者作品榜
两宋喜欢的词牌名
两宋喜欢的词牌名

数据分发形式

古诗数据分发采用繁体字的分组JSON文件, 保留繁体能更大程度地保存原数据. 宋词数据分发采用sqlite数据库, 使用简体字(无原因, 采集源就是简体, 如需繁体请自行转换).

其他类型结构数据

转换数据库格式工具

古诗JSON结构

[
  {
    "strains": [
      "平平平仄仄,平仄仄平平。",
      "仄仄平平仄,平平仄仄平。",
      "平平平仄仄,平仄仄平平。",
      "平仄仄平仄,平平仄仄平。"
    ],
    "author": "太宗皇帝",
    "paragraphs": [
      "秦川雄帝宅,函谷壯皇居。",
      "綺殿千尋起,離宮百雉餘。",
      "連甍遙接漢,飛觀迥凌虛。",
      "雲日隱層闕,風煙出綺疎。"
    ],
    "title": "帝京篇十首 一"
  },
  ... 每单个JSON文件1000条唐诗记录.
]

作者JSON结构

[
  {
    "name": "太宗皇帝",
    "desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"
  },
  ...
]

案例展示

公众号

贡献&讨论

提交issue来优化完善此数据库, 你也可以联系我的邮箱 gaojunqi@outlook.com

创建和维护chinese-poetry需要花费很多的时间和资源. 如果此数据库对您有很大的帮助, 请酌情考虑打赏作者.

License

MIT 许可证.

[gitwidget type='github' url='chinese-poetry/chinese-poetry']

随机文章推荐:

添加新评论