NLP部分数据集共享
来自:☁
2021.1.9跟新
整理了一下,我这现在有DUC2003、DUC2004、Gigaword、CNN/Daily Mail 、Mul-ti Times、New York Times、KBP2014、KBP2015、 LCSTS 等数据集,需要啥的请直接邮件:2059371445@qq.com,或微信: jzlcream。(因私信人较多耗废部分时间2021/6/6后需要的收50RMB/份手续费)感谢体谅~
1.DUC有500篇文档,每篇文章对应四个摘要(文本较短)

DUC2004
2.Gigaword文本与摘要都非常非常短 ,训练集有3803957篇 。如下图

Gigaword

Gigaword(train.src)
3.
Multi-New是长文本多文档语料, 我这里的是将多文档拼成单文档的缩减版本(文本非常长)

Multi-News

Multi-News
4.CNN/Daily Mail 文本与摘要都比较长,篇章数如下

CNN/Daily Mail
5.New York Times从LDC官网下载下来的有1987-2007年的,原格式是xml的。可以根据需要自己写代码整理自己要的。我是做摘要自己整理了2003-2007年的。

New York Times
原格式是xml:

2003-2007年抽取出文章与摘要整理后大小与内容格式:

NYT2003-2007年抽取出文章与摘要整理后大小

2003-2007年抽取出文章与摘要整理后内容
6.KBP下载于LDC官网:

2014KBP目录示例

目录内文档示例

文档内详细内容示例
7.中文数据集LCSTS:

所含目录
8.其余未详细展示的数据集(需要的可以自己看一下):

你的回复
回复请先 登录 , 或 注册相关内容推荐
最新讨论 ( 更多 )
- 有没有接NLP的活的? (xline)
- NLP数据集共享、LDC语料 (LDCcorpus)
- 🌟 推出 "Awesome-Awesome-Artificial-Intelligence" GitHu... (赵志民)
- 探索榜单新天地:我们组的最新研究和超实用榜单资源上线啦! (赵志民)
- 有偿采访 (Double)