# NLPCC-MH **Repository Path**: wavewangyue/NLPCC-MH ## Basic Information - **Project Name**: NLPCC-MH - **Description**: 中文多跳问答数据集 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2018-07-03 - **Last Updated**: 2023-06-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # NLPCC-MH 中文多跳问答数据集 本数据集在如下论文中被提出,由于目前问答领域内尚缺乏开放的面向多跳问题的中文QA数据集,为了验证文中模型在多跳问题上的有效性,故制作此数据集服务于论文进行实验验证 > Yue Wang, Richong Zhang. 基于动态规划的知识库问答方法. CCKS(China Conference on Knowledge Graph and Semantic Computing). 2018. #### 数据集说明 在中文开放领域问答数据集上,NLPCC 2016 在 Open Domain Chinese Question Answering 挑战任务中发布了关于中文 KBQA 数据集,包含 14,609 条训练数据及 9,870 条测试数据。但数据仅包含单跳问题。 由于目前领域内尚缺乏开放的面向多跳问题的中文 QA 数据集,为了验证模型在多跳问题上的有效性,我们基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了一个专注多跳问题的中文 KBQA 数据集,即“NLPCC-MH” 具体构建方法如下:首先在知识库中对原问题中包含的实体进行检索,再将检索到的相关三元组通过模板形成短语文本,替换原问题中的实体名。例如对于单跳问题“谁饰演了快银”,我们在知识库中检索到与实体“快银”相关的三元组“(万磁王, 儿子, 快银)”,再基于此将原问句中的实体名进行替换,得到两跳问题“谁饰演了万磁王的儿子”。进一步可以继续检索与实体“万磁王”相关的三元组“(变形女, 上司, 万磁王)”,将此问题扩充为三跳问题“谁饰演了变形女的上司的儿子”。最后经过我们的筛选与统计,NLPCC-MH 数据集共包含 4,000 条训练数据与 1,000 条测试数据,数据涵盖 2-3 跳的问题,其中 2 跳问题占80\%,3 跳问题占20\% #### 数据格式 ``` [{ "q": "假蒟叶的亚目有多少亚种?", "path": [ [ "假蒟叶 ||| 6401559", "亚目", "胡椒科 ||| 4604040" ], [ "胡椒科 ||| 4604040", "亚种", "共3100种 ||| 0" ] ] }, …… ] ``` 数据以 JSON 形式存储,每条数据中包含 “q” 与 “path” 两项内容,前者是问题文本,后者为回答此问题所需的三元组序列,以列表形式表示,每个三元组也以长度为 3 的列表进行表示,依次分别为“头实体”,“关系”,“尾实体”,其中实体以“名称 ||| 实体id”的形式进行表征,实体id为每个实体的唯一标识,此编号来源于北航“知行”知识图谱数据库,编号 0 则表征此实体并非真实存在的实体,只是属性值。 #### 使用说明 随意使用,欢迎下载。 数据集的构建方式比较简单,严格来说数据集质量一般,如需使用建议斟酌。数据的突出问题表现为以下几类: 1. 知识库链接问题。如“请问雪玉剑的作者和什么相对”,标准答案为“(雪玉剑,作者,近墨者黑);(近墨者黑,相对,近朱者赤)”,但是在前一个三元组中的“近墨者黑”是一个人的笔名,和后一个三元组中的成语“近墨者黑”已经不是同一实体,针对此类问题已经进行了些许改进,但此类问题数据仍存在。 2. 多值关系的歧义。如“请问阿贝尔的兄弟姐妹主要掌管什么”,标准答案为“(阿贝尔,兄弟姐妹,阿尔忒弥斯);(阿尔忒弥斯,司掌,净化)”,但“阿贝尔”可能会存在多个其他的“兄弟姐妹”,这里并没有完整考虑进答案内容。 3. 多跳可能经过原点的乌龙。如"请问阿尔忒弥斯的其他名称的别称代表着什么啊?",标准答案为“(阿尔忒弥斯,其他名称,狄安娜);(狄安娜,别称,阿尔忒弥斯);(阿尔忒弥斯,象征,松柏)”,多跳过程中从 A 通过“其他名称”跳到 B,由随即通过“别称”跳回了 A,其实很尴尬的事情,已经做了一些限定来调整但问题数据仍有存在。 #### 联系 最后,如果此数据集帮助到了你,倍感荣幸 wangyue16@act.buaa.edu.cn