数据论文是数据集的描述文档。追踪数据论文引用情况,有助于更好地了解数据出版及其数据开放共享情况。为更好地支持引文语义研究需要,本文提出一种引文文献语料自动抽取方法。该方法围绕数据论文施引文献及其元数据,提供一套涵盖引文...数据论文是数据集的描述文档。追踪数据论文引用情况,有助于更好地了解数据出版及其数据开放共享情况。为更好地支持引文语义研究需要,本文提出一种引文文献语料自动抽取方法。该方法围绕数据论文施引文献及其元数据,提供一套涵盖引文全文结构化清洗、参考文献搜索匹配、引文文本遍历、引文位置识别与引文段落自动抽取,最终整编形成引文语料数据集的全过程解决方案。选取地球科学领域数据期刊《地球系统科学数据》(Earth System Science Data,ESSD)2014至2023年间引用量前十名数据论文的6007篇施引文献,采取自动化方法、辅助人工校验,形成包括10459条引文段落信息在内的语料数据集。经检验,该自动化方法具有较高质量和可靠性,其查全率达97.37%,结合人工质控后,数据集抽样准确率达到92.54%。该引文语料自动抽取方法以及ESSD语料数据集实例的整编实践,为更好地了解数据出版与共享提供了数据支撑,亦可为其他引文语料数据集的建设使用。展开更多
文摘数据论文是数据集的描述文档。追踪数据论文引用情况,有助于更好地了解数据出版及其数据开放共享情况。为更好地支持引文语义研究需要,本文提出一种引文文献语料自动抽取方法。该方法围绕数据论文施引文献及其元数据,提供一套涵盖引文全文结构化清洗、参考文献搜索匹配、引文文本遍历、引文位置识别与引文段落自动抽取,最终整编形成引文语料数据集的全过程解决方案。选取地球科学领域数据期刊《地球系统科学数据》(Earth System Science Data,ESSD)2014至2023年间引用量前十名数据论文的6007篇施引文献,采取自动化方法、辅助人工校验,形成包括10459条引文段落信息在内的语料数据集。经检验,该自动化方法具有较高质量和可靠性,其查全率达97.37%,结合人工质控后,数据集抽样准确率达到92.54%。该引文语料自动抽取方法以及ESSD语料数据集实例的整编实践,为更好地了解数据出版与共享提供了数据支撑,亦可为其他引文语料数据集的建设使用。