随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据...随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。展开更多
为提高水产动物疾病防治事件抽取的准确性,有效解决抽取过程中出现的专有名词边界模糊和事件实体过长等问题,本研究将动态权重思想引入多模型集成的事件抽取方法中。改进后的方法利用百度自然语言理解开放平台(enhanced representation ...为提高水产动物疾病防治事件抽取的准确性,有效解决抽取过程中出现的专有名词边界模糊和事件实体过长等问题,本研究将动态权重思想引入多模型集成的事件抽取方法中。改进后的方法利用百度自然语言理解开放平台(enhanced representation through knowledge integration,ERNIE)和澎湃BERT(MLM as correction BERT,MacBERT)2个预训练模型来学习文本语义信息;采用动态权重的gate模块融合特征;将学习到的语义信息传入双向长短时记忆网络(bi-directional long shortterm memory,BiLSTM)中,并通过条件随机场(conditional random field,CRF)对输出标签序列进行约束。选取ERNIE⊕MacBERT-CRF模型和ERNIE⊕MacBERT-BiLSTM-CRF模型(⊕代表简单相加求平均的融合方法)作为对照模型对提出的方法进行融合性能对比试验验证,结果显示,该方法 F1值达74.15%,比经典模型BiLSTM-CRF提高了20.02个百分点。结果表明,该方法用于水产动物疾病防治事件抽取具有更好的效果。展开更多
文摘随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。
文摘为提高水产动物疾病防治事件抽取的准确性,有效解决抽取过程中出现的专有名词边界模糊和事件实体过长等问题,本研究将动态权重思想引入多模型集成的事件抽取方法中。改进后的方法利用百度自然语言理解开放平台(enhanced representation through knowledge integration,ERNIE)和澎湃BERT(MLM as correction BERT,MacBERT)2个预训练模型来学习文本语义信息;采用动态权重的gate模块融合特征;将学习到的语义信息传入双向长短时记忆网络(bi-directional long shortterm memory,BiLSTM)中,并通过条件随机场(conditional random field,CRF)对输出标签序列进行约束。选取ERNIE⊕MacBERT-CRF模型和ERNIE⊕MacBERT-BiLSTM-CRF模型(⊕代表简单相加求平均的融合方法)作为对照模型对提出的方法进行融合性能对比试验验证,结果显示,该方法 F1值达74.15%,比经典模型BiLSTM-CRF提高了20.02个百分点。结果表明,该方法用于水产动物疾病防治事件抽取具有更好的效果。