期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于BERT的电力领域无监督分词方法
1
作者 陆斯悦 张禄 +3 位作者 李香龙 邢其敬 段大鹏 林华 《信息技术》 2024年第1期96-103,共8页
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部... 目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。 展开更多
关键词 电力文本 中文分词 无监督 BERT 遮蔽语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部