-
题名基于BERT的电力领域无监督分词方法
- 1
-
-
作者
陆斯悦
张禄
李香龙
邢其敬
段大鹏
林华
-
机构
国网北京市电力公司电力科学研究院
-
出处
《信息技术》
2024年第1期96-103,共8页
-
基金
国网北京市电力公司科技项目(520223200066)。
-
文摘
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。
-
关键词
电力文本
中文分词
无监督
BERT
遮蔽语言模型
-
Keywords
power text
Chinese word segmentation
unsupervision
BERT
MLM
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-