-
题名基于点互信息和注意力机制的文化元素命名实体识别
- 1
-
-
作者
张雯钰
齐林
-
机构
北京信息科技大学经济管理学院
-
出处
《数字技术与应用》
2024年第12期165-168,共4页
-
文摘
为了解决传统文化语料数据集匮乏,以及古汉语存在一词多义现象,导致古文表征使用Word2vec难以表示古文丰富语义信息等问题,本文构建了传统文化语料数据集,并提出了一种基于点互信息和注意力机制的文化元素命名实体识别算法。首先,为捕捉词汇间语义关联关系,在嵌入层引入点互信息(Pointwise Mutual Information,PMI)以增强文本向量表示,丰富语义信息;其次,在上下文编码层采用BiLSTM-CRF模型,并在其中引入自注意力机制,聚焦于文本关键信息,增强文化元素识别效果;最后,实验结果表明,本文提出的算法的准确率、召回率和F 1值分别为74.56%、72.81%、73.67%,与其他命名实体识别算法相比,有效提高了文化元素识别的准确性。
-
关键词
注意力机制
命名实体识别
点互信息
语义信息
实体识别算法
语义关联
PMI
召回率
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名数据ETL过程中的实体识别方法
被引量:2
- 2
-
-
作者
彭银桥
甘元驹
彭凌西
邓锐
-
机构
湛江海洋大学信息学院
-
出处
《现代电子技术》
2005年第7期44-46,共3页
-
文摘
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、 96.5%,能够满足工程应用的要求。
-
关键词
数据ETL
相似重复记录
实体识别算法
实体识别过程框架
-
Keywords
data ETL
duplicate records
entity identification algorithms
entity identification process frame
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据ETL过程中的实体识别方法
被引量:3
- 3
-
-
作者
彭银桥
甘元驹
邓锐
彭凌西
-
机构
湛江海洋大学信息学院
-
出处
《信息技术》
2005年第2期22-24,共3页
-
文摘
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。
-
关键词
数据ETL
相似重复记录
实体识别算法
实体识别过程框架
-
Keywords
data ETL
duplicate records
entity identification algorithms
entity identification process frame
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-