针对文本特征提取时缺乏考虑句子的上下文判别性特征以及未能充分利用实例和关系标签之间的关联信息的问题,提出一种结合语义增强和感知注意力的关系抽取方法(SPRE)。首先,在句子特征编码阶段,构建语义增强机制(SEM)提取句子的显著性语...针对文本特征提取时缺乏考虑句子的上下文判别性特征以及未能充分利用实例和关系标签之间的关联信息的问题,提出一种结合语义增强和感知注意力的关系抽取方法(SPRE)。首先,在句子特征编码阶段,构建语义增强机制(SEM)提取句子的显著性语义特征,通过实体感知词嵌入和显著特征感知(SFP)得到显著信息增强的句子表示;其次,设计感知注意力机制(PAM)整合句子特征,通过感知句子与关系标签之间的语义信息、句子的实体类型与对应关系的实体类型之间的一致性信息,以及句子之间的相似性信息评估句子与关系标签的匹配程度,充分利用包中实例与关系标签的依赖关系,进一步提高方法的降噪能力;最后,利用分类器进行关系预测并根据预测结果与实际结果的交叉熵调整网络参数。在NYT-10(New York Times 10)和GDS(Google Distant Supervision)数据集上的实验结果表明,在NYT-10数据集上,与基于BERT(Bidirectional Encoder Representations from Transformers)的关系抽取方法PARE(Passage-Attended Relation Extraction)相比,所提方法在曲线下面积(AUC)上提升了2.1个百分点,在按置信度降序排列后前100、200和300条数据精确率Precision@N(P@N)的平均值P@M上提升了2.4个百分点;在GDS数据集上,所提方法的AUC和P@M分别达到了90.5%和97.8%。所提方法在上述2个数据集上均明显优于主流的远程监督关系抽取方法,验证了该方法的有效性。可见,在主流的远程监督关系抽取任务中,所提方法能有效地提升模型对数据特征的学习能力。展开更多
变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针...变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针对上述问题,提出一种加权最近邻分配的局部间隙密度聚类(Weighted Nearest Neighbor Distribution of Local Gap Density Clustering,WKNN-LGD)算法,采用类似半监督学习的方法,利用得到的聚类信息,把未分配的点分配给最可能的簇.该算法充分考虑数据间的结构关联性,并在传播的过程中不断更新数据的状态,利用更充分的信息提高分配正确率.WKNN-LGD算法主要有三个步骤:首先,计算局部间隙密度,并根据阈值区分核心点和边界点;然后,删除交叉边,并根据最大顶点基数形成簇骨干;最后,利用加权K近邻分配方法,将剩余点分配到形成的簇骨干中,形成最终簇.在人工数据集和真实数据集上,和目前主流的聚类算法进行比较验证,实验结果表明,WKNN-LGD算法在性能和鲁棒性方面表现优越,并可以处理流形和非线性等复杂数据.展开更多
文摘针对文本特征提取时缺乏考虑句子的上下文判别性特征以及未能充分利用实例和关系标签之间的关联信息的问题,提出一种结合语义增强和感知注意力的关系抽取方法(SPRE)。首先,在句子特征编码阶段,构建语义增强机制(SEM)提取句子的显著性语义特征,通过实体感知词嵌入和显著特征感知(SFP)得到显著信息增强的句子表示;其次,设计感知注意力机制(PAM)整合句子特征,通过感知句子与关系标签之间的语义信息、句子的实体类型与对应关系的实体类型之间的一致性信息,以及句子之间的相似性信息评估句子与关系标签的匹配程度,充分利用包中实例与关系标签的依赖关系,进一步提高方法的降噪能力;最后,利用分类器进行关系预测并根据预测结果与实际结果的交叉熵调整网络参数。在NYT-10(New York Times 10)和GDS(Google Distant Supervision)数据集上的实验结果表明,在NYT-10数据集上,与基于BERT(Bidirectional Encoder Representations from Transformers)的关系抽取方法PARE(Passage-Attended Relation Extraction)相比,所提方法在曲线下面积(AUC)上提升了2.1个百分点,在按置信度降序排列后前100、200和300条数据精确率Precision@N(P@N)的平均值P@M上提升了2.4个百分点;在GDS数据集上,所提方法的AUC和P@M分别达到了90.5%和97.8%。所提方法在上述2个数据集上均明显优于主流的远程监督关系抽取方法,验证了该方法的有效性。可见,在主流的远程监督关系抽取任务中,所提方法能有效地提升模型对数据特征的学习能力。
文摘变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针对上述问题,提出一种加权最近邻分配的局部间隙密度聚类(Weighted Nearest Neighbor Distribution of Local Gap Density Clustering,WKNN-LGD)算法,采用类似半监督学习的方法,利用得到的聚类信息,把未分配的点分配给最可能的簇.该算法充分考虑数据间的结构关联性,并在传播的过程中不断更新数据的状态,利用更充分的信息提高分配正确率.WKNN-LGD算法主要有三个步骤:首先,计算局部间隙密度,并根据阈值区分核心点和边界点;然后,删除交叉边,并根据最大顶点基数形成簇骨干;最后,利用加权K近邻分配方法,将剩余点分配到形成的簇骨干中,形成最终簇.在人工数据集和真实数据集上,和目前主流的聚类算法进行比较验证,实验结果表明,WKNN-LGD算法在性能和鲁棒性方面表现优越,并可以处理流形和非线性等复杂数据.