文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和...文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.展开更多
针对"基于像素的条件随机场(conditional random fields,CRFs)模型能否在m级分辨率的多光谱遥感图像分类中表现良好"的问题,提出了集成图像的光谱、方向梯度直方图和多尺度多方向Texton纹理等多种线索的CRFs模型定义方法。利...针对"基于像素的条件随机场(conditional random fields,CRFs)模型能否在m级分辨率的多光谱遥感图像分类中表现良好"的问题,提出了集成图像的光谱、方向梯度直方图和多尺度多方向Texton纹理等多种线索的CRFs模型定义方法。利用上述特征,选择随机森林(random forests,RF)定义CRFs关联势函数;利用特征对比度加权的Potts函数定义CRFs交互势函数,并且建立了多标签的RF-CRFs模型;对该模型进行分项参数训练以及基于图割的α-膨胀算法推理;利用典型城区的Quick Bird多光谱图像进行模型的验证与精度评价。结果表明RF-CRFs模型的分类精度可达82.52%以上,比RF分类器的分类精度提高了3.35%。展开更多
文摘文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.
文摘针对"基于像素的条件随机场(conditional random fields,CRFs)模型能否在m级分辨率的多光谱遥感图像分类中表现良好"的问题,提出了集成图像的光谱、方向梯度直方图和多尺度多方向Texton纹理等多种线索的CRFs模型定义方法。利用上述特征,选择随机森林(random forests,RF)定义CRFs关联势函数;利用特征对比度加权的Potts函数定义CRFs交互势函数,并且建立了多标签的RF-CRFs模型;对该模型进行分项参数训练以及基于图割的α-膨胀算法推理;利用典型城区的Quick Bird多光谱图像进行模型的验证与精度评价。结果表明RF-CRFs模型的分类精度可达82.52%以上,比RF分类器的分类精度提高了3.35%。
文摘该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。