期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
1
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
在线阅读 下载PDF
基于远距离监督和模式匹配的职衔履历属性抽取 被引量:2
2
作者 于东 刘春花 田悦 《计算机应用》 CSCD 北大核心 2016年第2期455-459,464,共6页
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具... 针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。 展开更多
关键词 人物属性抽取 职衔履历信息 远距离监督 模式匹配 规则过滤
在线阅读 下载PDF
基于知网义原词向量表示的无监督词义消歧方法 被引量:16
3
作者 唐共波 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期23-29,共7页
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文... 词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。 展开更多
关键词 词向量 《知网》 词义消歧 无监督方法
在线阅读 下载PDF
一种基于三维空间信息的字形匹配方法 被引量:1
4
作者 刘颖滨 孙燕南 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期81-88,共8页
提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier曲线的二维控制点集扩展至三维,然后为三维点集建立高斯混合模型,最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含... 提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier曲线的二维控制点集扩展至三维,然后为三维点集建立高斯混合模型,最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含的内在约束条件。采用高斯混合模型有利于在匹配过程中保持字形整体结构特征和局部书写特征。实验结果表明,该方法提升了汉字单笔画以及整字字形匹配的准确度和美观度,并且具有稳定性高、扩展性强的特点。 展开更多
关键词 字形匹配 高斯混合模型 点集匹配 三维空间
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部