期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于自然标注信息和隐含主题模型的无监督文本特征抽取
被引量:
4
1
作者
饶高琦
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现...
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。
展开更多
关键词
自然标注信息
自然语块
隐含主题模型
领域特征
文体特征
在线阅读
下载PDF
职称材料
基于远距离监督和模式匹配的职衔履历属性抽取
被引量:
2
2
作者
于东
刘春花
田悦
《计算机应用》
CSCD
北大核心
2016年第2期455-459,464,共6页
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具...
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。
展开更多
关键词
人物属性抽取
职衔履历信息
远距离监督
模式匹配
规则过滤
在线阅读
下载PDF
职称材料
基于知网义原词向量表示的无监督词义消歧方法
被引量:
16
3
作者
唐共波
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015年第6期23-29,共7页
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文...
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。
展开更多
关键词
词向量
《知网》
词义消歧
无监督方法
在线阅读
下载PDF
职称材料
一种基于三维空间信息的字形匹配方法
被引量:
1
4
作者
刘颖滨
孙燕南
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016年第1期81-88,共8页
提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier曲线的二维控制点集扩展至三维,然后为三维点集建立高斯混合模型,最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含...
提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier曲线的二维控制点集扩展至三维,然后为三维点集建立高斯混合模型,最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含的内在约束条件。采用高斯混合模型有利于在匹配过程中保持字形整体结构特征和局部书写特征。实验结果表明,该方法提升了汉字单笔画以及整字字形匹配的准确度和美观度,并且具有稳定性高、扩展性强的特点。
展开更多
关键词
字形匹配
高斯混合模型
点集匹配
三维空间
在线阅读
下载PDF
职称材料
题名
基于自然标注信息和隐含主题模型的无监督文本特征抽取
被引量:
4
1
作者
饶高琦
于东
荀恩东
机构
北京语言大学大数据与语言教育研究所
中国
语言
政策与标准
研究所
出处
《中文信息学报》
CSCD
北大核心
2015年第6期141-149,共9页
基金
国家自然科学基金(61300081
61170162)
+2 种基金
国家社科重大基金(12&ZD173)
国家语委科研基金(YB125-42)
北京语言大学研究生创新基金(14YCX074)
文摘
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。
关键词
自然标注信息
自然语块
隐含主题模型
领域特征
文体特征
Keywords
natural annotation
natural chunk
latent topic model
domain feature
stylistic features
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于远距离监督和模式匹配的职衔履历属性抽取
被引量:
2
2
作者
于东
刘春花
田悦
机构
北京语言大学大数据与语言教育研究所
北京语言大学
信息科学学院
出处
《计算机应用》
CSCD
北大核心
2016年第2期455-459,464,共6页
基金
国家自然科学基金资助项目(61300081)
中央高校基本科研业务费专项资金资助项目(北京语言大学科研项目:15YJ030006)~~
文摘
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。
关键词
人物属性抽取
职衔履历信息
远距离监督
模式匹配
规则过滤
Keywords
personal attributes extraction
title and career information
distant supervision
pattern matching
rule filtering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于知网义原词向量表示的无监督词义消歧方法
被引量:
16
3
作者
唐共波
于东
荀恩东
机构
北京语言大学大数据与语言教育研究所
北京语言大学
信息科学学院
出处
《中文信息学报》
CSCD
北大核心
2015年第6期23-29,共7页
基金
国家自然科学基金(61300081
61170162)
北京语言大学研究生创新基金项目(中央高校基本科研业务费专项资金)(15YCX100)
文摘
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。
关键词
词向量
《知网》
词义消歧
无监督方法
Keywords
word embedding
HowNet
WSD
unsupervised methods
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于三维空间信息的字形匹配方法
被引量:
1
4
作者
刘颖滨
孙燕南
荀恩东
机构
北京语言大学大数据与语言教育研究所
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016年第1期81-88,共8页
基金
国家自然科学基金(61170162
61202249)
国家语言文字工作委员会科研项目(YB125-42)资助
文摘
提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier曲线的二维控制点集扩展至三维,然后为三维点集建立高斯混合模型,最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含的内在约束条件。采用高斯混合模型有利于在匹配过程中保持字形整体结构特征和局部书写特征。实验结果表明,该方法提升了汉字单笔画以及整字字形匹配的准确度和美观度,并且具有稳定性高、扩展性强的特点。
关键词
字形匹配
高斯混合模型
点集匹配
三维空间
Keywords
Chinese calligraphy alignment
Gaussian Mixture Model
point set registration
3D point set
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于自然标注信息和隐含主题模型的无监督文本特征抽取
饶高琦
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015
4
在线阅读
下载PDF
职称材料
2
基于远距离监督和模式匹配的职衔履历属性抽取
于东
刘春花
田悦
《计算机应用》
CSCD
北大核心
2016
2
在线阅读
下载PDF
职称材料
3
基于知网义原词向量表示的无监督词义消歧方法
唐共波
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015
16
在线阅读
下载PDF
职称材料
4
一种基于三维空间信息的字形匹配方法
刘颖滨
孙燕南
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2016
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部