期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于自然标注信息和隐含主题模型的无监督文本特征抽取
被引量:
4
1
作者
饶高琦
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现...
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。
展开更多
关键词
自然标注信息
自然
语块
隐含主题模型
领域特征
文体特征
在线阅读
下载PDF
职称材料
语料库自然标注信息与中文分词应用研究(英文)
被引量:
2
2
作者
饶高琦
修驰
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。...
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
展开更多
关键词
自然标注信息
中文分词
词语抽取
大规模语料库
在线阅读
下载PDF
职称材料
题名
基于自然标注信息和隐含主题模型的无监督文本特征抽取
被引量:
4
1
作者
饶高琦
于东
荀恩东
机构
北京语言大学大数据与语言教育研究所
中国语言政策与标准研究所
出处
《中文信息学报》
CSCD
北大核心
2015年第6期141-149,共9页
基金
国家自然科学基金(61300081
61170162)
+2 种基金
国家社科重大基金(12&ZD173)
国家语委科研基金(YB125-42)
北京语言大学研究生创新基金(14YCX074)
文摘
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。
关键词
自然标注信息
自然
语块
隐含主题模型
领域特征
文体特征
Keywords
natural annotation
natural chunk
latent topic model
domain feature
stylistic features
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
语料库自然标注信息与中文分词应用研究(英文)
被引量:
2
2
作者
饶高琦
修驰
荀恩东
机构
北京语言大学信息科学学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013年第1期140-146,共7页
基金
国家自然科学基金(60973062,61170162)
中央高校基本科研业务费专项资金(2012-jbyz-001)资助
文摘
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
关键词
自然标注信息
中文分词
词语抽取
大规模语料库
Keywords
natural annotation
Chinese word segmentation
word extraction
large-scale corpora
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于自然标注信息和隐含主题模型的无监督文本特征抽取
饶高琦
于东
荀恩东
《中文信息学报》
CSCD
北大核心
2015
4
在线阅读
下载PDF
职称材料
2
语料库自然标注信息与中文分词应用研究(英文)
饶高琦
修驰
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部