-
题名基于小规模语料库和机器可读词典的二元分布语义获取
被引量:2
- 1
-
-
作者
郝秀兰
杨尔弘
-
机构
太原师范学院网络中心
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2004年第6期23-29,共7页
-
基金
山西省青年基金资助项目 (2 0 0 0 10 17)
-
文摘
本文提出了一种基于小规模语料库和机器可读词典 (MachineReadableDictionary ,MRD)的无指导的动词语义获取方法。该方法不需要使用有义项标注的语料库 ,而是使用从语料中获得的V +N搭配以及MRD中多义词定义的应用实例中获得的知识。使用两种方法解决数据稀疏问题 :首先 ,将词的相似性度量由直接共现扩展到共现词的共现 ,以共现聚类而不是共现词来计算词的相似度。其次 ,从MRD定义中获取名词的IS-A关系。通过这些方法 ,即使两个词不共享任何词 ,也可认为是相似的。实验表明 ,该方法可从很小规模的语料中获取知识 ,并在不限制词义的情况下达到 85 7%的正确排歧率。
-
关键词
人工智能
自然语言处理
机器可读词典
二元分布
语义
知识获取
-
Keywords
artificial intelligence
natural language processing
MRD
dual distribution
semantic
knowledge acquisition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名机器可读词典的快速查找技术
被引量:2
- 2
-
-
作者
张永奎
Cowie,JR
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
1994年第2期20-25,共6页
-
文摘
本文叙述了用于直接访问由可变长记录组成的顺序式词典文件中各个词条的一种方法。这种方法以trie索引为基础,避免了重新组织词典文件。Trie索引是一个深度可变的多层次索引,深度的控制取决于为存放索引可提供的合理的内存量,本方法可满足查找一个词条只需要一次磁盘访问的理想要求。
-
关键词
机器可读词典
trie索引
访问
查找
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于机器可读词典的词汇知识抽取
- 3
-
-
作者
樊玉俊
胡熠
陆汝占
-
机构
上海交通大学计算机科学系
-
出处
《计算机应用与软件》
CSCD
北大核心
2008年第6期8-10,共3页
-
基金
国家自然科学基金重大项目"非规范知识的基本理论和核心技术"(60496326)的支持
-
文摘
越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。
-
关键词
词汇知识
机器可读词典
模板抽取
最大熵
-
Keywords
Lexical knowledge Machine readable dictionary Pattern extraction Maximum Entropy
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP391.1
[自动化与计算机技术—计算机应用技术]
-