-
题名《中国语言生活状况报告》中成语与习语的调查与思考
被引量:4
- 1
-
-
作者
曾小兵
张志平
刘荣
杨尔弘
张普
-
机构
北京语言大学应用语言学研究所
太原理工大学文法学院外语系
-
出处
《中文信息学报》
CSCD
北大核心
2008年第6期43-49,共7页
-
文摘
成语与习语的调查是《中国语言生活状况报告》在2007年的新增项目,这表明成语与习语使用情况引起了人们更多的关注。成语与习语的研究在语言应用中有广泛而深刻的意义。该文在基于大规模真实语料调查的基础之上,对成语与习语的使用情况做出了"单字差异"等比较,从中发现一些语言现象并提出了自己的思考,以期对汉语语言事实的发现、语言规律的总结、语言词汇的规范化等方面有所裨益。
-
关键词
计算机应用
中文信息处理
中国语言生活
成语与习语
语言规律
词汇规范
-
Keywords
computer application
Chinese information processing
Chinese language situation
Chinese idioms and idiomatic phrases
linguistic rules
lexicon standardization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文非投射语义依存现象分析研究
被引量:7
- 2
-
-
作者
郑丽娟
邵艳秋
杨尔弘
-
机构
北京语言大学应用语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2014年第6期41-47,共7页
-
基金
国家自然科学基金(61170144)
中央高校基本科研业务费专项基金(14YJ110001)
北京语言大学2014年中青年学术骨干支持计划
-
文摘
汉语是一种语序灵活的语言,句子变式很多,基于传统依存树的投射现象还不能很好解决某些句式的语义理解问题。文章以10 000个句子的汉语语义依存图库为基础,验证并明确了汉语非投射现象的客观存在性,考察了汉语句子中存在的非投射现象,并从语言学和句子深层语义理解的角度对非投射现象进行了归纳和解释。文章总结了7类出现非投射现象的情况,包括小句宾语句、比较句、主谓谓语句、紧缩复句、代词、动补谓语句以及注释短语或复句。这对于自动语义依存标注有重要的指导作用。
-
关键词
语义分析
语义依存
非投射结构
依存图
-
Keywords
semantic analysis
semantic dependency
non projective structure
dependency graph
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语真实文本字母词语考察
被引量:9
- 3
-
-
作者
郑泽之
张普
-
机构
厦门大学中文系
北京语言大学应用语言学研究所
-
出处
《语言科学》
2005年第6期65-74,共10页
-
基金
教育部"国家语言资源监测与研究中心"项目(04L2004-01-01-03)的资助
-
文摘
借助计算机自动提取,本文对2002年《人民日报》(网络版)全年真实文本中外文字母的使用情况进行了统计考察,给出了作者对字母词语中几个问题的分析讨论,包括对外文字母在该报纸语料中使用情况的分类、字母词语的工程界定(ELWP)、单字母ELWP、含数字ELWP的分类分析和并列结构ELWP处理等。希望对字母词语的规范和中文信息处理有所裨益。
-
关键词
ELWP
字母词语
单字母ELWP
含数字ELWP
并列结构
-
Keywords
ELWP
lettered-words
monoalphabetic ELWP
digital ELWP
paratactic structures
-
分类号
H136
[语言文字—汉语]
-
-
题名利用高频词和互信息面向特定领域提取多字词表达
被引量:4
- 4
-
-
作者
刘荣
王丽娟
张志平
赵小兵
-
机构
北京语言大学应用语言学研究所
太原理工大学文法学院外语系
太原理工大学计算机与软件学院
中央民族大学
-
出处
《太原理工大学学报》
CAS
北大核心
2009年第3期210-214,共5页
-
基金
国家自然科学基金资助项目(60663008)
-
文摘
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理。实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高。
-
关键词
多字词表达
特定领域
高频词
互信息
-
Keywords
multiword expressions
specific field
high frequency words
mutual information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个基于ASP的流行语投票系统
被引量:4
- 5
-
-
作者
郑泽之
张普
-
机构
北京语言大学应用语言学研究所
太原师范学院计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第17期11-12,48,共3页
-
基金
国家语委"十五"规划资助项目(YB105-63E)
-
文摘
利用ASP可以直接在HTML文件中嵌入用JavaScript或VBScript脚本语言编写的脚本命令和ADO组件,对任何与ODBC兼容的数据库或OLE DB数据源的高性能连接的优点,结合数据库结构化查询语言(SQL),构建了一个动态交互的投票系统,完成流行语的网上投票。该系统可以修改泛化应用于各种类型的网上投票或调查系统。
-
关键词
ASP
ADO
投票系统
WEB服务器
浏览器
-
Keywords
ASP
ADO
Voting system
Web server
Browser
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于中心/修饰依存重排序模型的短语SMT
被引量:1
- 6
-
-
作者
刘水
李生
赵铁军
刘鹏远
-
机构
哈尔滨工业大学计算机科学与技术系
北京语言大学应用语言学研究所
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第5期1120-1131,共12页
-
基金
国家自然科学基金(60603032)
国家高技术研究发展计划(863)(2006AA010108)
-
文摘
为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合.该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量.在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息.实验结果显示,该模型可以明显地改善机器翻译系统的局部调序.
-
关键词
短语机器翻译
重排序模型
中心修饰依存关系
无词汇化
-
Keywords
phrase-based SMT (statistical machine translation)
reordering model
head-modifier relationship
non-lexicalized
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名量化词语的领域特征
被引量:1
- 7
-
-
作者
刘冬明
杨尔弘
-
机构
中北大学计算机与控制工程学院
北京语言大学应用语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2014年第5期46-50,共5页
-
基金
国家语委"十二五"科研规划项目(YB125-43)
-
文摘
词作为最小的语义单位,同领域之间具有复杂的关系,特别是较为常用的词,通常难以明确界定其所属领域。在某些应用中并非必须确定词和领域的明确关系,仅仅依赖词的领域性的量化值就能够取得较好的效果。该文根据大规模语料库中词的关联信息,采用无指导的方法,对词的领域性进行量化,其结果可以作为词的一种特征应用于文本分类、话题检测、信息检索等相关的自然语言处理中。最后,通过和常用的特征——TF*IDF在话题检测应用中进行对比,证明了其有效性。
-
关键词
词的领域性
话题检测
TF*
IDF
-
Keywords
the domain property of the word
topic deteetion
TF*IDF
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于“中文新闻信息分类与代码”文本分类
被引量:5
- 8
-
-
作者
张志平
-
机构
北京语言大学应用语言研究所
-
出处
《太原理工大学学报》
CAS
北大核心
2010年第4期402-405,411,共5页
-
基金
国家自然科学基金项目(60663008)
国家语言资源监测与研究中心平面媒体语言分中心项目:基于"中文新闻信息分类和代码"的分类语料库建设方法研究资助
-
文摘
基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法。根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词。
-
关键词
文本分类
中文新闻信息分类与代码
新闻文本
-
Keywords
text classification
Chinese-language news classification and code
news texts
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名树库中的歧义组合考察
被引量:1
- 9
-
-
作者
李艳娇
杨尔弘
-
机构
北京语言大学应用语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2012年第2期23-27,101,共6页
-
基金
"中央高校基本科研业务费专项资金"资助
-
文摘
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来消解,仅仅依靠词语的语法特征(如词类信息)是无法解决的。
-
关键词
歧义组合
语义关系
树库
-
Keywords
ambiguous combinations
semantic relations
treebank
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-