期刊文献+

语料库数据性质面面观 被引量:1

Aspects of the nature of corpus data
在线阅读 下载PDF
导出
摘要 通过对语料库数据进行分析得到可靠的语言知识的前提和基础是全面、深入地了解语料库数据的性质,并选用与数据性质对应的数据分析工具。本文通过梳理一些关于语料库数据的研究,尝试对语料库数据特点作出系统性总结。本文发现:语料库数据很多情况下不服从正态分布,语料库数据具有层级嵌套结构,语料库数据具有一定程度的非平衡性、非随机性、非代表性和非独立性,语料库数据潜在地包含固定效应和随机效应因素。针对这些特质,目前较为恰当的语料库数据统计分析工具有秩和检验、混合效应/层级模型等。 To obtain any reliable language knowledge from the corpus data,researchers must have a systematic and thorough understanding of the properties of corpus data and correspondingly choose fitting statistical tools.This study tries to systematically summarize the properties of corpus data through sorting relevant studies on corpus data.We find that corpus data does not necessarily conform to normal distribution;corpus data have hierarchical nested structure;they have some degree of unbalancedness,non-randomness,non-representativeness,and dependence.Besides,corpus data(latently)are influenced by both fixed-effect factors and random effect factors.Fitting statistical analyzing tools include:Mann-Whitney-Wilcoxon rank sum test,mixedeffects/multi-level models,etc.
作者 孙仕光 SUN Shiguang
机构地区 井冈山大学
出处 《语料库语言学》 2020年第1期44-56,114,共14页 Corpus Linguistics
  • 相关文献

参考文献4

二级参考文献36

  • 1王立非,钱娟.我国学生英语演讲中的语块特点:基于语料库的考察[J].外语学刊,2009(2):115-120. 被引量:92
  • 2刘海涛,冯志伟.自然语言处理的概率配价模式理论[J].语言科学,2007,6(3):32-41. 被引量:31
  • 3培根.《新工具》[M].商务印书馆,1984..
  • 4Church, K. & W. Gale. 1995. Poisson mixtures[J]. Journal of Natural Language Engineering 1, 2 : 163-190.
  • 5Cohen, B. H. 2008. Explaining Psychological Statistics [M]. NJ: John Wiley & Sons.
  • 6Conover,W.J.2006.实用非参数统计(崔恒建译)[M].北京:人民邮电出版社.
  • 7Davison, A. C. 2008. Statistical Models [M]. Cambridge: Cambridge University Press.
  • 8De Cock, S. 2000. Repetitive phrasal chunkiness and advanced EFL speech and writing [A]. In C. Mair & M. Hundt (eds.). Corpus Linguistics and Linguistic Theory: Papers from the Twentieth International Conference on English Language Research on Computerized Corpra (ICAME 20) [C]. Amsterdam: Rodopi, 51-68.
  • 9Dunning, T. 1993. Accurate methods for the statistics of surprise and coincidence [J]. Computational Linguistics 19: 61-74.
  • 10Everitt, B. S. 1992. The Analysis of Contingency Tables [M]. London: Chapman and Hall.

共引文献44

同被引文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部