语料库数据性质面面观被引量：1

Aspects of the nature of corpus data

在线阅读下载PDF

导出

摘要通过对语料库数据进行分析得到可靠的语言知识的前提和基础是全面、深入地了解语料库数据的性质,并选用与数据性质对应的数据分析工具。本文通过梳理一些关于语料库数据的研究,尝试对语料库数据特点作出系统性总结。本文发现:语料库数据很多情况下不服从正态分布,语料库数据具有层级嵌套结构,语料库数据具有一定程度的非平衡性、非随机性、非代表性和非独立性,语料库数据潜在地包含固定效应和随机效应因素。针对这些特质,目前较为恰当的语料库数据统计分析工具有秩和检验、混合效应/层级模型等。 To obtain any reliable language knowledge from the corpus data,researchers must have a systematic and thorough understanding of the properties of corpus data and correspondingly choose fitting statistical tools.This study tries to systematically summarize the properties of corpus data through sorting relevant studies on corpus data.We find that corpus data does not necessarily conform to normal distribution;corpus data have hierarchical nested structure;they have some degree of unbalancedness,non-randomness,non-representativeness,and dependence.Besides,corpus data(latently)are influenced by both fixed-effect factors and random effect factors.Fitting statistical analyzing tools include:Mann-Whitney-Wilcoxon rank sum test,mixedeffects/multi-level models,etc.

作者孙仕光 SUN Shiguang

机构地区井冈山大学

出处《语料库语言学》 2020年第1期44-56,114,共14页 Corpus Linguistics

关键词语料库数据数据性质数据分析

分类号 H08 [语言文字—语言学]

引文网络
相关文献

参考文献4

1肖忠华.肖忠华语料库语言学答客问[J].语料库语言学,2015,2(2):1-14. 被引量：8
2冯志伟.论语言学研究中的战略转移[J].现代外语,2011,34(1):1-11. 被引量：17
3葛诗利.语料库间词汇差异的统计方法研究[J].现代外语,2010,33(3):249-257. 被引量：4
4许家金.许家金谈语料库语言学的本体与方法[J].语料库语言学,2014,1(2):35-44. 被引量：20

二级参考文献36

1王立非,钱娟.我国学生英语演讲中的语块特点:基于语料库的考察[J].外语学刊,2009(2):115-120. 被引量：92
2刘海涛,冯志伟.自然语言处理的概率配价模式理论[J].语言科学,2007,6(3):32-41. 被引量：31
3培根.《新工具》[M].商务印书馆,1984..
4Church, K. & W. Gale. 1995. Poisson mixtures[J]. Journal of Natural Language Engineering 1, 2 : 163-190.
5Cohen, B. H. 2008. Explaining Psychological Statistics [M]. NJ: John Wiley & Sons.
6Conover,W.J.2006.实用非参数统计(崔恒建译)[M].北京:人民邮电出版社.
7Davison, A. C. 2008. Statistical Models [M]. Cambridge: Cambridge University Press.
8De Cock, S. 2000. Repetitive phrasal chunkiness and advanced EFL speech and writing [A]. In C. Mair & M. Hundt (eds.). Corpus Linguistics and Linguistic Theory: Papers from the Twentieth International Conference on English Language Research on Computerized Corpra (ICAME 20) [C]. Amsterdam: Rodopi, 51-68.
9Dunning, T. 1993. Accurate methods for the statistics of surprise and coincidence [J]. Computational Linguistics 19: 61-74.
10Everitt, B. S. 1992. The Analysis of Contingency Tables [M]. London: Chapman and Hall.

共引文献44

1安毅,向明友.基于语料库的语用学研究——国际前沿与热点[J].语言学研究,2020(1):139-151. 被引量：1
2钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：5
3董振东,董强,郝长伶.下一站在哪里？[J].中文信息学报,2011,25(6):3-11. 被引量：3
4王庆.“科学”正名及其他[J].学术界,2011(11):113-122. 被引量：7
5鲍贵.我国外语教学研究中的统计分析方法使用调查[J].外语界,2012(1):44-51. 被引量：25
6王恩旭.代词句内指代的影响因素分析[J].语言教学与研究,2012(6):51-58. 被引量：6
7段成钢.普遍唯理论和文化相对论视角下的二语词汇习得策略研究——一项基于二语词汇习得策略中性别因素的实证研究[J].黑龙江高教研究,2013,31(11):161-167. 被引量：2
8钟茜韵,陈新仁.历史语用学研究方法:问题与出路[J].外语教学理论与实践,2014(2):21-26. 被引量：9
9王灏,缪芙蓉.近5年国内有关语料库研究综述——基于我国5种外语类核心期刊(2008—2012)的统计分析[J].鸡西大学学报（综合版）,2014,14(5):128-131.
10邵莉,王克非.鲁迅白话小说译作中句法欧化现象的历时变化——基于语料库的研究方法[J].外语与外语教学,2018(6):133-142. 被引量：13

同被引文献10

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：5
2张柏然.语言资料库与双语词典编纂[J].辞书研究,1995(1):2-10. 被引量：4
3Michael Rundell,夏立新（译）,朱冬生（译）.语料库词典学的最新发展和未来趋势(上)——语料库数据在学习词典中的显性应用[J].辞书研究,2009(3):71-78. 被引量：9
4Michael Rundell,夏立新（译）,朱冬生（译）.语料库词典学的最新发展和未来趋势(下)——语料库数据在学习词典中的显性应用[J].辞书研究,2009(4):81-91. 被引量：6
5刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：1102
6詹卫东.近30年来中文语言知识资源发展及应用[J].语言战略研究,2018,3(4):58-69. 被引量：6
7黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：58
8吕海春.中国辞书数字化发展三十年[J].语言战略研究,2023,8(5):85-96. 被引量：8
9张永伟,吴冰欣.基于网络的第四代语料库分析工具核心功能评介[J].当代语言学,2023,25(4):611-624. 被引量：4
10詹卫东,郭锐,常宝宝,谌贻荣,陈龙.北京大学CCL语料库的研制[J].语料库语言学,2019,6(1):71-86. 被引量：51

引证文献1

1黄攀伟.教材语料库驱动的汉语学生工具书编写——以PEPTC辅助人教学生工具书的编写为例[J].辞书研究,2025(1):42-52.

1王彬彬,李晓燕.互联网平台组织的源起、本质、缺陷与制度重构[J].马克思主义研究,2018(12):65-73. 被引量：59
2卢炳宏.论人工智能创作物独创性判断标准之选择[J].内蒙古社会科学,2020,41(4):102-108. 被引量：23
3冯澎湃,肖楚鹏,郭松,张明敏,李勇,丁凯,李伟.考虑含多敏感负荷的配电网电压暂降脆弱区域辨识方法研究[J].电力系统保护与控制,2020,48(11):36-44. 被引量：15
4高鹏,张宁豫,张臣一,吴剑.基于融合建模的浮选药剂消耗预测研究[J].金属矿山,2020,49(6):131-135. 被引量：3
5粟霞.意识形态的双重特性及其在当代中国的建设[J].攀登（哲学社会科学版）,2020,39(3):70-74.
6吴文琪,焦爱权,杨月月,赵淑娜,金征宇.反应挤出与酶法联合制备多孔淀粉工艺的优化[J].食品工业科技,2020,41(14):114-119. 被引量：3

语料库语言学

2020年第1期

浏览历史

内容加载中请稍等...

语料库数据性质面面观被引量：1

参考文献4

二级参考文献36

共引文献44

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

语料库数据性质面面观 被引量：1

参考文献4

二级参考文献36

共引文献44

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

语料库数据性质面面观被引量：1