-
题名汉语词同现网络的小世界效应和无标度特性
被引量:41
- 1
-
-
作者
刘知远
孙茂松
-
机构
清华大学计算机科学与技术系清华信息科学与技术国家实验室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第6期52-58,共7页
-
基金
国家自然科学基金资助项目(60573187
60621062
60520130299)
-
文摘
人类语言的某些重要方面可以通过复杂网络来刻画。本文基于不同规模和类型的语料库,建立了汉语词同现网络,并从复杂网络的角度对这些网络进行了系统的实验考察。实验结果表明汉语词同现网络具有复杂网络的两个基本性质:(1)网络的平均最短路径为2.63-2.75,聚合系数远大于相同参数下的随机网络,这揭示了汉语同现网络的小世界效应;(2)网络中词的度大体上呈幂律分布,表明汉语同现网络具有无标度特性。本文还对实验中所得到的汉语核心词典进行了定量分析。
-
关键词
计算机应用
中文信息处理
词的同现
复杂网络
小世界
无标度
核心词典
-
Keywords
computer application
Chinese information processing
word eo occurrence
complex networks
small world
scale-free
kernel lexicon
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名生物序列的语义分析与第二密码规则的探索(续)
- 2
-
-
作者
沈世镒
余涛
开波
阮吉寿
-
机构
南开大学数学科学学院与LPMC
-
出处
《工程数学学报》
CSCD
北大核心
2004年第6期862-870,共9页
-
基金
天津市南开大学数学科学学院与 LPMC
本文获天津大学
+2 种基金
南开大学联合研究项目
刘徽应用数学研究中心与国家自然科学基金(批准号: 10271061
90208022)资助.
-
文摘
本文继续讨论蛋白质一级结构序列的语义结构,利用组合分析与图论方法讨论 Swiss - Prot 数据 库的组合结构,给出 Swiss - Prot 数据库中蛋白质一级结构序列的关键词与核心词的定义、搜索 算法与特性参数。并由此给出蛋白质一级结构序列的核心词词典,并由此讨论数据库的复杂性问题、同源蛋白质的分类、预测与比对等问题。
-
关键词
生物序列结构的语义分析
第二密码规则
蛋白质一级序列结构数据库的组合图论分析
非线性复杂与核心词词典
-
Keywords
semantics analysis of biological sequences
second cipher rules
combinatorial analysis of primary structure database of proteins
nolinear complexity and dictionary of kernel word
-
分类号
O157.1
[理学—基础数学]
-