-
题名基于序列和局部信息熵的蛋白质折叠速率预测模型
被引量:3
- 1
-
-
作者
高建召
胡刚
王奎
沈世镒
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2010年第6期959-966,共8页
-
基金
国家自然科学基金(10671100
20836005)
+3 种基金
刘徽应用数学研究中心
天津大学
南开大学联合研究项目
天津市自然科学基金(07JCZDJC06400)~~
-
文摘
正确预测蛋白质折叠速率对理解蛋白质的折叠机制非常重要。本文从AAindex数据库中的531种残基物理化学性质、序列长度信息和局部结构信息熵中筛选特征,从而提出了一个基于蛋白质序列信息的线性回归模型。针对三种折叠机制two-state,multi-state和mixed-state,用Jackknife验证模型,预测的折叠速率和实验验证的折叠速率相关系数分别为0.790,0.829和0.778。本文结果表明四阶局部结构信息熵和折叠速率有很高的负相关性;蛋白质的长度和蛋白质的折叠速率成反比关系;螺旋的含量会加快蛋白质的折叠过程。对two-state蛋白质β折叠的含量会减慢蛋白质的折叠过程;和其他模型相比,我们提出的线性回归模型具有输入参数少,计算简单,平均绝对误差小的优点。
-
关键词
蛋白质折叠速率
基因序列的预测方法
局部结构信息熵
线性回归
-
Keywords
protein folding rates
sequence-based prediction
local structural entropy
linear regression
-
分类号
O236
[理学—运筹学与控制论]
-
-
题名利用蛋白质的二面角序列对蛋白质结构比对
被引量:2
- 2
-
-
作者
高建召
胡刚
王奎
崔家峰
-
机构
南开大学数学科学学院与lpmc
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第32期5-8,221,共5页
-
基金
国家自然科学基金No.10671100
天津市自然科学基金No.07JCZDJC06400~~
-
文摘
蛋白质结构比对对理解蛋白质功能和进化关系非常重要。提出一种基于蛋白质残基的二面角的结构比对算法。通过动态时间规整算法比对二面角序列,来比较蛋白质的结构,拟合两蛋白结构距离的分布后,利用p-value来评价比对的好坏。主要结果有:利用动态时间规整算法计算得出的结构距离是一个很好的蛋白质结构相似性度量;结构距离服从参数为μ=94.7697,σ=41.5837,ξ=0.1925的广义的极值分布;和其他结构比对算法相比,该算法比CTSS的搜索结果要好。
-
关键词
蛋白质结构比对
广义极值分布
二面角序列
动态时间规整
p—value
-
Keywords
protein structure comparison
generalized extreme value distribution
dihedral angle series
dynamic time warping
p-value
-
分类号
O236
[理学—运筹学与控制论]
-
-
题名由一般拓扑度量空间所产生的Alignment空间
被引量:5
- 3
-
-
作者
卢国祥
沈世镒
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2008年第6期1097-1101,共5页
-
基金
天津市科技发展计划项目(043185111-17)
-
文摘
Alignment空间是一个在广义误差下定义的度量空间。在以往的信息处理问题中,一般只讨论离散状态下的序列比对Alignment问题,并由此产生一种新的非线性度量空间-Alignment空间。本文将离散状态下的Alignment空间推广到一般情况,得到了由一般拓扑度量空间所产生的Alignment空间仍然是度量空间,并证明了Alignment距离与Levenshtein距离的等价性。
-
关键词
由度量空间产生的Alignment空间
度量空间的基本定理
Alignment距离
Levenshtein距离
-
Keywords
alignment space generated by metric space
basic theorems of metric space
alignment distance
Levenshtein distance
-
分类号
O17
[理学—基础数学]
O236
[理学—运筹学与控制论]
-
-
题名蛋白质二级结构的条件隐Markov性及其预测问题
被引量:4
- 4
-
-
作者
沈世镒
阮吉寿
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2003年第3期117-124,共8页
-
基金
国家自然科学基金(10271061)
天南大联合研究项目
刘徽应用数学研究中心.
-
文摘
蛋白质二级结构预测问题自1957年首次被提出迄今已有40多年了,从知道的文献中可以得出如下信息:在统计意义之下,蛋白质序列中氨基酸之间的相互作用较弱,所以,统计方法中所依赖的独立性假设虽然不是从物理背景中得来的,但的确有其合理性和方便之处;交互信息准则优于均方误差准则;信息和统计的思想和方法在预测二级结构中不可低估;加入蛋白质的一级结构之外的信息可帮助提高二级结构预测的精度;而直接从一级结构出发无附加信息的情况下预测二级结构,现存在的预测方法的预测精度仍然无较大突破;预测精度和所使用的蛋白质样本序列在总体样本中的覆盖率,是评估各种预测方法的有效性的两个重要指标。本文作者建立了一个集蛋白质一、二级结构为一体联合结构模型,并将上述信息囊括在其中。由该模型首先得到蛋白质一、二级结构的信息与统计特性,然后利用这些特性分别对蛋白质一、二级结构中各种变量的信息传递关系及隐Markov性进行定量分析和确切地统计描述。最后给出直接从一级结构出发预测二级结构的几个原则。
-
关键词
蛋白质一、二级结构的联合结构模型
三肽链
二级结构预测精度和覆盖率
隐Markov性
-
Keywords
joined model of primary and secondary structure
triple-residue
prediction accuracy
hidden markovity
-
分类号
O236
[理学—运筹学与控制论]
-
-
题名蛋白质空间形态特征分析与计算方法
被引量:2
- 5
-
-
作者
沈世镒
胡刚
张华
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2006年第2期225-234,共10页
-
基金
国家自然科学基金(10271061
90208022)
+1 种基金
天津大学
南开大学联合研究项目:刘徽应用数学研究中心.
-
文摘
本文的主要目的是把空间多面体、超图与深度这三个概念综合起来,作为描述与分析空间质点系形态的基本工具。在此基础上,我们针对蛋白质空间形态中的二种重要特征: “空洞”与“口袋”,用小球滚动法给出它们的计算方法。
-
关键词
空间多面体
超图
质点系的形态分析与小球滚动法
-
Keywords
convex hull
hypergraph
conformation of particles
probe sphere rolling
-
分类号
TB112
[理学—应用数学]
-
-
题名一般罚分(或得分)矩阵下的SPA算法
被引量:1
- 6
-
-
作者
沈世镒
张拓
王奎
-
机构
天津市南开大学数学科学学院与lpmc
-
出处
《应用数学》
CSCD
北大核心
2007年第3期627-632,共6页
-
基金
国家自然科学基金(10271061
90208022)
+1 种基金
天南大联合研究项目
刘徽应用数学研究中心资助
-
文摘
本文在一般罚分(或得分)矩阵条件下推广SPA(Super Pairwise Alignment)算法,该算法是一种次优算法,与Smith-Waterman算法比较,计算速度有明显改进(计算复杂度随序列长度线性增长).
-
关键词
一般罚分(或得分)矩阵
SPA算法
线性复杂度
-
Keywords
General penalty/score matrix
SPA algorithm
Linear complexity
-
分类号
O212.3
[理学—概率论与数理统计]
-
-
题名生物序列的语义分析与第二密码规则的探索(续)
- 7
-
-
作者
沈世镒
余涛
开波
阮吉寿
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2004年第6期862-870,共9页
-
基金
天津市南开大学数学科学学院与 LPMC
本文获天津大学
+2 种基金
南开大学联合研究项目
刘徽应用数学研究中心与国家自然科学基金(批准号: 10271061
90208022)资助.
-
文摘
本文继续讨论蛋白质一级结构序列的语义结构,利用组合分析与图论方法讨论 Swiss - Prot 数据 库的组合结构,给出 Swiss - Prot 数据库中蛋白质一级结构序列的关键词与核心词的定义、搜索 算法与特性参数。并由此给出蛋白质一级结构序列的核心词词典,并由此讨论数据库的复杂性问题、同源蛋白质的分类、预测与比对等问题。
-
关键词
生物序列结构的语义分析
第二密码规则
蛋白质一级序列结构数据库的组合图论分析
非线性复杂与核心词词典
-
Keywords
semantics analysis of biological sequences
second cipher rules
combinatorial analysis of primary structure database of proteins
nolinear complexity and dictionary of kernel word
-
分类号
O157.1
[理学—基础数学]
-
-
题名多重序列突变网络系统分析与应用
- 8
-
-
作者
沈世镒
胡刚
王奎
董骝焕
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2006年第4期632-640,共9页
-
基金
天津大学
南开大学联合研究项目刘徽应用数学研究中心与国家自然科学基金(1027106190208022).
-
文摘
为分析多重生物序列的突变结构,首先是要作它们的多重比对,在多重比对基础上可作出各序列的系统树与最小距离树,在最小距离树中如果把它们的弧用突变模结构来表示,那么我们称由此所产生的数学模型为多重序列突变网络系统(以下简称突变网络),突变网络分析的主要问题是如何确定各种不同类型突变的相互关系问题,一种最简单关系是二个突变的突变区域互不重叠,我们称之为正交化。因此突变网络分析的一个重要目的是对突变网络作正交化的简化,本文给出了突变网络正交化的基本定理,并以SARS病毒基因组为例,说明它们的突变网络系统模型与正交化运算,并由此得到SARS病毒从早期传播到爆发的基因突变过程的确定。
-
关键词
多重序列突变网络系统
突变网络的正交化理论
SARS序列分析
-
Keywords
mutation network system
orthogonalization theory of mutation network system
SARS genomic sequence analysis
-
分类号
O236
[理学—运筹学与控制论]
-
-
题名生物序列的语义分析与第二密码规则的探索
- 9
-
-
作者
沈世镒
-
机构
南开大学数学科学学院与lpmc
-
出处
《工程数学学报》
CSCD
北大核心
2004年第5期665-674,679,共11页
-
基金
国家自然科学基金(10271061
90208022)
+2 种基金
天津大学
南开大学联合研究项目
刘徽应用数学研究中心资助.
-
文摘
生物序列(如DNA、RNA与蛋白质一级结构序列等)都是由一系列小分子团(如核苷酸、氨基酸等)排列组成,如把这些小分子团作为符号单元,那么这些生物序列就是生物序列就是生物学的语言文字,对这些语言文字的结构分析为生物序列的语义分析。生物序列语义分析的内容包括词法与语法的分析,它们是在分子水平基础上的生物语言分析,有关的变化规则我们称之为生物序列中的第二密码规则。本文以Swiss-Prot数据库为基础,利用频率统计、组合分析与信息的度量关系等数学工具,分析蛋白质一级结构序列中的词法规则,给出了关于蛋白质一级结构序列的几种稳定性的度量指标及其相应的稳定性理论,并探讨了它们在蛋白质演变与蛋白质工程中可能产生的应用。
-
关键词
生物序列结构的语义分析
第二密码规则
蛋白质~级序列结构数据库的信息、统计分析
稳定性度量与原理
-
Keywords
semantics analysis of biological sequences
second cipher rules
information and statistics analysis of primary structure database of proteins
stability measurement and principle
-
分类号
O236
[理学—运筹学与控制论]
-
-
题名基于动态规划算法的人脸比对
被引量:2
- 10
-
-
作者
吴忠华
沈世镒
-
机构
南开大学数学科学学院与lpmc
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第33期53-55,共3页
-
文摘
动态规划算法可以有效地用来进行序列的比对,能够给出序列之间的最优比对结果,论文将其用在人脸识别的一些关键特征的比对方面,给出了人脸之间相似程度的一种度量,同时给出了具体的算法,可以有效地应用于人脸的比对和其它进一步的人脸识别中的应用。
-
关键词
人脸比对
人脸识别
比对相似度
动态规划
-
Keywords
face alignment
face identification
alignment similarity
dynamic programming
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-