-
题名基于后缀树模型的文本实时分类系统的研究和实现
被引量:12
- 1
-
-
作者
郭莉
张吉
谭建龙
-
机构
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第5期16-23,共8页
-
基金
国家自然科学基金资助项目(60273016)
-
文摘
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。
-
关键词
计算机应用
中文信息处理
实时文本分类
向量空间模型
后缀树
-
Keywords
computer application
Chinese information processing
online text categorization
vector space model
suffix tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概率后缀树的移动对象轨迹预测
被引量:4
- 2
-
-
作者
王兴
蒋新华
林劼
熊金波
-
机构
中南大学信息科学与工程学院
福建师范大学软件学院
福建工程学院下一代互联网应用技术研究中心
-
出处
《计算机应用》
CSCD
北大核心
2013年第11期3119-3122,3133,共5页
-
基金
福建省重大专项(2011HZ0002-1)
国家自然科学基金资助项目(61101139)
+1 种基金
福建省科技计划重点项目(2011H0002)
福建省交通科技计划项目(201122)
-
文摘
在移动对象轨迹预测中,针对低阶马尔可夫模型预测准确率不高、高阶模型状态空间膨胀的问题,提出一种基于概率后缀树(PST)的动态自适应变长马尔可夫模型预测方法。首先依时间先后将移动对象的轨迹路径序列化;然后根据移动对象的历史轨迹数据进行学习训练,计算序列上下文的概率特征,建立路径序列的概率后缀树模型,结合当前实际轨迹数据,动态自适应预测将来的位置信息。实验结果表明,该模型在二阶时取得最高的预测精度,随着阶数的增加,预测精度保持在82%左右,能取得较好的预测效果;同时空间复杂度呈指数级减少,大大节省了存储空间。该方法充分利用历史轨迹数据和当前轨迹信息预测未来轨迹,能够提供更加灵活、高效的基于位置服务。
-
关键词
变长马尔可夫模型
概率后缀树
历史轨迹
轨迹预测
-
Keywords
variable order Markov model
Probabilistic suffix tree (PST)
history trajectory
trajectory prediction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种改进的基于后缀树模型搜索结果聚类算法
被引量:3
- 3
-
-
作者
刘德山
-
机构
辽宁师范大学计算机与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第11期148-152,共5页
-
基金
辽宁省教育厅科研基金(2008366)资助
-
文摘
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Web搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。
-
关键词
搜索结果聚类
后缀树模型
向量空间模型
奇异值分解
-
Keywords
Search results clustering
suffix tree model
Vector space model
Singular value decomposition
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名符号序列多阶Markov分类
被引量:2
- 4
-
-
作者
程铃钫
郭躬德
陈黎飞
-
机构
福建农林大学金山学院
福建师范大学数学与计算机科学学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第7期1977-1982,共6页
-
基金
国家自然科学基金资助项目(61672157)~~
-
文摘
针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值。
-
关键词
符号序列
MARKOV链模型
多阶模型
贝叶斯分类
后缀树
-
Keywords
symbolic sequence
Markov chain model
multi-order model
Bayesian classification
suffix tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于医疗过程挖掘与患者体征的药物推荐方法
被引量:10
- 5
-
-
作者
李鹏飞
鲁法明
包云霞
曾庆田
朱冠烨
-
机构
山东科技大学计算机科学与工程学院
山东科技大学电子通信工程学院
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2020年第6期1668-1678,共11页
-
基金
国家自然科学基金资助项目(61602279,61472229)
山东省科技发展计划资助项目(2016ZDJS02A11)
+5 种基金
山东省泰山学者工程专项基金资助项目(ts20190936,tsqn201909109)
国家海洋局海洋遥测工程技术研究中心开放基金资助项目(2018002)
山东省博士后创新专项资金资助项目(201603056)
山东省高等学校青创科技支持计划资助项目(2019KJN024)
山东科技大学领军人才与优秀科研团队计划资助项目(2015TDJH102)
山东科技大学研究生科技创新资助项目(SDKDYC190335)。
-
文摘
对医疗数据进行挖掘分析生成疾病治疗的标准过程模型,或者为治疗方案制定提供决策支持,是当前研究热点之一。基于历史患者的用药数据对疾病的药物治疗过程模型进行挖掘,并提出一种过程模型与用户体征数据相融合的药物推荐方法。具体而言,对于给定的疾病种类,首先利用隐含狄利克雷分布LDA主题模型对患者用药数据进行训练,得到药物治疗的功效主题以及各个诊疗日的药物功效主题分布;然后,对患者各个诊疗日的功效主题分布进行聚类,将患者的药物治疗过程转换为药物功效组合标签序列,在此基础上构建药物治疗过程的概率后缀树模型;最后,基于概率后缀树计算各节点后续治疗所采用药物功效组合的概率分布,将其与病人的体征向量作为联合特征,病人真实用药对应的功效组合作为分类标签,使用XGBoost的分类方法训练模型,并利用该模型进行患者药物推荐。以MIMIC-Ⅲ数据库中糖尿病患者的处方日志和体征数据为例,对所提方案的可行性和有效性进行了评估。
-
关键词
过程挖掘
LDA主题模型
概率后缀树
XGBoost算法
过程模型
-
Keywords
process mining
Latent Dirichlet allocation topic model
probabilistic suffix tree
XGBoost algorithm
process model
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种事件序列的加权变阶马尔可夫模型
被引量:1
- 6
-
-
作者
吴宏和
陈黎飞
郭躬德
-
机构
福建师范大学数学与计算机科学学院
-
出处
《计算机工程》
CAS
CSCD
2014年第4期175-181,共7页
-
基金
国家自然科学基金资助项目(61175123)
-
文摘
变阶马尔可夫模型是对事件序列建模的一种简单且有效的模型,但经典变阶马尔可夫模型只考虑转移概率,未关注子序列本身出现的频率。为此,提出一种加权的变阶马尔可夫模型,在经典变阶马尔可夫模型基础上根据子序列的频率构建一棵加权概率后缀树。给出一种剪枝策略,在构建后缀树时根据结点相似程度剪除树枝,以提高模型的泛化能力,并在线性时间内完成加权概率后缀树的构建。通过将加权的模型应用于事件序列分类进行实验验证,结果表明,该模型可以对不同领域的实际序列数据进行有效分类。
-
关键词
变阶马尔可夫模型
概率后缀树
事件序列
分类
加权
剪枝
-
Keywords
Variable-order Markov model(VLMM)
probabilistic suffix tree
event sequence
classification
weighted
pruning
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于药物疗效日志的临床路径挖掘方法
被引量:2
- 7
-
-
作者
李睿易
鲁法明
包云霞
曾庆田
朱冠烨
-
机构
山东科技大学计算机科学与工程学院
中国科学院计算技术研究所
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2019年第4期1017-1025,共9页
-
基金
国家自然科学基金资助项目(61602279
61472229)
+3 种基金
山东省科技发展计划资助项目(2016ZDJS02A11)
国家海洋局海洋遥测工程技术研究中心开放基金资助项目(2018002)
山东省博士后创新专项资金资助项目(201603056)
山东科技大学领军人才与优秀科研团队计划资助项目(2015TDJH102)~~
-
文摘
标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者处方数据出发,进行药物治疗临床路径的挖掘。首先由处方数据结合DrugBank数据库生成患者的每日用药疗效文档;然后使用词对隐狄利克雷分布模型对这些药物疗效文档进行主题聚类,得到患者每日所用药物对应的疗效主题;最后以各个患者的药物疗效主题序列为输入,训练概率后缀树模型作为药物治疗的临床路径模型,该模型既可以辅助专家进行个性化临床路径的制定,也可以用于患者后续服用药物的推荐。以MIMIC-Ⅲ数据库中肺炎患者的处方数据为实例,对所提方法的可行性和有效性进行了验证。
-
关键词
过程挖掘
词对隐狄利克雷分布模型
概率后缀树
临床路径
-
Keywords
process mining
token-bigram latent Dirichlet allocation model
probabilistic suffix tree
clinical path
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-