题名 基于相似度和密度的抗噪声船舶轨迹聚类方法
1
作者
杨家轩
吴长胜
赵时雨
机构
大连海事大学航海学院
辽宁省航海安全保障重点实验室
出处
《舰船科学技术》
北大核心
2025年第2期178-184,共7页
基金
国家社会科学基金资助项目(22BGJ034)。
文摘
通过对船舶AIS数据聚类可以掌握船舶运动行为和特征规律,但在轨迹聚类中通过距离描述的相似性不能连续地表征轨迹之间的相似程度,且对轨迹中的噪声点敏感、无法区分轨迹方向。针对上述问题,本文提出一种基于相似度和密度的抗噪声轨迹聚类方法,构建航向约束分段路径距离并定义轨迹相似度函数;根据轨迹相似度分布特征和聚类评价指标,建立自适应确定最佳聚类参数流程。以长江口水域AIS数据为例,基于确定的最佳参数聚类出8个不同方向的轨迹簇,结果与实际船舶习惯航路相符。实验结果表明,所提出的方法能够快速确定最佳聚类参数并对不同运动方向的轨迹进行聚类,结果可用于特征轨迹提取和航路识别,为智能航海提供技术支撑。
关键词
船舶交通
轨迹聚 类
相似 度
轨迹密度
特征轨迹
Keywords
ship traffic
trajectory clustering
degree of similarity
trajectory density
feature trajectory
分类号
U675
[交通运输工程—船舶及航道工程]
题名 基于字符串相似度的URL聚类方法研究
2
作者
刘翼
田亮亮
高明
李凯茵
叶倩
机构
延安大学数学与计算机科学学院
延安大学教务处
出处
《现代电子技术》
北大核心
2025年第11期84-88,共5页
基金
国家自然科学基金项目(62262067)
国家自然科学基金项目(61962059)
+1 种基金
陕西省教育厅自然科学专项项目(24JK0723)
延安市科技计划项目(2022SLGYGG-007)。
文摘
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。
关键词
数据聚 类
字符串相似 度
轮廓系数法
协议分析
K-MEANS
URL
CDN
Levenshtein算法
Keywords
data clustering
string similarity
silhouette coefficient method
protocol analysis
K⁃means
URL
CDN
Levenshtein algorithm
分类号
TN919-34
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于组合相似度动态聚类和词熵的网络话题在线检测
被引量:1
3
作者
郭慧
王亚楠
王欣艳
魏艺泽
王养廷
机构
华北科技学院
河北科技大学经济管理学院
应急管理部大数据中心
出处
《情报杂志》
CSSCI
北大核心
2024年第5期159-166,共8页
基金
国家社会科学基金项目“重大疫情下社区健康边际及防护体系构建研究”(编号:21BSH072)研究成果。
文摘
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。
关键词
网络话题
在线话题检测
增量式聚 类
主题词提取
组合相似 度
动态聚 类 算法
词熵
Keywords
online topics
online topic detection
incremental clustering
topic word extraction
combination similarity
dynamic clustering algorithm
word entropy
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 多元时间序列聚类算法综述
被引量:1
4
作者
郑德生
孙涵明
王立远
段垚鑫
李晓瑜
机构
西南石油大学计算机与软件学院
重庆邮电大学自动化学院
电子科技大学信息与软件工程学院
出处
《计算机科学与探索》
北大核心
2025年第3期582-601,共20页
基金
国家重点研发计划(J2019-V-0001-0092)
工业物联网与网络化控制教育部重点实验室开放基金(2022FF02)。
文摘
多元时间序列(MTS)作为众多领域智能化技术的关键数据依据,其随时间推移记录了系统中多个变量的状态变化。聚类技术作为一个数据挖掘核心工具可以将数据按照其结构相似性划分为不同的簇,通过识别数据的结构和内在关系挖掘系统发展规律和变量相关关系。面对多元时间序列数据结构的复杂性、变量之间的关联性以及数据高维性等为聚类分析带来的挑战,国内外已经开展了大量相关研究工作。鉴于此,对多元时间序列数据场景下的聚类分析算法进行综述。基于特征提取方式、相似性度量算法、聚类划分框架等分类标准,对现有多元时间序列聚类算法进行对比分析。对于每一类多元时间序列聚类技术,从算法原理、代表性方法、算法优缺点以及解决的问题等方面进行详细总结与剖析。进一步讨论了常用的评价标准,以及多元时间序列聚类相关公开数据集。从多变量时序数据结构特殊性出发对现有多元时间序列聚类存在的挑战及未来发展方向进行了总结与展望。
关键词
多元时间序列
聚 类 算法
特征表示
相似 性度 量
聚 类 评估指标
Keywords
multivariate time series
clustering algorithm
feature representation
similarity measure
clustering evaluation index
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于高斯分布的自适应密度峰值聚类算法
5
作者
李启文
王治和
杜辉
鲁德鹏
机构
西北师范大学计算机科学与工程学院
出处
《计算机工程》
北大核心
2025年第4期137-148,共12页
基金
国家自然科学基金(62372353)。
文摘
密度峰值聚类(DPC)算法可以发现任意形状的簇,对噪声具有鲁棒性,因此被广泛应用于各个领域。但DPC算法需要人工选取聚类中心,对于密度不均匀型数据集表现较差。为此,提出一种基于高斯分布的自适应密度峰值聚类算法。首先,计算局部密度和相对距离的乘积θ_(i),通过Z-score标准化方法,将θ_(i)映射到符合高斯分布的二维空间中,利用高斯分布的标准偏差来自适应选取聚类中心,得到聚类中心集合;其次,将其余数据点分配到离其最近的聚类中心所在的簇中,得到初步划分结果;最后,设计缝合因子模型,计算簇间缝合系数,当缝合系数大于阈值时合并初步划分结果中最相似簇并更新相似度矩阵,直至完成合并得到最终结果。在人工数据集和真实数据集上的实验结果表明,与DBSCAN算法、DPC算法和ICKDC算法对比,所提算法的聚类准确度更高,聚类性能更佳。
关键词
密度 峰值聚 类 算法
高斯分布
Z-score标准化
缝合因子
簇间相似 度
Keywords
Density Peak Clustering(DPC)algorithm
Gaussian distribution
Z-score standardization
suture factor
inter-cluster similarity
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于密度权重的隐私聚类和改进相似度的推荐算法
被引量:4
6
作者
王圣节
张庆红
机构
新疆财经大学统计与数据科学学院
出处
《科学技术与工程》
北大核心
2024年第29期12623-12630,共8页
基金
国家自然科学基金(72164034)。
文摘
针对当前推荐系统中所面临数据稀疏、冷启动、时效性和隐私保护等问题,提出一种基于密度权重的隐私聚类和改进相似度的协同过滤推荐算法。该方法结合了差分隐私保护聚类与改进的相似度的协同过滤推荐算法,旨在提高推荐系统的精准度,同时确保用户数据的隐私安全。通过数据预处理构建用户-项目评分矩阵,并运用Weight Slope One算法智能填充空值,使用DWDPK-medoids隐私聚类算法对矩阵进行精确聚类,融合时间因素和用户兴趣偏好因素,改变相似度的计算,从而提高推荐相关性,最后预测目标用户对项目的评分。在MovieLens数据集,通过和当前学者提出的5种隐私推荐算法进行对比实验验证,该算法在评价指标均方根误差(root mean squared error,RMSE)和平均绝对误差(mean absolute error,MAE)上均有所降低,表明所提方法在一定程度上解决了数据稀疏、冷启动和时效性等问题,并在保护用户隐私的基础上提升了推荐准确性。
关键词
推荐系统
隐私保护
聚 类
协同过滤
相似 度 计算
Keywords
recommender systems
privacy preservation
clustering
collaborative filtering
similarity computation
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
题名 基于趋势的时间序列相似性度量和聚类研究
被引量:19
7
作者
肖瑞
刘国华
机构
东华大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第9期2600-2605,共6页
基金
国家自然科学基金资助项目(61070032)
国家电网科学技术资助项目(11212451)
文摘
由于时间序列的长度很大,并且不确定时间序列在每个采样点的取值具有不确定性,导致时间序列在相似性匹配和聚类挖掘中时间复杂度很高,为了解决该问题,提出了基于趋势的时间序列相似性度量方法和聚类方法。其中基于趋势的相似性度量方法根据时间序列的整体变化趋势,将时间序列映射为短的趋势符号序列,并利用各趋势的一阶连接性指数和塔尼莫特系数完成相似性度量;基于趋势的聚类方法通过定义趋势高度,并对趋势符号序列迭代进行区间划分和趋势判断,并以此构建趋势树,最后将趋势树根节点中趋势符号相同的序列聚集为一类。实验结果表明:a)五种趋势符号的一阶连接性指数可唯一地表示一条时间序列;b)基于趋势的相似性度量方法在多项式时间内可有效完成时间序列的相似性匹配;c)基于趋势的聚类方法将序列的相似性度量和聚类过程集中在一起,聚类效果显著。
关键词
时间序列
不确定性
相似 性度 量
聚 类
趋势符号
Keywords
time series
uncertainty
similarity measure
cluster
trend symbol
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于数据挖掘的符号序列聚类相似度量模型
被引量:3
8
作者
郑宏珍
初佃辉
战德臣
徐晓飞
机构
哈尔滨工业大学智能计算中心
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第1期178-179,194,共3页
基金
国家"863"计划基金资助项目"CIMS模型驱动的智能化软构件与软件生成技术"(2006AA01Z167)
文摘
为了从消费者偏好序列中发现市场细分结构,采用数据挖掘领域中的符号序列聚类方法,提出一种符号序列聚类的研究方法和框架,给出RSM相似性度量模型。调整RSM模型参数,使得RSM可以变为与编辑距离、海明距离等价的相似性度量。通过RSM与其他序列相似性度量的比较,表明RSM具有更强的表达相似性概念的能力。由于RSM能够表达不同的相似性概念,从而使之能适用于不同的应用环境,并在其基础上提出自组织特征映射退火符号聚类模型,使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。
关键词
符号序列 聚 类
数据挖掘
相似 性模型
Keywords
symbolic sequence clustering
data mining
similarity model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于全序列比对相似度的用户会话自动谱聚类
被引量:2
9
作者
姜大庆
周勇
机构
中国矿业大学计算机科学与技术学院
南通农业职业技术学院信息工程系
出处
《计算机科学》
CSCD
北大核心
2012年第11期142-144,148,共4页
基金
国家自然科学基金项目(50674086)
江苏省教育厅"青蓝工程"基金
南通市科技产业化计划项目(CL2010018)资助
文摘
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用户会话的相似性。在此基础上,运用改进的NJW谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效率。
关键词
全序列 比对
相似 度
用户会话
谱聚 类
自动聚 类
Keywords
Global alignment
Similarity
User session
Spectral clustering
Automatic clustering
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于比对相似度动态矩阵聚类算法在基因序列中的应用
被引量:1
10
作者
张白妮
骆嘉伟
汤德佑
机构
湖南大学计算机与通信学院
出处
《计算机应用》
CSCD
北大核心
2004年第8期35-37,共3页
基金
湖南省自然科学基金项目 (0 3JJY30 95)
文摘
基于BAG图的聚类算法 ,利用聚类单元引导类的分割 ,保证聚类结果不会产生过多的类碎片 ,但其相似分数阈值Cutoff初始值和最长公共子串最小长度阈值Threshold如何确定并没有明确给出。提出基于比对相似度动态矩阵的聚类算法 ,并在此基础上明确给出了确定cutoff初始值和Threshold阈值的方法。实验结果表明该算法可以获得较好的聚类正确率。
关键词
生物序列
聚 类
最长公共子串
比对相似 度 动态矩阵
Keywords
biology sequences
clustering
longest common child string
SZDM(Similar Zscores Dynamic Matrix)
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于波动特征的时间序列相似性度量及聚类分析
被引量:9
11
作者
陈海兰
高学东
机构
北京科技大学东凌经济管理学院
出处
《统计与决策》
CSSCI
北大核心
2019年第11期17-22,共6页
基金
国家自然科学基金资助项目(71272161)
文摘
在时间序列数据挖掘中,传统的时间序列相似性度量算法没有考虑反映时间序列结构的关键点特征。为了解决该问题,文章提出了基于波动特征的时间序列相似性度量算法,并通过聚类进行了效果分析。研究中首先利用小波分析方法提取时间序列整体变化趋势,然后给出了针对小波分析得到的序列进行波动点识别的方法,构造出包含时间序列重要波动信息的波动点序列。最后提出了非等长时间序列的相似性度量方法计算波动点序列间的距离。实验结果表明,该时间序列度量方法能更好地反映时间序列的趋势特征。
关键词
时间序列
相似 性度 量
聚 类
波动特征
Keywords
time series
similarity measure
clustering
fluctuation characteristics
分类号
F832
[经济管理—金融学]
题名 面向密度分布不均数据的加权逆近邻密度峰值聚类算法
被引量:2
12
作者
吕莉
陈威
肖人彬
韩龙哲
谭德坤
机构
南昌工程学院信息工程学院
南昌工程学院南昌市智慧城市物联感知与协同计算重点实验室
华中科技大学人工智能与自动化学院
出处
《智能系统学报》
CSCD
北大核心
2024年第1期165-175,共11页
基金
国家自然科学基金项目(62066030)
江西省重点研发计划项目(20192BBE50076,20203BBGL73225)
江西省教育厅科技项目(GJJ190958)。
文摘
针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首先在局部密度公式中引入基于sigmoid函数的权重系数,增加稀疏区域样本的权重,结合逆近邻思想,重新定义了样本的局部密度,有效提升类簇中心的识别率;其次,引入改进的样本相似度策略,利用样本间的逆近邻及共享逆近邻信息,使得同一类簇样本间具有较高的相似度,可有效改善稀疏区域样本分配错误的问题。在密度分布不均、复杂形态和UCI数据集上的对比实验表明,本文算法的聚类效果优于IDPC-FA、FNDPC、FKNN-DPC、DPC和DPCSA算法。
关键词
密度 峰值聚 类
密度 分布不均
逆近邻
共享逆近邻
样本相似 度
局部密度
分配策略
数据挖掘
Keywords
density peak clustering
uneven density distribution
reverse nearest neighbor
shared reverse nearest neighbor
sample similarity
local density
distribution strategy
data mining
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 规范化相似度的符号序列层次聚类
13
作者
张豪
陈黎飞
郭躬德
机构
福建师范大学数学与计算机科学学院福建省网络安全与密码技术重点实验室
出处
《计算机科学》
CSCD
北大核心
2015年第5期114-118,141,共6页
基金
国家自然科学基金(61175123)
深圳市基础研究(重点)项目(JCYJ20120617120716224)资助
文摘
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等。作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题。首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性。在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类。在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度。
关键词
符号序列
聚 类
相似 度
规范化因子
Keywords
Categorical sequence, Clustering, Similarity, Normalized variant
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于访问行为序列相似度的加权聚类算法
被引量:2
14
作者
李维娜
吴晨
机构
清华同方光盘电子出版社中国知网
出处
《计算机工程与设计》
北大核心
2017年第2期430-436,共7页
基金
"十二五"国家科技支撑计划基金项目(2013BAH47F02)
文摘
传统算法很少有研究用户行为的聚类,用户访问关键词、访问时间、访问次数等行为都能够反应出其兴趣,从用户行为日志出发,考虑到其访问量、关键词序列以及关键词之间的时间间隔权重,对k-means进行改进,提出一种基于行为序列相似度的加权聚类算法K-Similar,重要的用户群体聚到一类,挖掘出这一类用户的内容需求。该算法已在中国知网的行为日志数据上进行了验证,验证结果表明,该算法在效率和精度上较k-means都有一定程度的提高,得到了兴趣度更高的用户群体,展现了群体的需求特点。
关键词
加权聚 类
用户访问行为
访问量
关键词序列
时间间隔
序列 相似 度
Keywords
weighted clustering
users’ access behavior
visit volume
keywords sequence
time interval
sequence similarity
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
题名 基于自然邻域图划分的层次聚类算法
被引量:2
15
作者
蔡发鹏
冯骥
杨德刚
陈仲尚
机构
重庆师范大学计算机与信息科学学院
出处
《计算机工程与科学》
北大核心
2025年第2期370-380,共11页
基金
重庆市教委科学技术研究计划(KJZD-M202300502,KJQN201800539)。
文摘
自然邻域图能自适应地识别不同形状、大小和维度的数据,但在面对密度不均匀且结构复杂的数据时,部分小簇无法被算法正确识别。针对这一问题,提出一种基于自然邻域图划分的层次聚类算法HC-PNNG。HC-PNNG算法首先利用自然邻居关系实现了自然稀疏图的构建,随后利用基于自然稀疏图的图间相似度完成了自然稀疏图的层次化合并,进而实现了更具普适性的层次化聚类结果。在合成数据集和真实数据集上将HC-PNNG与最新的聚类算法进行了对比实验,结果表明该算法明显优于其他聚类算法,验证了HC-PNNG算法的有效性。
关键词
聚 类 分析
层次聚 类
自然邻域图
图划分
相似 度
Keywords
clustering analysis
hierarchical clustering
natural neighborhood graph
graph partition-ing
similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于本地边差分隐私的有向图聚类算法
被引量:1
16
作者
付楠
倪巍伟
姜泽鹏
侯立贺
张东月
张如玉
机构
东南大学计算机科学与工程学院
出处
《计算机研究与发展》
北大核心
2025年第1期256-268,共13页
基金
国家自然科学基金项目(61772131)。
文摘
基于本地差分隐私的图聚类工作成为近年来的一个研究热点.已有工作主要针对的是无向图,且大多利用位向量技术通过模块化聚合实现.由于噪声量与向量维度成线性关系,使得聚类质量和隐私性难以很好地兼顾.此外,针对无向图中边的有/无设计的2元扰动机制在面对有向图时,因无法对边的方向性进行处理而无法适用.针对上述问题,提出一种基于本地边差分隐私(edge local differential privacy,Edge-LDP)的有向图聚类算法DGC-LDP(directed graph clustering under LDP).具体来说,为了降低噪音量同时适用于有向图,基于直接编码方式设计了一种适用于有向星型图的动态扰动机制,通过自适应添加噪声来平衡隐私性和统计效用.在此基础上,在终端和收集者之间构建迭代机制.收集者依据终端上传的噪声数据提取节点间的相似性信息,并设计基于轮廓系数测量模型的节点聚合算法,通过迭代机制不断地优化节点聚合形式形成高质量簇.理论分析和实验结果表明,所提算法在满足Edge-LDP的同时能够有效兼顾聚类精度.
关键词
隐私保护
本地差分隐私
图聚 类
随机响应
相似 度
Keywords
privacy-preserving
local differential privacy
graph clustering
random response
similarity
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于结构相似度的轨迹聚类算法
被引量:70
17
作者
袁冠
夏士雄
张磊
周勇
机构
中国矿业大学计算机科学与技术学院
出处
《通信学报》
EI
CSCD
北大核心
2011年第9期103-110,共8页
基金
国家自然科学基金资助项目(50674086)
江苏省研究生培养创新工程基金资助项目(CXZZ11_0294)~~
文摘
针对目前轨迹数据聚类直接以整条轨迹数据作为基本单元,导致聚类效果降低的问题,提出了基于结构相似度的轨迹聚类算法。算法引入轨迹结构的概念,并给出结构相似度计算函数来分析轨迹内外部特征。首先根据转角将轨迹划分成若干轨迹段,然后通过计算轨迹段的结构相似度来判断轨迹的匹配程度,进而完成轨迹聚类。真实数据的实验结果表明:该算法较其他同类算法分析轨迹更全面、效率更高;可以通过不同参数灵活调整特征的敏感度,聚类结果更具有实际意义。
关键词
轨迹聚 类
轨迹转角
结构相似 度
轨迹匹配
Keywords
trajectory clustering
trajectory corner
structural similarity(SSIM)
trajectory match
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种相似度改进的用户聚类协同过滤推荐算法
被引量:27
18
作者
孙辉
马跃
杨海波
张红松
机构
中国科学院大学
中国科学院沈阳计算技术研究所
中国科学院条件保障与财务局
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第9期1967-1970,共4页
文摘
协同过滤算法是推荐系统中使用最普遍的个性化推荐技术.该算法基于用户评分相似度,易于实现,但是仍存在不少问题—用户评分矩阵稀疏性问题、推荐准确性问题和推荐时间效率问题.本文针对传统协同过滤算法的诸多问题,引入聚类技术,提出相似可信度、用户对项目类别喜爱度、用户对项目类别关注度三个概念,并以此来优化相似度计算,使得相似度计算更具有实际意义和准确性.然后提出基于相似度的聚类方法,将用户聚类,推荐是仅考虑同一类别中用户.实验表明,本文提出的优化方法能显著提高推荐效率.
关键词
推荐系统
协同过滤
聚 类
相似 度
平均绝对偏差
Keywords
RecommendationSystem
Collaborative Filtering
Clustering
Similarity
MAE
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于触发词指导的自相似度聚类事件检测
被引量:12
19
作者
张先飞
郭志刚
刘嵩
程磊
田雨暄
机构
解放军信息工程大学信息工程学院
中国人民解放军
出处
《计算机科学》
CSCD
北大核心
2010年第3期212-214,220,共4页
基金
863国家重点基金项目(2007AA01Z439)资助
文摘
传统方法将事件检测任务看作分类问题,将词作为实例来训练分类器,容易导致训练正反例不平衡,同时,在语料库规模较小时存在一定的数据稀疏问题。首先避开以词为实例进行分类,在事件类别判断上引入聚类思想,在事件触发词的指导下,采用自相似度对K-means聚类算法中的K值进行自收敛,优化了聚类算法。然后结合命名实体及其位置信息,对事件类别进行详细定位,很好地解决了传统事件检测对类别模板的依赖性,所检测的事件在文本摘要、检索和主题检测与追踪上得到了很好的应用。
关键词
事件检测
触发词
自相似 度
命名实体
聚 类
Keywords
Event detection, Trigger, Self-similarity, Named entity, Clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于DTW聚类的水文时间序列相似性挖掘方法
被引量:14
20
作者
杨艳林
叶枫
吕鑫
余霖
刘璇
机构
河海大学计算机与信息学院
出处
《计算机科学》
CSCD
北大核心
2016年第2期245-249,共5页
基金
国家自然科学基金面上项目(61272543)
国家科技支撑计划(2013BAB06B04)
+4 种基金
国家科技支撑计划项目数字流域关键技术(2013BAB05B00)
国家自然科学基金委-广东联合项目(U1301252)
江苏省博士后科研资助计划(1401001C)
江苏水利科技项目:"智慧河流"研究及其在六合滁河管理中的应用(2013025)
基于物联网的流域信息获取技术研究(2013BAB05B01)资助
文摘
水文时间序列相似性挖掘是水文时间序列挖掘的重要方面,对洪水预报、防洪调度等具有重要意义。针对水文数据的特点,提出了一种基于DTW聚类的水文时间序列相似性挖掘方法。该方法先对数据进行小波去噪、特征点分段以及语义划分,再基于DTW距离对划分后的子序列做层次聚类并符号化;然后根据符号序列间的编辑距离筛选候选集;最后通过序列间的DTW距离进行精确匹配,获取相似水文时间序列。以滁河六合站的日水位数据进行实验,结果表明,所提方法能够有效地缩小候选集,提高查找语义相似的水文时间序列的效率。
关键词
水文时间序列
语义相似
DTW距离
层次聚 类
编辑距离
Keywords
Hydrological time series
Semantic similar
DTW distance
Hierarchical clustering
Edit distance
分类号
TP311
[自动化与计算机技术—计算机软件与理论]