期刊文献+
共找到5,399篇文章
< 1 2 250 >
每页显示 20 50 100
双定性双定量相似度法评价银杏达莫注射液的高效液相色谱指纹图谱 被引量:104
1
作者 孙国祥 任培培 +2 位作者 毕雨萌 毕开顺 孙毓庆 《色谱》 CAS CSCD 北大核心 2007年第4期518-523,共6页
建立了色谱指纹图谱的双定性双定量相似度评价法,并应用于银杏达莫注射液的高效液相色谱(HPLC)指纹图谱的评价。采用反相HPLC,以芦丁为参照物峰,确定了41个共有峰,建立了银杏达莫注射液的对照指纹图谱。以双定性相似度S和S′、双定量相... 建立了色谱指纹图谱的双定性双定量相似度评价法,并应用于银杏达莫注射液的高效液相色谱(HPLC)指纹图谱的评价。采用反相HPLC,以芦丁为参照物峰,确定了41个共有峰,建立了银杏达莫注射液的对照指纹图谱。以双定性相似度S和S′、双定量相似度C和P评价银杏达莫注射液的HPLC指纹图谱,分别考察在大峰缺失和小峰缺失两种情况下,4个相似度指标的变化特征。S能反映化学成分的分布比例,受大峰影响严重,无法反映小峰的丢失;S′对所有指纹峰等权,反映小峰缺失灵敏,二者构成双定性相似度。C能反映样品共有峰的总体含量,但受大峰影响严重,无法反映小峰的缺失;P对所有峰积分值等权,能较好地反映小峰的变动,二者构成双定量相似度。因此,由S与S′、C与P构成的双定性双定量相似度法能同时监测大峰和小峰的变动与缺失,能准确地解决色谱指纹图谱的宏观定性和定量评价问题。同时还提出了方向余弦作为对照指纹图谱的特征指纹的概念和分解相似度的概念,以此考察了各指纹峰对相似度贡献的大小及其在不同程度缺失时4种相似度的变化情况。所建立的HPLC对照指纹图谱可用于银杏达莫注射液的质量控制。 展开更多
关键词 高效液相色谱 指纹图谱 双定性相似度 双定量相似度 方向余弦 相似度分解值 双定性双定量相似度评价法 银杏达莫注射液
在线阅读 下载PDF
“求同”还是“存异”?技术足迹相似度、环境动态性与企业关键核心技术创新 被引量:6
2
作者 龚红 丁梦梦 胡思源 《南开管理评论》 北大核心 2025年第4期86-97,共12页
在走出“卡脖子”困境和高质量发展的现实诉求下,企业如何有效进行技术变革,重构知识体系以实现关键核心技术创新成为极具价值的现实问题。本文基于知识基础观,探讨了行业和历史两大参照标准下的技术足迹相似度与企业关键核心技术创新... 在走出“卡脖子”困境和高质量发展的现实诉求下,企业如何有效进行技术变革,重构知识体系以实现关键核心技术创新成为极具价值的现实问题。本文基于知识基础观,探讨了行业和历史两大参照标准下的技术足迹相似度与企业关键核心技术创新之间的关系,以及环境动态性的调节作用。本文采集394家制造企业2000~2022年21.8万条专利题录数据,利用固定效应负二项模型开展实证研究,结果表明:行业技术足迹相似度、历史技术足迹相似度与企业关键核心技术创新之间均呈倒U型关系,即企业的技术发展足迹与行业整体及自身过往保持适度的相似最有利于实现关键核心技术创新。此外,当外部环境动态性较高时,技术足迹相似度与企业关键核心技术创新之间的非线性关系会得到进一步强化。本文在一定程度上丰富了知识视角下的微观个体关键核心技术突破路径相关研究,为我国企业明确技术发展方向、实现创新升级提供了有益参考。 展开更多
关键词 关键核心技术创新 技术足迹相似度 环境动态性
在线阅读 下载PDF
基于差动正序分量波形相似度的海上风电低频输电线路保护方法 被引量:1
3
作者 高淑萍 周永宁 +3 位作者 王晨清 陈实 宋国兵 权喆 《电力系统保护与控制》 北大核心 2025年第11期95-104,共10页
海上风电低频输电线路故障受双侧电力电子换流器控制策略影响,其故障特征以及对传统保护的影响较为复杂。基于双端换流器控制策略和故障复合序网,从理论上分析传统电流差动保护的适应性,得到存在拒动风险的结论。结合故障后电压、电流... 海上风电低频输电线路故障受双侧电力电子换流器控制策略影响,其故障特征以及对传统保护的影响较为复杂。基于双端换流器控制策略和故障复合序网,从理论上分析传统电流差动保护的适应性,得到存在拒动风险的结论。结合故障后电压、电流波形特点,提出基于差动正序分量波形相似度的保护方法。该方法首先提取线路两侧保护安装处电流与电压的故障分量,利用对称分量法得到故障分量所对应差动电流与差动电压的正序分量,对正序差动电压进行修正。然后,利用改进余弦相似度计算差动电流与修正差动电压正序分量的相关程度,通过相关性的差异来识别区内、外故障。最后,在PSCAD中搭建了海上低频输电系统模型,对线路中发生不同故障位置、故障类型、不同过渡电阻和采样频率的故障情况进行分析,验证了所提保护方法的快速性和有效性。 展开更多
关键词 海上风电 低频输电系统 线路保护 对称分量法 改进余弦相似度
在线阅读 下载PDF
基于混合策略的中文查询串相似度计算 被引量:3
4
作者 章成敏 鞠海燕 《情报杂志》 CSSCI 北大核心 2005年第11期101-103,105,共4页
综合考虑查询串所包含关键词的词形、语义、语用三个层面的信息计算查询串相似度的计算方法。首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行关键词在语义层面上的匹配,得到查询串在语义层面上的相似度,接着... 综合考虑查询串所包含关键词的词形、语义、语用三个层面的信息计算查询串相似度的计算方法。首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行关键词在语义层面上的匹配,得到查询串在语义层面上的相似度,接着以搜索引擎作为语料库来源,将查询串提交给搜索引擎,通过对返回结果中重叠部分的统计分析,计算查询串在语用上的相似度,最后综合这三个相似度,完成相似度的计算。实验结果表明该算法的有效性。 展开更多
关键词 查询串相似度 语义相似度 字面相似度 语用相似度 查询 混合策略 中文 搜索引擎 语义层 计算方法
在线阅读 下载PDF
基于二阶相似度的即时学习软测量建模方法 被引量:6
5
作者 祁成 史旭东 熊伟丽 《智能系统学报》 CSCD 北大核心 2020年第5期910-918,共9页
针对即时(惰性)学习模型频率降低间接导致的精度下降问题,提出一种二阶相似性的即时学习方法。该方法综合顾及到样本集的整体分布特性,在传统一阶相似度准则的基础上建立二阶相似度准则,采用与测试样本具有绝大部分相同近邻的二阶相似... 针对即时(惰性)学习模型频率降低间接导致的精度下降问题,提出一种二阶相似性的即时学习方法。该方法综合顾及到样本集的整体分布特性,在传统一阶相似度准则的基础上建立二阶相似度准则,采用与测试样本具有绝大部分相同近邻的二阶相似样本建立当前时刻的模型;同时将累计相似度因子用于建立局部模型时样本量的确定,并采用相似度阈值的方式判断此刻模型是否需要重新建立。该方法在青霉素发酵过程产物浓度的预测实验中得到了有效的验证。 展开更多
关键词 即时学习 更新频率 二阶相似度 相似度准则 一阶相似度 局部模型 累计相似度因子 相似度阈值
在线阅读 下载PDF
基于概率相似度的不完备数据填补研究
6
作者 仝利红 孙士保 《现代电子技术》 北大核心 2025年第4期79-82,共4页
为提升数据的完整性,保证数据的效用程度,提出一种基于概率相似度的不完备数据填补方法。量化计算不完备数据的概率相似度矩阵,将计算结果和ROUSTIDA算法相结合进行不完备数据填补,获取完备数据集。在此基础上,构建决策规则,保证多属性... 为提升数据的完整性,保证数据的效用程度,提出一种基于概率相似度的不完备数据填补方法。量化计算不完备数据的概率相似度矩阵,将计算结果和ROUSTIDA算法相结合进行不完备数据填补,获取完备数据集。在此基础上,构建决策规则,保证多属性缺失数据的填补性能,并且设定可辨识矩阵优化算法的不完备数据填补效果。测试结果显示,所提方法能够计算不同数据对象之间的相似度值,可有效完成数据填补,填补后数据的完备程度均在95%以上,填补数据的填补值误差均在0.17以下,填补效果良好。 展开更多
关键词 概率相似度 不完备数据 数据填补 ROUSTIDA算法 相似度矩阵 可辨识矩阵 决策规则
在线阅读 下载PDF
基于数据表相似度的军事实体数据融合方法
7
作者 吴波 李晓婷 +2 位作者 刘波 王凯 郑博 《火力与指挥控制》 北大核心 2025年第4期177-182,189,共7页
在数据架构顶层规范指导下,多源数据融合需消除数十个领域数据之间内容重复、数据冲突等问题。在此业务过程中,需人工从大量数据表中筛选出相似表,效率低下。为解决这些问题,提出一种基于数据表相似度的军事实体数据融合方法:通过数据... 在数据架构顶层规范指导下,多源数据融合需消除数十个领域数据之间内容重复、数据冲突等问题。在此业务过程中,需人工从大量数据表中筛选出相似表,效率低下。为解决这些问题,提出一种基于数据表相似度的军事实体数据融合方法:通过数据表名和字段名相似度排除业务不相关的表,利用互信息量计算表之间各列值的相关性,帮助作业人员快速找出关联度高的实体数据表,提高实体数据属性融合效率。 展开更多
关键词 相似度 互信息量 数据融合 军事实体数据 文本相似度 规则引擎
在线阅读 下载PDF
基于改进蒸馏学习的医学文本相似度计算
8
作者 关慧 赵凌波 杨伟琛 《计算机工程与设计》 北大核心 2025年第9期2473-2479,共7页
针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行... 针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行扩充后,输出的文本在蒸馏模型中通过特征向量中心核对齐方式进行特征间高维相似性度量。增强后的医学数据集在两种医学领域基线模型上的皮尔逊系数较未增强前分别提升了2.9%和1.7%。改进后的蒸馏模型在增强后的医学数据集皮尔逊值为81.1%,达到12层教师模型的95%,参数减少了近7倍。 展开更多
关键词 自然语言处理 相似度计算 医学文本相似度 数据增强 蒸馏学习 动态蒸馏 中心核对齐
在线阅读 下载PDF
一种面向海岸现势性分析的线要素相似度评估方法
9
作者 马梦锴 董箭 +2 位作者 纪冉 谢天 王栋 《测绘通报》 北大核心 2025年第8期107-111,117,共6页
本文以地理空间数据更新中的海图更新为例,探讨了地理空间数据更新过程中现势性分析的需求和方法,强调了海岸线现势性量化评估在海图更新中的关键作用,分析了现有现势性评估流程及传统相似度评估方法的局限性。针对上述情况,本文提出一... 本文以地理空间数据更新中的海图更新为例,探讨了地理空间数据更新过程中现势性分析的需求和方法,强调了海岸线现势性量化评估在海图更新中的关键作用,分析了现有现势性评估流程及传统相似度评估方法的局限性。针对上述情况,本文提出一种面向海岸现势性分析的线要素相似度评估方法。该方法主要包括3个步骤:首先,设计一种考虑线要素精度的重采样方法,对更新资料进行预处理;然后,建立线要素形状特征提取与转换流程,确保在镜像、旋转、缩放、移位等多场景下特征提取结果的一致性;最后,基于形状特征提取结果的线要素相似度评判标准,实现更新资料和原始资料的量化比对。试验结果表明,该方法具有较强的稳健性和局部线段匹配整体的能力,通过提取线要素的形状特征,实现了线要素相似度的量化评估,为航海图更新提供了有效的技术支持。 展开更多
关键词 地理空间数据更新 相似度算法 海图更新 线相似度
在线阅读 下载PDF
基于图像块间相似度融合类注意力图的弱监督目标定位
10
作者 陈俊芬 张杰 +2 位作者 李娜娜 郭少聪 谢博鋆 《南京理工大学学报》 北大核心 2025年第3期381-388,共8页
弱监督目标定位在训练期间仅使用图像类别信息,由于缺乏边界信息的约束,会出现定位局部的问题,这是弱监督目标定位目前面临的挑战之一。基于注意力的令牌语义耦合注意力图(TS-CAM)模型将图像块的标记与语义无关的注意力图进行耦合,实现... 弱监督目标定位在训练期间仅使用图像类别信息,由于缺乏边界信息的约束,会出现定位局部的问题,这是弱监督目标定位目前面临的挑战之一。基于注意力的令牌语义耦合注意力图(TS-CAM)模型将图像块的标记与语义无关的注意力图进行耦合,实现语义感知定位,缓解了上述问题。该文在TS-CAM模型基础上提出了图像块间相似度融合类注意力图(PPA-CAM)模型用于目标定位。首先,PPA-CAM融合多层注意力信息,从中提取图像块间(块-块)相似度信息和类块(类别-块)信息;然后,利用类块信息生成初始注意力图,掩码较小的块间相似度进一步改善初始注意力图;最后,与特定类别的特征图相结合生成对象定位图。在CUB和ILSVRC数据集上与TS-CAM的GT定位精度相比,PPA-CAM模型分别提升了7%和1%。实验结果证明了充分利用低层的位置信息时,该文所提模型在目标定位上的有效性。 展开更多
关键词 弱监督目标定位 TRANSFORMER 类注意力图 块间相似度
在线阅读 下载PDF
结合相似度预测和阈值自动求解的开集条件下毫米波雷达点云步态识别方法
11
作者 杜兰 李逸明 +3 位作者 薛世鲲 石钰 陈健 李真芳 《电子与信息学报》 北大核心 2025年第6期1850-1863,共14页
现有的雷达步态识别方法多局限于闭集设置,即假设测试阶段的所有身份类别均已包含在模板库中,不适用于库内已知身份类别和库外未知新身份类别共存的真实开放识别环境。针对非完备身份类别模板库条件下的步态识别问题,该文提出一种结合... 现有的雷达步态识别方法多局限于闭集设置,即假设测试阶段的所有身份类别均已包含在模板库中,不适用于库内已知身份类别和库外未知新身份类别共存的真实开放识别环境。针对非完备身份类别模板库条件下的步态识别问题,该文提出一种结合相似度预测和阈值自动求解的开集条件下毫米波雷达点云步态识别方法。在点云特征提取的基础上,结合对潜在未知类相似度得分分布的先验认知,设计了一种伪开放环境训练策略来学习相似度预测网络,提升相似度得分空间中已知类别与未知类别的鉴别性;最后,阈值自动求解模块通过极值理论对相似度得分的极值分布进行概率拟合,并通过最小虚警与漏检准则实现未知类拒判阈值的准确求解。基于实测毫米波雷达点云数据的实验结果表明了所提方法在开集条件下具有良好的识别稳健性。 展开更多
关键词 毫米波雷达 步态识别 开集识别 相似度预测 极值理论
在线阅读 下载PDF
股票增发与年报文本信息策略性披露——基于MD&A文本相似度视角的研究
12
作者 朱杰 王雄元 《财贸研究》 北大核心 2025年第5期92-110,共19页
中国资本市场大体量的股票增发事件是否会加剧上市公司会计信息策略性披露行为进而影响资本市场资源配置效率,是备受关注的重要问题。基于2007—2017年中国A股上市公司年报管理层讨论与分析(MD&A)文本信息,以文本相似度为切入点,采... 中国资本市场大体量的股票增发事件是否会加剧上市公司会计信息策略性披露行为进而影响资本市场资源配置效率,是备受关注的重要问题。基于2007—2017年中国A股上市公司年报管理层讨论与分析(MD&A)文本信息,以文本相似度为切入点,采用多时点双重差分方法,研究上市公司股票增发进程中的年报文本信息策略性披露行为及其经济后果。结果发现:(1)出于策略性动机,上市公司会在股票增发前一年和当年增加非特质性风险信息披露,并减少特质性信息披露,进而导致年报MD&A文本相似度显著降低。(2)盈余管理程度越高的上市公司,股票增发前一年和当年年报MD&A文本相似度的降低越显著。(3)降低年报MD&A文本相似度与增加盈余管理相联动的策略性会计信息披露行为显著提高了股票增发成功率,但也提高了股票增发折价率,增加了企业权益融资成本。研究结论为监管部门强化上市公司会计信息监督提供了重要的理论依据和政策启示。 展开更多
关键词 股票增发 年报文本信息 策略性披露 MD&A 文本相似度
在线阅读 下载PDF
基于多中心性指标相似度融合的鱼类相对重要性评估方法
13
作者 赵丹枫 陈天文 +1 位作者 王建 苏诚 《海洋科学进展》 北大核心 2025年第3期706-720,共15页
作为海洋生态系统的关键组成部分,鱼类在食物网中的相对重要性直接影响着整个生态系统的稳定性。目前已使用了多个复杂网络中心性指标如Katz指数、PPR指数等来评估鱼类的重要性,但这些指标侧重点各不相同,为确保不同中心性指标对鱼类重... 作为海洋生态系统的关键组成部分,鱼类在食物网中的相对重要性直接影响着整个生态系统的稳定性。目前已使用了多个复杂网络中心性指标如Katz指数、PPR指数等来评估鱼类的重要性,但这些指标侧重点各不相同,为确保不同中心性指标对鱼类重要性刻画的适用性,并能够综合评价鱼类对食物网稳定性的影响,本研究系统性定义了包括鱼类度中心性、鱼类信息中心性等的鱼类中心性指标,并提出一种多中心性指标相似度融合(Multi-centrality Index Similarity Fusion,MISF)方法。该方法构建包含多种网络中心性指标的鱼类特征矩阵,提出基于余弦相似度、欧氏距离和相对熵融合的鱼类相似度计算并使用熵权法确定各指标权重,最终实现鱼类综合重要性排序。本研究以2016—2018年珠江口海域鱼类捕食关系网数据为研究对象,开展了鱼类重要性评估,实验结果表明,与Katz指数、PPR指数等方法相比,该方法可以有效评估鱼类在食物网中的相对重要性。在2016和2018年数据集中,MISF方法的精确率和召回率分别达到1.0和0.5,显著优于其他方法,而在2017年数据集中,尽管网络规模增大导致精确率略低于Katz和PPR指数,但召回率表现更佳。此外,根据鱼类在食物网中的不同重要性级别,讨论了它们由于数量变动对网络稳定性产生的影响差异。本研究为鱼类资源管理提供了新的视角。 展开更多
关键词 鱼类食物网 多指标相似度融合 相对重要性 鱼类资源管理
在线阅读 下载PDF
基于语义相似度与改进PSO算法的云制造能力需求模型与匹配策略研究
14
作者 李晓波 郭银章 《现代制造工程》 北大核心 2025年第6期30-44,共15页
针对云计算环境下智能制造资源服务化共享中制造能力与任务需求之间的搜索匹配与服务组合问题,提出了一种基于语义相似度与改进粒子群优化(Particle Swarm Optimization,PSO)算法的云制造能力需求模型与匹配策略。首先,在提出云制造能... 针对云计算环境下智能制造资源服务化共享中制造能力与任务需求之间的搜索匹配与服务组合问题,提出了一种基于语义相似度与改进粒子群优化(Particle Swarm Optimization,PSO)算法的云制造能力需求模型与匹配策略。首先,在提出云制造能力需求模型的基础上,采用领域本体树的概念提出了概念相似度、句子相似度和数值相似度的计算方法,实现了基于语义相似度的云制造能力需求智能化服务搜索;然后,针对云制造能力的服务组合问题,在分析了制造能力服务质量(Quality of Service,QoS)属性的基础上,采用层次分析法(Analytic Hierarchy Process,AHP)将各个属性进行归一化求和,给出了一种基于改进PSO算法的服务组合方法;最后,通过实验对比发现所提出的方法优于现有方法并实现了云制造能力需求智能匹配原型系统。 展开更多
关键词 云制造能力 任务需求 搜索匹配 服务组合 语义相似度 改进粒子群优化算法
在线阅读 下载PDF
单云环境下强隐私保护的多维多重集相似度阈值精确查询方案
15
作者 李顺东 杜佶欣 +1 位作者 吴川宇 余佳桐 《计算机学报》 北大核心 2025年第10期2430-2449,共20页
集合相似度查询在现实生活中具有广泛应用,但由于它只允许每个元素出现一次,这限制了其在某些场景下的表达能力,无法描述复杂现象。多重集的特性使其能够更加全面地描述复杂现象,增强数据灵活性和表达力。因此,多重集的相似度阈值查询... 集合相似度查询在现实生活中具有广泛应用,但由于它只允许每个元素出现一次,这限制了其在某些场景下的表达能力,无法描述复杂现象。多重集的特性使其能够更加全面地描述复杂现象,增强数据灵活性和表达力。因此,多重集的相似度阈值查询更具实用性。随着云计算的发展,将数据存储和查询外包给云服务器成为数据拥有者的一个有吸引力的选择。然而,这种数据外包极易泄露数据隐私。为了保护数据隐私,数据拥有者在外包数据之前都要将数据加密,而在外包的密文数据上进行相似度查询就成为一个挑战。本文提出了一种新的保护隐私的相似度阈值查询方案,不仅能够解决多重集相似度的保密查询问题,还能够同时基于数据向量和关键词(两种数据类型)为查询用户提供查询结果。具体而言,我们首先设计了一个基于Jaccard相似度的多重集相似度阈值查询协议,然后通过0-1编码构造向量,结合Paillier密码系统设计了一个可以对不同类型的数据进行高效、准确的并行查询协议,并提出了单云服务器下的多维多重集相似度阈值查询方案。最后,本文使用公认的模拟范例证明了两个协议是安全的,且实验表明了方案是可行的。 展开更多
关键词 隐私保护 多重集 相似度 同态运算 模型
在线阅读 下载PDF
基于相似度和密度的抗噪声船舶轨迹聚类方法
16
作者 杨家轩 吴长胜 赵时雨 《舰船科学技术》 北大核心 2025年第2期178-184,共7页
通过对船舶AIS数据聚类可以掌握船舶运动行为和特征规律,但在轨迹聚类中通过距离描述的相似性不能连续地表征轨迹之间的相似程度,且对轨迹中的噪声点敏感、无法区分轨迹方向。针对上述问题,本文提出一种基于相似度和密度的抗噪声轨迹聚... 通过对船舶AIS数据聚类可以掌握船舶运动行为和特征规律,但在轨迹聚类中通过距离描述的相似性不能连续地表征轨迹之间的相似程度,且对轨迹中的噪声点敏感、无法区分轨迹方向。针对上述问题,本文提出一种基于相似度和密度的抗噪声轨迹聚类方法,构建航向约束分段路径距离并定义轨迹相似度函数;根据轨迹相似度分布特征和聚类评价指标,建立自适应确定最佳聚类参数流程。以长江口水域AIS数据为例,基于确定的最佳参数聚类出8个不同方向的轨迹簇,结果与实际船舶习惯航路相符。实验结果表明,所提出的方法能够快速确定最佳聚类参数并对不同运动方向的轨迹进行聚类,结果可用于特征轨迹提取和航路识别,为智能航海提供技术支撑。 展开更多
关键词 船舶交通 轨迹聚类 相似度 轨迹密 特征轨迹
在线阅读 下载PDF
基于字符串相似度的URL聚类方法研究
17
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS URL CDN Levenshtein算法
在线阅读 下载PDF
企业金融化与年报相似度
18
作者 贺星星 张烽辉 孙宇 《会计之友》 北大核心 2025年第6期49-57,共9页
文章以2011-2022年A股上市公司作为研究样本,实证检验了企业金融化与年报相似度之间的关系。研究表明,企业金融化会降低年报相似度,经过一系列稳健性检验后,该结论依然成立。机制检验表明,随着金融化水平的提高,企业抵御不确定性风险的... 文章以2011-2022年A股上市公司作为研究样本,实证检验了企业金融化与年报相似度之间的关系。研究表明,企业金融化会降低年报相似度,经过一系列稳健性检验后,该结论依然成立。机制检验表明,随着金融化水平的提高,企业抵御不确定性风险的能力得到提高,企业可能会减少风险信息披露,这使得金融化降低相似度的作用受到削弱。此外,企业金融化降低年报相似度的作用会受到公司治理结构的显著影响,具体表现在管理层的“主人翁”意识与公司外部治理的“监督效应”。异质性分析发现,企业金融化降低年报相似度的作用效果会受到行业竞争度与区域特征的影响。 展开更多
关键词 企业金融化 年报相似度 文本分析 不确定性风险 公司治理
在线阅读 下载PDF
基于交替语言数据重构方法的跨语言文本相似度模型
19
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 大模型微调
在线阅读 下载PDF
基于迁移学习的农业短文本语义相似度计算方法
20
作者 金宁 郭宇峰 +2 位作者 韩晓东 缪祎晟 吴华瑞 《智慧农业(中英文)》 2025年第1期33-43,共11页
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Represe... [目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT (Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。[方法] CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法 CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT (Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。[结果和讨论] CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM (Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。[结论] CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。 展开更多
关键词 迁移学习 农业短文本 语义相似度计算 字形特征 知识智能服务 大模型
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部