微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,...微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。展开更多
最优线程数设置是影响多线程程序性能和功耗的关键之一。然而,目前寻找最优线程数的算法通常是从单一固定起点开始搜索,往往会造成搜索精度低、搜索开销大的问题。最优线程数的分布和位置与多种因素有关,包括程序所属类型、优化目标(性...最优线程数设置是影响多线程程序性能和功耗的关键之一。然而,目前寻找最优线程数的算法通常是从单一固定起点开始搜索,往往会造成搜索精度低、搜索开销大的问题。最优线程数的分布和位置与多种因素有关,包括程序所属类型、优化目标(性能、功耗和EDP(Energy-delay Product))、并行的多线程区域、软硬件配置参数等。围绕能效优先的最优线程数搜索问题,提出了能效优先的特定起点分类最优线程数搜索算法(Energy-Efficiency-First Optimal Thread Number Search Algorithm based on Specific Starting Point Classification,简称TS^(3)方法)”,通过设计基于程序分类的特殊起点设定方法来确定搜索起点,并采用启发式算法和二分查找方法搜索最优线程数,提升搜索效率,有效提升了能效优先目标(性能最优、功耗最优、能效EDP最优)下的最优线程数搜索精度并降低了搜索开销。在两个x86和一个ARM平台上用8个benchmark对算法有效性进行了详细实验验证,结果表明,与Baseline相比,TS^(3)方法的性能平均提升0.29%(平台A)、0.17%(平台B)、10.77%(平台C);功耗平均降低2.35%(平台A)、1.87%(平台B)、15.97%(平台C);EDP平均降低6.36%(平台A)、5.07%(平台B)、46.94%(平台C)。在3个平台上,与目前经典搜索方法相比,TS^(3)方法的性能平均提升10.16%,功耗平均降低13.45%,EDP平均降低23.77%;搜索开销平均降低86.8%。展开更多
CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状...CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状进行量化评估,结论如下:中国知网CNKI年均发文数量维持在15~20篇,WOS(Web of Science)则从5篇提升至49篇;CNKI生成12个聚类,WOS共25个.将所有关键词分属9类主题,CNKI关键词在“污染物研究”、“化学过程和元素循环”和“土壤特性”高中心度关键词较为集中,WOS关键词不仅关注3个主题,在“地理环境和水文特征”、“生态系统和生物多样性”也有高中心度关键词集中.分3阶段观察研究变化,焦点均从初期的基础研究逐渐转向库区水文条件变化对生态系统的影响,关注生态修复与管理问题,暂未显现出新兴研究方向.其研究可为三峡库区生态环境研究与管理提供参考依据.展开更多
云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥...云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥可搜索加密(public-key encryption with keyword search,PEKS)技术在保障数据加密的同时,可提供保密检索功能,但由于常用关键词数量较少,传统PEKS方案易遭受关键词猜测攻击.公钥认证可搜索加密(public-key authenticated encryption with keyword search,PAEKS)在PEKS的基础上引入认证技术,可进一步提高安全性.然而,现有PAEKS方案大多基于国外密码算法设计,不符合我国密码技术自主创新的发展需求.基于国密SM9提出SM9-PAEKS方案,通过重新设计算法结构,将耗时运算转移至资源丰富的云端服务器,有效提升用户端检索效率.并在随机谕言模型下基于q-BDHI和Gap-q-BCAA1安全假设证明所提方案的安全性.最后理论分析和实验结果表明,与同类方案中通信代价最优的方案相比,SM9-PAEKS在仅增加96字节通信代价的情况下,总计算开销可至少降低约59.34%,其中关键词陷门生成的计算开销降低尤其显著,约为77.55%.有助于丰富国密算法的应用,同时可为云存储中数据加密与检索提供理论与技术支撑.展开更多
利用CiteSpace软件从关键词聚类、合作网络、引文分析等多个角度,对Web of Science Core Collection数据库中2002—2023年发表的1146篇与根域限制有关的学术论文进行知识图谱分析,深入研究了植物根域限制领域的研究热点和发展趋势。结...利用CiteSpace软件从关键词聚类、合作网络、引文分析等多个角度,对Web of Science Core Collection数据库中2002—2023年发表的1146篇与根域限制有关的学术论文进行知识图谱分析,深入研究了植物根域限制领域的研究热点和发展趋势。结果显示:1)“根际”“群体”“定植”“基因表达”作为突现词的持续时间长,“干旱胁迫”“水分”“耐受力”为目前突现强度较高的突现词。2)根域限制在植物根际生态学、植物生长与发育及真菌和植物相互作用等领域意义重大。3)2002—2023年,相关文献发文量呈波动增长趋势。根域限制研究受多学科重视,其中植物科学与农学的文献占比达65%。美国发文量居首,其次是中国、巴西;中国突现强度排名第一。本研究涵盖了植物适应逆境的机制、植物与土壤相互作用、根腐病、土壤菌群等多个热点领域,旨在揭示当前植物根域限制研究的主要领域、关键问题以及未来可能的研究方向,为研究者提供参考和指导。展开更多
文摘微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。
文摘最优线程数设置是影响多线程程序性能和功耗的关键之一。然而,目前寻找最优线程数的算法通常是从单一固定起点开始搜索,往往会造成搜索精度低、搜索开销大的问题。最优线程数的分布和位置与多种因素有关,包括程序所属类型、优化目标(性能、功耗和EDP(Energy-delay Product))、并行的多线程区域、软硬件配置参数等。围绕能效优先的最优线程数搜索问题,提出了能效优先的特定起点分类最优线程数搜索算法(Energy-Efficiency-First Optimal Thread Number Search Algorithm based on Specific Starting Point Classification,简称TS^(3)方法)”,通过设计基于程序分类的特殊起点设定方法来确定搜索起点,并采用启发式算法和二分查找方法搜索最优线程数,提升搜索效率,有效提升了能效优先目标(性能最优、功耗最优、能效EDP最优)下的最优线程数搜索精度并降低了搜索开销。在两个x86和一个ARM平台上用8个benchmark对算法有效性进行了详细实验验证,结果表明,与Baseline相比,TS^(3)方法的性能平均提升0.29%(平台A)、0.17%(平台B)、10.77%(平台C);功耗平均降低2.35%(平台A)、1.87%(平台B)、15.97%(平台C);EDP平均降低6.36%(平台A)、5.07%(平台B)、46.94%(平台C)。在3个平台上,与目前经典搜索方法相比,TS^(3)方法的性能平均提升10.16%,功耗平均降低13.45%,EDP平均降低23.77%;搜索开销平均降低86.8%。
文摘CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状进行量化评估,结论如下:中国知网CNKI年均发文数量维持在15~20篇,WOS(Web of Science)则从5篇提升至49篇;CNKI生成12个聚类,WOS共25个.将所有关键词分属9类主题,CNKI关键词在“污染物研究”、“化学过程和元素循环”和“土壤特性”高中心度关键词较为集中,WOS关键词不仅关注3个主题,在“地理环境和水文特征”、“生态系统和生物多样性”也有高中心度关键词集中.分3阶段观察研究变化,焦点均从初期的基础研究逐渐转向库区水文条件变化对生态系统的影响,关注生态修复与管理问题,暂未显现出新兴研究方向.其研究可为三峡库区生态环境研究与管理提供参考依据.
文摘云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥可搜索加密(public-key encryption with keyword search,PEKS)技术在保障数据加密的同时,可提供保密检索功能,但由于常用关键词数量较少,传统PEKS方案易遭受关键词猜测攻击.公钥认证可搜索加密(public-key authenticated encryption with keyword search,PAEKS)在PEKS的基础上引入认证技术,可进一步提高安全性.然而,现有PAEKS方案大多基于国外密码算法设计,不符合我国密码技术自主创新的发展需求.基于国密SM9提出SM9-PAEKS方案,通过重新设计算法结构,将耗时运算转移至资源丰富的云端服务器,有效提升用户端检索效率.并在随机谕言模型下基于q-BDHI和Gap-q-BCAA1安全假设证明所提方案的安全性.最后理论分析和实验结果表明,与同类方案中通信代价最优的方案相比,SM9-PAEKS在仅增加96字节通信代价的情况下,总计算开销可至少降低约59.34%,其中关键词陷门生成的计算开销降低尤其显著,约为77.55%.有助于丰富国密算法的应用,同时可为云存储中数据加密与检索提供理论与技术支撑.
文摘利用CiteSpace软件从关键词聚类、合作网络、引文分析等多个角度,对Web of Science Core Collection数据库中2002—2023年发表的1146篇与根域限制有关的学术论文进行知识图谱分析,深入研究了植物根域限制领域的研究热点和发展趋势。结果显示:1)“根际”“群体”“定植”“基因表达”作为突现词的持续时间长,“干旱胁迫”“水分”“耐受力”为目前突现强度较高的突现词。2)根域限制在植物根际生态学、植物生长与发育及真菌和植物相互作用等领域意义重大。3)2002—2023年,相关文献发文量呈波动增长趋势。根域限制研究受多学科重视,其中植物科学与农学的文献占比达65%。美国发文量居首,其次是中国、巴西;中国突现强度排名第一。本研究涵盖了植物适应逆境的机制、植物与土壤相互作用、根腐病、土壤菌群等多个热点领域,旨在揭示当前植物根域限制研究的主要领域、关键问题以及未来可能的研究方向,为研究者提供参考和指导。