微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,...微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。展开更多
云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥...云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥可搜索加密(public-key encryption with keyword search,PEKS)技术在保障数据加密的同时,可提供保密检索功能,但由于常用关键词数量较少,传统PEKS方案易遭受关键词猜测攻击.公钥认证可搜索加密(public-key authenticated encryption with keyword search,PAEKS)在PEKS的基础上引入认证技术,可进一步提高安全性.然而,现有PAEKS方案大多基于国外密码算法设计,不符合我国密码技术自主创新的发展需求.基于国密SM9提出SM9-PAEKS方案,通过重新设计算法结构,将耗时运算转移至资源丰富的云端服务器,有效提升用户端检索效率.并在随机谕言模型下基于q-BDHI和Gap-q-BCAA1安全假设证明所提方案的安全性.最后理论分析和实验结果表明,与同类方案中通信代价最优的方案相比,SM9-PAEKS在仅增加96字节通信代价的情况下,总计算开销可至少降低约59.34%,其中关键词陷门生成的计算开销降低尤其显著,约为77.55%.有助于丰富国密算法的应用,同时可为云存储中数据加密与检索提供理论与技术支撑.展开更多
CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状...CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状进行量化评估,结论如下:中国知网CNKI年均发文数量维持在15~20篇,WOS(Web of Science)则从5篇提升至49篇;CNKI生成12个聚类,WOS共25个.将所有关键词分属9类主题,CNKI关键词在“污染物研究”、“化学过程和元素循环”和“土壤特性”高中心度关键词较为集中,WOS关键词不仅关注3个主题,在“地理环境和水文特征”、“生态系统和生物多样性”也有高中心度关键词集中.分3阶段观察研究变化,焦点均从初期的基础研究逐渐转向库区水文条件变化对生态系统的影响,关注生态修复与管理问题,暂未显现出新兴研究方向.其研究可为三峡库区生态环境研究与管理提供参考依据.展开更多
文摘微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。
文摘云存储为用户的数据管理带来了极大便捷,已成为数字经济的重要组成部分.然而,复杂多样的网络环境和不完全可信的第三方对用户隐私造成极大威胁.为保护用户隐私,通常先加密数据后存储,但传统加密技术生成的密文阻碍了后续数据检索.公钥可搜索加密(public-key encryption with keyword search,PEKS)技术在保障数据加密的同时,可提供保密检索功能,但由于常用关键词数量较少,传统PEKS方案易遭受关键词猜测攻击.公钥认证可搜索加密(public-key authenticated encryption with keyword search,PAEKS)在PEKS的基础上引入认证技术,可进一步提高安全性.然而,现有PAEKS方案大多基于国外密码算法设计,不符合我国密码技术自主创新的发展需求.基于国密SM9提出SM9-PAEKS方案,通过重新设计算法结构,将耗时运算转移至资源丰富的云端服务器,有效提升用户端检索效率.并在随机谕言模型下基于q-BDHI和Gap-q-BCAA1安全假设证明所提方案的安全性.最后理论分析和实验结果表明,与同类方案中通信代价最优的方案相比,SM9-PAEKS在仅增加96字节通信代价的情况下,总计算开销可至少降低约59.34%,其中关键词陷门生成的计算开销降低尤其显著,约为77.55%.有助于丰富国密算法的应用,同时可为云存储中数据加密与检索提供理论与技术支撑.
文摘CiteSpace作为重要的可视化分析工具,被广泛用于多种学科进展研究.本研究采集2012—2023年11月相关文献,利用CiteSpace关键词聚类功能,生成聚类并解读修正信息,借助关键词中心度和频次,从整体和时间序列角度,对库区消落带污染研究现状进行量化评估,结论如下:中国知网CNKI年均发文数量维持在15~20篇,WOS(Web of Science)则从5篇提升至49篇;CNKI生成12个聚类,WOS共25个.将所有关键词分属9类主题,CNKI关键词在“污染物研究”、“化学过程和元素循环”和“土壤特性”高中心度关键词较为集中,WOS关键词不仅关注3个主题,在“地理环境和水文特征”、“生态系统和生物多样性”也有高中心度关键词集中.分3阶段观察研究变化,焦点均从初期的基础研究逐渐转向库区水文条件变化对生态系统的影响,关注生态修复与管理问题,暂未显现出新兴研究方向.其研究可为三峡库区生态环境研究与管理提供参考依据.