微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,...微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。展开更多
时间序列数据广泛来源于社会各个领域,从气象学到金融学再到医学,准确的长期预测是时间序列数据分析、处理与研究中的一个关键问题。针对时间序列数据中存在的不同尺度相关性的挖掘与利用,提出一种基于神经网络的多尺度信息融合时间序...时间序列数据广泛来源于社会各个领域,从气象学到金融学再到医学,准确的长期预测是时间序列数据分析、处理与研究中的一个关键问题。针对时间序列数据中存在的不同尺度相关性的挖掘与利用,提出一种基于神经网络的多尺度信息融合时间序列长期预测模型ScaleNN,旨在更好地处理时间序列数据中的多尺度问题,从而实现更准确的长期预测。首先,结合全连接神经网络和卷积神经网络,有效提取全局信息与局部信息,并将2种信息聚合后进行预测;其次,通过在全局信息表征模块中引入压缩机制,以更轻量化的结构接受更长的序列输入,增大模型的感知范围并提高模型效能。大量实验结果表明,ScaleNN在多个真实世界数据集上的性能优于当前该领域的优秀模型PatchTST(Patch Time Series Transformer),在运行时间降低35%的同时仅需19%的参数量。可见,ScaleNN可广泛应用于不同领域的时间序列预测问题,为交通流量预测、天气预报等领域提供预测的基础。展开更多
文摘微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。
文摘时间序列数据广泛来源于社会各个领域,从气象学到金融学再到医学,准确的长期预测是时间序列数据分析、处理与研究中的一个关键问题。针对时间序列数据中存在的不同尺度相关性的挖掘与利用,提出一种基于神经网络的多尺度信息融合时间序列长期预测模型ScaleNN,旨在更好地处理时间序列数据中的多尺度问题,从而实现更准确的长期预测。首先,结合全连接神经网络和卷积神经网络,有效提取全局信息与局部信息,并将2种信息聚合后进行预测;其次,通过在全局信息表征模块中引入压缩机制,以更轻量化的结构接受更长的序列输入,增大模型的感知范围并提高模型效能。大量实验结果表明,ScaleNN在多个真实世界数据集上的性能优于当前该领域的优秀模型PatchTST(Patch Time Series Transformer),在运行时间降低35%的同时仅需19%的参数量。可见,ScaleNN可广泛应用于不同领域的时间序列预测问题,为交通流量预测、天气预报等领域提供预测的基础。