期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于主题提示学习的零样本立场检测方法
1
作者 陈子潇 梁斌 徐睿峰 《中文信息学报》 北大核心 2025年第1期112-120,共9页
零样本立场检测目的是针对未知目标数据进行立场极性预测。一般而言,文本的立场表达是与所讨论的目标主题紧密联系的。针对未知目标的立场检测,该文将立场表达划分为两种类型:一类在说话者面向不同的主题和讨论目标时表达相同的立场态度... 零样本立场检测目的是针对未知目标数据进行立场极性预测。一般而言,文本的立场表达是与所讨论的目标主题紧密联系的。针对未知目标的立场检测,该文将立场表达划分为两种类型:一类在说话者面向不同的主题和讨论目标时表达相同的立场态度,称为目标无关的表达;另一类在说话者面向特定主题和讨论目标时才表达相应的立场态度,该文称为目标依赖的表达。对这两种表达进行区分,有效学习到目标无关的表达方式并忽略目标依赖的表达方式,有望强化模型的可迁移能力,使其更加适应零样本立场检测任务。据此,该文提出了一种基于主题提示学习的零样本立场检测方法。具体而言,受自监督学习的启发,该文为零样本立场检测设置了一个代理任务框架。其中,代理任务通过掩盖上下文中的目标主题词生成辅助样本,并基于提示学习分别预测原样本和辅助样本的立场表达,随后判断原样本和辅助样本的立场表达是否一致,从而在无须人工标注的情况下判断样本的立场表达是否依赖于目标的代理标签。然后,将此代理标签提供给立场检测模型,对应学习可迁移的立场检测特征。在两个基准数据集上的大量实验表明,该文提出的方法在零样本立场检测任务中相比基线模型取得了更优的性能。 展开更多
关键词 零样本立场检测 提示学习 代理任务
在线阅读 下载PDF
面向话题的讽刺识别:新任务、新数据和新方法 被引量:4
2
作者 梁斌 林子杰 +1 位作者 徐睿峰 秦兵 《中文信息学报》 CSCD 北大核心 2023年第2期138-147,157,共11页
现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。... 现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。对应地,该文构建了一个新的面向话题的讽刺识别数据集,包含707个话题,以及对应的4871个话题-评论对组。在此基础上,基于提示学习和大规模预训练语言模型,该文提出了一种面向话题的讽刺表达提示学习模型。在该文构建的面向话题讽刺识别数据集上的实验结果表明,相比基线模型,该文所提出的面向话题的讽刺表达提示学习模型性能更优。同时,实验分析也表明,面向话题的讽刺识别任务相比传统的句子级讽刺识别任务更具挑战性。本文的数据集和代码已发布在https://github.com/HITSZ-HLT/Tosarcasm. 展开更多
关键词 讽刺识别 面向话题的讽刺识别 提示学习
在线阅读 下载PDF
面向超级账本Fabric的多通道分片技术研究 被引量:4
3
作者 刘洋 林致远 +2 位作者 张玉玺 蒋琳 吴宇琳 《应用科学学报》 CAS CSCD 北大核心 2023年第4期614-625,共12页
区块链技术被广泛运用在物联网、金融、供应链等领域。Hyperledger Fabric是目前主流的企业级许可区块链系统,该系统允许事务并发的执行与验证。然而,在高并发场景下其吞吐量的限制却制约了该系统更大范围的应用。分片技术是现有解决区... 区块链技术被广泛运用在物联网、金融、供应链等领域。Hyperledger Fabric是目前主流的企业级许可区块链系统,该系统允许事务并发的执行与验证。然而,在高并发场景下其吞吐量的限制却制约了该系统更大范围的应用。分片技术是现有解决区块链性能问题的方案之一,可同时满足低延迟和高吞吐量的目标,大多数现有分片方案只是针对非许可区块链加密货币的应用,而针对许可区块链的分片研究方案却很少。面向超级账本平台,本文提出了一种多通道交互的分片方案。首先根据客户端事务发送的速率,对当前交易通道进行动态复制,进行并行背书;然后将在排序节点对复制的通道所背书的事务进行合并,生成新的区块;最后并行地在多通道内将新区块分发给各个节点,并整合在主账本内,确保节点之间账本的一致性,并更新世界状态。实验表明,提出的新方法能够在高并发的情况下显著提高事务吞吐量,相对原有的交易流程,吞吐量可提升3倍以上。 展开更多
关键词 超级账本 分片 吞吐量 多通道
在线阅读 下载PDF
新型内存硬件环境中的事务管理系统综述
4
作者 胡浩 梁文凯 +2 位作者 李诗逸 王鸿鹏 夏文 《计算机研究与发展》 EI CSCD 北大核心 2023年第3期572-591,共20页
大数据爆发的时代产生了各种新的业务类型,业务数据驱动着事务管理系统创新性的迭代发展.由于传统持久化介质的制约,传统的事务管理系统无法高效执行事务.并且,解决事务冲突的额外开销仍然会限制事务管理系统的吞吐.新型硬件的商业化应... 大数据爆发的时代产生了各种新的业务类型,业务数据驱动着事务管理系统创新性的迭代发展.由于传统持久化介质的制约,传统的事务管理系统无法高效执行事务.并且,解决事务冲突的额外开销仍然会限制事务管理系统的吞吐.新型硬件的商业化应用为事务管理系统注入了更多的可能性,在学术界和工业界均得到了广泛关注.硬件事务内存可以为事务管理系统提供硬件级别的事务冲突检测.而且,相对于固态硬盘,非易失性内存的字节寻址和持久化特性可以显著降低事务延迟并提升事务管理系统的性能.但是,现有的事务管理系统技术无法充分地利用硬件本身带来的性能提升,因此需要重构事务架构来解决这个问题.首先对新型硬件环境下的事务管理系统进行总结分析;之后总结了当前基于新型硬件事务管理系统的技术路线,明确了硬件事务内存和非易失性存储硬件下的事务管理系统的优势和不足;最后指明了新型硬件环境中事务管理系统未来可能的发展方向以及新的挑战. 展开更多
关键词 硬件事务内存 非易失性内存 并发控制 软硬协同 事务管理系统
在线阅读 下载PDF
面向数据差量压缩的高效压缩率估计方法
5
作者 邹翔宇 魏灿 +1 位作者 夏文 李诗逸 《计算机工程》 CAS CSCD 北大核心 2024年第12期70-82,共13页
差量压缩不仅会消除数据中相同的数据块,还会消除数据中相似数据块之间的重复部分,因此可以实现比数据去重更高的数据压缩率。目前它已经被应用于许多商业产品中。然而,进一步挖掘数据的可压缩性会额外引入大量的开销,包括从存储设备中... 差量压缩不仅会消除数据中相同的数据块,还会消除数据中相似数据块之间的重复部分,因此可以实现比数据去重更高的数据压缩率。目前它已经被应用于许多商业产品中。然而,进一步挖掘数据的可压缩性会额外引入大量的开销,包括从存储设备中读取相似的数据块以获知它们的重复部分,这使得差量压缩的速度通常只有数据去重的1/7。但是如此大的开销不能保证总是可以得到更好的压缩率,因为并不是所有的数据都有足够的可压缩性可供挖掘。因此,当考虑在存储系统中使用差量压缩时,需要迅速了解当前的数据是否值得进行差量压缩。提出差量压缩估计框架EDCR,它通过数据块的相似特征值来快速判断它们之间的可压缩性,从而对数据进行差量压缩的价值做出快速而准确的判断。另外,该框架引入采样和补偿方案,进一步提升了压缩率估计的效率和准确性。最终,在多个真实数据集上的测试表明,EDCR的估计错误率可以控制在1.5%以下。同时,相对于实际的差量压缩框架,EDCR估计框架在固态硬盘(SSD)上的运行速度快18~24倍,在机械磁盘(HDD)上的运行速度快16~146倍。 展开更多
关键词 差量压缩 压缩率估计 相似性特征 采样 估计修正
在线阅读 下载PDF
基于空间向量分解的边界剥离密度聚类
6
作者 张瑞霖 郑海阳 +1 位作者 苗振国 王鸿鹏 《自动化学报》 EI CAS CSCD 北大核心 2023年第6期1195-1213,共19页
作为聚类的重要组成部分,边界点在引导聚类收敛和提升模式识别能力方面起着重要作用,以BP(Border-peeling clustering)为最新代表的边界剥离聚类借助潜在边界信息来确保簇核心区域的空间隔离,提高了簇骨架代表性并解决了边界隶属问题.然... 作为聚类的重要组成部分,边界点在引导聚类收敛和提升模式识别能力方面起着重要作用,以BP(Border-peeling clustering)为最新代表的边界剥离聚类借助潜在边界信息来确保簇核心区域的空间隔离,提高了簇骨架代表性并解决了边界隶属问题.然而,现有边界剥离聚类仍存在判别特征不完备、判别模式单一、嵌套迭代等约束.为此,提出了基于空间向量分解的边界剥离密度聚类(Density clustering based on the border-peeling using space vector decomposition,CBPVD),以投影子空间和原始数据空间为基准,从分布稀疏性(紧密性)和方向偏斜性(对称性)两个视角强化边界的细粒度特征,进而通过主动边界剥离反向建立簇骨架并指导边界隶属.与同类算法相比,40个数据集(人工、UCI、视频图像)上的实验结果以及4个视角的理论分析表明了CBPVD在高维聚类和边界模式识别方面具有良好的综合表现. 展开更多
关键词 聚类 空间向量分解 边界剥离 投影子空间 高维 密度
在线阅读 下载PDF
中英双语政治论辩挖掘任务数据集建设
7
作者 张霄军 周静狮 《中文信息学报》 CSCD 北大核心 2023年第10期167-174,共8页
受制于训练语料资源稀缺,中文论辩挖掘在政治领域的研究才刚刚起步。外交辞令、外事问答以及外宣公告都蕴含着丰富而微妙的政治论辩技巧,在外交领域开展政治论辩挖掘研究具有现实意义和应用价值。该文从在建的“多语外交对话语料库”得... 受制于训练语料资源稀缺,中文论辩挖掘在政治领域的研究才刚刚起步。外交辞令、外事问答以及外宣公告都蕴含着丰富而微妙的政治论辩技巧,在外交领域开展政治论辩挖掘研究具有现实意义和应用价值。该文从在建的“多语外交对话语料库”得到启发,选取部分语料进行政治论辩观点标注、论辩关系标注和论辩句情感分析,初步建成了包含200篇外交部例行记者会实录中英文文本、1536个话轮的中英双语政治论辩挖掘任务数据集BiDAM,并以示例的形式展示了该数据集的可用性。 展开更多
关键词 政治论辩 多语外交对话语料库 跨语言论辩挖掘 论辩挖掘任务数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部