期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
面向信息内容安全的文本过滤模型研究 被引量:18
1
作者 刘梅彦 黄改娟 《中文信息学报》 CSCD 北大核心 2017年第2期126-131,138,共7页
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤... 该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。 展开更多
关键词 文本信息过滤 不良文本 语义分析 依存句法分析
在线阅读 下载PDF
基于关键句和题型的阅读理解问题生成技术研究
2
作者 蒋玉茹 陶宇阳 +1 位作者 王霞 葛诗利 《计算机工程与应用》 北大核心 2025年第12期141-153,共13页
现有的阅读理解问题生成技术研究主要以答案已知为前提展开。为了使阅读理解问题生成技术可以摆脱对答案的依赖,从而促使教育领域的问题生成技术向着端到端自动化出题的应用场景进一步迈进,对答案未知前提下的阅读理解问题生成技术展开... 现有的阅读理解问题生成技术研究主要以答案已知为前提展开。为了使阅读理解问题生成技术可以摆脱对答案的依赖,从而促使教育领域的问题生成技术向着端到端自动化出题的应用场景进一步迈进,对答案未知前提下的阅读理解问题生成技术展开了研究。提出引入关键句和题型作为两种简单的控制信息,替代需要从文章中抽取总结的答案,规定问题的提问内容范围和提问特点。提出了一个基于关键句和题型信息的可控问题生成框架,通过给定文章、关键句和题型来生成阅读理解问题。通过自动化评测和人工评测,验证了框架包含的两种问题生成方法的有效性和先进性。框架所需的两种控制信息相比答案更容易获取,为问题生成技术的应用带来更好的易用性,为使用者提供更高的出题效率。 展开更多
关键词 英语阅读理解 问题生成 文本生成
在线阅读 下载PDF
融合多粒度语言知识与层级信息的中文命名实体识别模型 被引量:1
3
作者 于右任 张仰森 +1 位作者 蒋玉茹 黄改娟 《计算机应用》 CSCD 北大核心 2024年第6期1706-1712,共7页
针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文... 针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文本的细粒度和粗粒度语言信息,从而更好地表征语料;其次,使用ON-LSTM(Ordered Neurons Long Short-Term Memory network)模型提取层级信息,利用文本本身的层级结构信息增强编码间的时序关系;最后,在模型的解码端结合文本的分词信息,并将实体识别问题转化为表格填充问题,以更好地解决实体重叠问题并获得更准确的实体识别结果。同时,为解决当前模型在不同领域中的迁移能力较差的问题,提出通用实体识别的理念,通过筛选多领域的通用实体类型,构建一套提升模型在多领域中的泛化能力的通用NER数据集MDNER(Multi-Domain NER dataset)。为验证所提模型的效果,在数据集Resume、Weibo、MSRA上进行实验,与MECT(Multi-metadata Embedding based Cross-Transformer)模型相比,F1值分别提高了0.94、4.95和1.58个百分点。为了验证所提模型在多领域中的实体识别效果,在MDNER上进行实验,F1值达到了95.29%。实验结果表明,多粒度语言知识预训练、文本层级结构信息提取和高效指针解码器对模型的性能提升至关重要。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 高效指针 通用实体
在线阅读 下载PDF
融合语义信息与问题关键信息的多阶段注意力答案选取模型 被引量:10
4
作者 张仰森 王胜 +2 位作者 魏文杰 彭媛媛 郑佳 《计算机学报》 EI CSCD 北大核心 2021年第3期491-507,共17页
自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多... 自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型.该方法首先利用双向LSTM模型分别对问题和候选答案进行语义表示;然后采用问题的关键信息,包括问题类型和问题中心词,利用注意力机制对候选答案集合进行信息增强,筛选Top K个候选答案;然后采用问题的语义信息,再次利用注意力机制对Top K个候选答案集合进行信息增强,筛选出最佳答案.通过分阶段地将问题的关键信息和语义信息与候选答案的语义表示相结合,有效提高了对候选答案关键信息的捕获能力,从而提升了答案选取系统的性能.在三个数据集上对本文所提出的模型进行验证,相较已知同类最好模型,最高性能提升达1.95%. 展开更多
关键词 答案选取 语义信息 关键信息 相似度计算 多阶段注意力机制
在线阅读 下载PDF
基于BERT的强化语境与语义信息的对话幽默识别模型 被引量:1
5
作者 徐洋 蒋玉茹 张禹尧 《中文信息学报》 CSCD 北大核心 2022年第4期73-80,共8页
幽默识别是自然语言处理的新兴研究领域之一。对话的特殊结构使得在对话中的幽默识别相较于短文本幽默识别更具有挑战性。在对话中,除了当前话语以外,上下文语境信息对于幽默的识别也至关重要。因此,该文在已有研究的基础上结合对话的... 幽默识别是自然语言处理的新兴研究领域之一。对话的特殊结构使得在对话中的幽默识别相较于短文本幽默识别更具有挑战性。在对话中,除了当前话语以外,上下文语境信息对于幽默的识别也至关重要。因此,该文在已有研究的基础上结合对话的结构特征,提出基于BERT的强化语境与语义信息的对话幽默识别模型。模型首先使用BERT对发言人信息和话语信息进行编码,其次分别使用句级别的BiLSTM、CNN和Attention机制强化语境信息,使用词级别的BiLSTM和Attention机制强化语义信息。实验结果表明,该文方法能有效提升机器识别对话中幽默的能力。 展开更多
关键词 幽默识别 对话结构 BERT
在线阅读 下载PDF
面向财务审计的数据异常侦测算法研究 被引量:2
6
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据集构建 改进注意力机制 残差网络
在线阅读 下载PDF
中文文本语义错误侦测方法研究 被引量:20
7
作者 张仰森 郑佳 《计算机学报》 EI CSCD 北大核心 2017年第4期911-924,共14页
中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层... 中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层语义搭配知识库的构建主要分为两步:(1)根据《现代汉语实词搭配词典》中的实词搭配框架构建词语搭配规则集,从训练语料中抽取词语搭配,并利用互信息和共现频次进行筛选,构建词语搭配知识库;(2)利用《HowNet》抽取词语的义原信息,生成词语-义原和义原-义原搭配知识库,并利用聚合度进行二次筛选.在三层语义搭配知识库的基础上,首先对知识库采用自顶向下的搜索模式确定可能错误的语义搭配,然后使用语义搭配的互信息量MI和聚合度PD作为证据,采用统计的方法建立证据信任分配函数,结合证据的冲突处理和加权分配D-S规则进行不确定性推理,获取词语的语义搭配关联强度,以判定是否存在语义错误.实验结果显示,该文所提出的查错模型和算法的F-Score值比其他文献中的最好值提高了14.02%. 展开更多
关键词 语义错误 知识库 D-S理论 语义搭配 错误侦测算法 自然语言处理 社会媒体
在线阅读 下载PDF
社交媒体话题检测与追踪技术研究综述 被引量:18
8
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30,共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
在线阅读 下载PDF
基于深度学习的实体关系联合抽取研究综述 被引量:21
9
作者 张仰森 刘帅康 +2 位作者 刘洋 任乐 辛永辉 《电子学报》 EI CAS CSCD 北大核心 2023年第4期1093-1116,共24页
实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构... 实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构化文本语句中识别实体边界和类型.然后,将该命名实体识别器识别的实体与类型作为关系抽取任务中所用数据的标注.最后,通过关系抽取器得到两个实体之间的关系类别,进而组合成为结构化的实体关系三元组.命名实体识别任务存在的误差会影响后续的关系抽取任务的性能,这使得流水线方法具有错误累积问题.这是因为关系抽取任务中使用的标注数据来自于前面的命名实体识别任务,这会有一定的误差,进而影响关系抽取的结果质量.此外,流水线方法减弱了两个子任务之间的特征关联,这会出现冗余实体的问题.命名实体识别任务和关系抽取任务独立进行学习训练,导致这两个子任务间缺乏交互,使得文本信息没有得到充分利用,限制了流水线方法的性能瓶颈.由于非结构化文本信息没有得到充分利用,流水线方法在抽取实体间长依赖关系时具有一定局限性,很难达到联合抽取模型的性能指标.实际应用中,实体间往往存在多种关系,流水线方法无法充分使用全局文本信息,且命名实体识别会产生冗余实体,在抽取多元重叠关系时,该方法具有一定的局限性.因此,在构建高准确率实体关系抽取模型时,流水线方法具有欠缺之处.本文对实体关系联合抽取的研究发展全景进行了综述,简要阐明整数线性规划、卡片金字塔解析模型、概率图模型和结构化预测模型这四类基于特征工程的联合模型的共同缺点.本文聚焦基于深度学习的实体关系联合抽取技术,根据近年来实体关系联合抽取前沿研究成果,总结了实体关系联合抽取模型的主流构建方法.按照建模思想的特点总结为三种建模方法:多模块-多步骤、多模块-单步骤以及单模块-单步骤.多模块-多步骤建模方法主要包含实体域映射关系域、关系域映射实体域和头实体域映射关系-尾实体域这三种类别.这三类模型的共同特点都是将三元组的提取过程分为多个模块,通过共享参数的方式整合各个模块,逐步迭代得到三元组.这种方法推动联合模型性能提升,初步解决了流水线方法存在的问题.但每个步骤使用独立的解码算法,导致解码误差累积问题.且共享参数整合各个模块的冗余误差会互相影响预测性能,从而产生级联冗余问题.多模块-单步骤建模方法旨在构建一个最优化的联合解码算法,并对其求取最优解进而得到最优超参数.这种方法设计了简单精确的联合解码算法,并加强了多个子模块间的交互性,减弱了因为逐步迭代导致的解码误差和级联冗余对联合模型性能的影响.然而,模块的分离依然会产生冗余错误,具有一定局限性.单模块-单步骤建模方法可以直接从文本语句中抽取三元组,有效缓解了多模块-多步骤和多模块-单步骤建模方法的级联错误和实体冗余等问题.本文以前沿文献中具有代表性的联合模型为例,详细分析了这些模型的建模思路,剖析了各个模型的优缺点,将多个具有共同建模思路的经典模型进行归类,以阐述实体关系联合抽取模型的发展趋势.本文将单模块-单步骤建模方法的代表模型在公开基准数据集上的模型性能与多模块-多步骤和多模块-单步骤的代表模型性能进行对比分析,阐明实体关系联合抽取模型的建模思路正在从基于多模块-多步骤和多模块-单步骤的复杂建模方法,逐渐向单模块-单步骤的高效建模方法转变的客观趋势.最后,本文对三个实体关系联合抽取的研究方向进行了展望.当下主流的联合模型聚焦于限定域的实体关系抽取任务,对于开放域问题研究得不够.开放域实体关系联合抽取任务是未来的研究人员亟待解决的问题之一.在实际工业应用中,文本语料包含多元信息,如时序信息.而当前的实体关系联合抽取模型大多依据单一文本上下文信息进行特征抽取,从而忽略了时序信息.若融入像时序信息这样的多元信息或能进一步提升联合模型性能,这是未来一项具有重大意义的课题.此外,对于跨文本的实体关系联合抽取模型研究较少,这也是该领域未来的一个研究趋势.本文旨在建立一个完整的基于深度学习的实体关系联合抽取领域研究视图,以对相关领域研究者有所帮助. 展开更多
关键词 信息抽取 知识图谱 深度学习 实体关系联合抽取 流水线方法
在线阅读 下载PDF
智能化立体仓库入库货位分配的综合优化算法 被引量:13
10
作者 张仰森 刘安宇 《计算机科学》 CSCD 北大核心 2010年第12期175-177,189,共4页
智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空... 智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空置时间等因素,根据整个仓库的当前状态计算入库货位,为入库货位的选择提供辅助决策。实际项目运行表明,所提的综合货位优化分配算法是有效的,对提高仓库的安全性、入库工作效率等具有非常重要的意义。 展开更多
关键词 立体仓库 货位分配算法 重量均匀分布 备件品种均匀分布 就近原则
在线阅读 下载PDF
面向政治新闻领域的中文文本校对方法研究 被引量:12
11
作者 张仰森 唐安杰 张泽伟 《中文信息学报》 CSCD 北大核心 2014年第6期79-84,128,共7页
政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差... 政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。 展开更多
关键词 政治新闻 文本校对 查错模型
在线阅读 下载PDF
基于深度学习的生物资产检测模型YOLOSC
12
作者 关昆仑 朱思文 +2 位作者 张仰森 成琪昊 张学凯 《科学技术与工程》 北大核心 2025年第2期674-682,共9页
为提高生物资产监盘审计过程中盘点准确性和盘点效率,提出了一种融入注意力机制和损失函数优化的生物资产检测模型YOLOSC。首先,将压缩-激励网络(squeeze-and-excitation networks,SENet)注意力机制引入YOLOv5s模型的主干网络中,以增强... 为提高生物资产监盘审计过程中盘点准确性和盘点效率,提出了一种融入注意力机制和损失函数优化的生物资产检测模型YOLOSC。首先,将压缩-激励网络(squeeze-and-excitation networks,SENet)注意力机制引入YOLOv5s模型的主干网络中,以增强对生物资产图片中关键特征的提取能力;其次,采用完全交并比(complete intersection over union,CIoU)作为检测框回归的损失函数,以提升训练过程中检测框的回归速度与定位精度;最后,构建了一个生物资产数据集对所提模型进行针对性训练,以提升模型检测效果。实验结果表明,相较于YOLOv5模型,YOLOSC的精确率、召回率、F_(1)和AP分别提升了2.3%、2.1%、2.7%和1.6%,证明了所提出的生物资产检测模型YOLOSC的有效性。 展开更多
关键词 目标检测模型 YOLOv5 注意力机制 损失函数 生物资产审计
在线阅读 下载PDF
面向知识推理的位置编码标题生成模型
13
作者 王雅伦 张仰森 朱思文 《计算机应用》 北大核心 2025年第2期345-353,共9页
义原作为最小的语义单位对于标题生成任务至关重要。尽管义原驱动的神经语言模型(SDLM)是主流模型之一,但它在处理长文本序列时编码能力有限,未充分考虑位置关系,易引入噪声知识进而影响生成标题的质量。针对上述问题,提出一种基于Trans... 义原作为最小的语义单位对于标题生成任务至关重要。尽管义原驱动的神经语言模型(SDLM)是主流模型之一,但它在处理长文本序列时编码能力有限,未充分考虑位置关系,易引入噪声知识进而影响生成标题的质量。针对上述问题,提出一种基于Transformer的生成式标题模型Tran-A-SDLM(Transformer Adaption based Sememe-Driven Language Model with positional embedding and knowledge reasoning)。该模型充分结合自适应位置编码和知识推理机制的优势。首先,引入Transformer模型以增强模型对文本序列的编码能力;其次,利用自适应位置编码机制增强模型的位置感知能力,从而增强对上下文义原知识的学习;此外,引入知识推理模块,用于表示义原知识,并指导模型生成准确标题;最后,为验证Tran-A-SDLM的优越性,在大规模中文短文本摘要(LCSTS)数据集上进行实验。实验结果表明,与RNN-context-SDLM相比,Tran-A-SDLM在ROUGE-1、ROUGE-2和ROUGE-L值上分别提升了0.2、0.7和0.5个百分点。消融实验结果进一步验证了所提模型的有效性。 展开更多
关键词 生成式标题 自适应位置编码 TRANSFORMER 知识推理 自然语言处理
在线阅读 下载PDF
基于增量预训练与对抗学习的古籍命名实体识别
14
作者 任乐 张仰森 +2 位作者 李剑龙 孙圆明 刘帅康 《计算机工程与设计》 北大核心 2025年第4期1190-1197,共8页
针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入... 针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER-IPAL)。基于自建的古籍文本数据集,使用NEZHA-TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA-GP提高了4.19%。 展开更多
关键词 二十四史 古籍命名实体识别 增量预训练 时序卷积神经网络 对抗学习 全局指针 子串提取
在线阅读 下载PDF
新闻专题阶段性摘要的生成研究
15
作者 尤建清 张仰森 《计算机应用研究》 CSCD 北大核心 2016年第4期973-978,996,共7页
新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首... 新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首先利用主题抽取技术对各新闻文档进行主题抽取,完成文档集到主题集的转换;然后借助话题检测与追踪技术对主题集进行基于时间流的双向聚类和正逆向结果交集的再聚类;最终根据话题聚类的结果选择对应文档的主题生成新闻专题的阶段性摘要。实验证明,该方法能够取得较好的Rouge召回率。 展开更多
关键词 新闻专题 话题检测与追踪 二次聚类 阶段性摘要
在线阅读 下载PDF
汉语零形回指消解研究综述
16
作者 蒋玉茹 张禹尧 +1 位作者 毛腾 张仰森 《中文信息学报》 CSCD 北大核心 2020年第3期1-12,共12页
关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相... 关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相关概念;接着介绍目前国际上汉语零形回指消解的公开评测资源OntoNotes 5.0数据集及评价指标;其次,系统梳理和对比了国内外汉语零形回指消解所采用的方法;最后,总结和分析了目前零形回指消解研究的主要制约因素,这些因素也正是未来可能的研究方向。 展开更多
关键词 零形回指消解 语言学规则 机器学习 深度学习
在线阅读 下载PDF
面向微博用户的个性化推荐算法研究 被引量:7
17
作者 周炜翔 张雯 +3 位作者 杨博 柳毅 张琳 张仰森 《计算机工程》 CAS CSCD 北大核心 2020年第10期60-66,73,共8页
微博的个性化推荐对于提升用户体验和帮助用户及时、准确地获取信息具有重要意义。在分析微博用户行为模式的基础上,提出一种基于情景建模和卷积神经网络的微博个性化推荐模型。从时间和地域两个维度对用户进行情景建模,提取用户的时间... 微博的个性化推荐对于提升用户体验和帮助用户及时、准确地获取信息具有重要意义。在分析微博用户行为模式的基础上,提出一种基于情景建模和卷积神经网络的微博个性化推荐模型。从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式,同时给出情景模式相似度计算方法,对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,在此基础上建立用户个性化情景模式库,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。实验结果表明,与ILCAUSR、RA-CD算法相比,该模型具有较好的推荐效果,相比于时间情景模型和地域情景模型,其平均绝对误差和平均用户满意度指标均达到最优效果。 展开更多
关键词 个性化推荐 情景建模 卷积神经网络 情景模式库 用户满意度
在线阅读 下载PDF
基于多特征融合的同名专家消歧方法研究 被引量:8
18
作者 曾健荣 张仰森 +3 位作者 王思远 黄改娟 崔佳 马欢 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第4期607-613,共7页
针对专家库构建过程中出现的同名歧义现象,提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息,抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息,并将其作为属性特征,构建特征表示模型... 针对专家库构建过程中出现的同名歧义现象,提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息,抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息,并将其作为属性特征,构建特征表示模型,进而定义同名专家之间的相似度计算函数。根据计算得到的相似度,将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类,解决同名消歧问题。在采集的专家论文数据上的实验表明,基于多特征融合的同名专家消歧方法的准确率可达92%,取得良好的消歧效果。 展开更多
关键词 多特征融合 同名消歧 专家库 聚类算法 数据采集
在线阅读 下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
19
作者 周炜翔 张仰森 张良 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ITextRank模型 话题抽取 话题表述
在线阅读 下载PDF
微博文本的句向量表示及相似度计算方法研究 被引量:22
20
作者 段旭磊 张仰森 孙祎卓 《计算机工程》 CAS CSCD 北大核心 2017年第5期143-148,共6页
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子... 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。 展开更多
关键词 微博文本 相似度计算 词向量 高维词库 句向量
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部