期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于行为信息的微博用户性格预测研究 被引量:5
1
作者 刘平 崔宗艺 +1 位作者 周炜翔 张仰森 《北京信息科技大学学报(自然科学版)》 2019年第3期32-38,共7页
在研究心理学中的'大五人格'模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用'大五人格量表'测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信... 在研究心理学中的'大五人格'模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用'大五人格量表'测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信息与用户性格之间的关系进行分析,从中提取5个相关度最强的特征维度,并基于线性回归的方法构建了用户性格预测模型。实验结果表明,构建的性格预测模型正确率达到了78. 5%。 展开更多
关键词 性格预测 线性回归 用户行为信息 大五人格
在线阅读 下载PDF
基于股民评论信息的股票预测方法研究 被引量:1
2
作者 张凯 任维平 +1 位作者 张仰森 尤建清 《北京信息科技大学学报(自然科学版)》 2017年第5期67-71,共5页
通过对股民评论信息进行分析实现股票价格预测。构建了一个股民评论信息语料库,利用深度学习方法双向长短期记忆网络(双向LSTM)模型对股民评论信息的情感进行分类,提出了股民评论信息的情感影响力计算方法;通过对9种不同时间窗口的数据... 通过对股民评论信息进行分析实现股票价格预测。构建了一个股民评论信息语料库,利用深度学习方法双向长短期记忆网络(双向LSTM)模型对股民评论信息的情感进行分类,提出了股民评论信息的情感影响力计算方法;通过对9种不同时间窗口的数据进行分析,并根据3种不同计算方法的结果进行股票价格走势预测。实验结果表明预测趋势与股票的实际走势拟合较高,能够为投资者在投资决策中提供帮助。 展开更多
关键词 股民评论 股民情感倾向 双向LSTM 情感影响力
在线阅读 下载PDF
基于层次分析的微博用户信息可信度模型 被引量:2
3
作者 张涛 张仰森 刘清松 《北京信息科技大学学报(自然科学版)》 2015年第4期61-65,共5页
对于网络微博用户可信任性的问题,通过对爬取的所有源语料进行有目的的预处理,得到具有规范格式的用户数据,并从用户信息数据中,选择性的提取用户信息的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析... 对于网络微博用户可信任性的问题,通过对爬取的所有源语料进行有目的的预处理,得到具有规范格式的用户数据,并从用户信息数据中,选择性的提取用户信息的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析法(AHP)结构模型,实现了对指标的权重系数数值确定,进而计算与统计用户的权威性。最终完成对用户可信度模型的构建。实验表明,该模型对微博用户的可信度评测方面有较好的准确性。 展开更多
关键词 权威性 微博 层次分析法
在线阅读 下载PDF
《现代汉语语法信息词典》的概率化改造及其应用
4
作者 吴林 张仰森 王璐 《北京信息科技大学学报(自然科学版)》 2011年第6期57-61,共5页
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错... 针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。 展开更多
关键词 语法信息词典 概率化 查错 纠错
在线阅读 下载PDF
基于深度学习的实体关系联合抽取研究综述 被引量:16
5
作者 张仰森 刘帅康 +2 位作者 刘洋 任乐 辛永辉 《电子学报》 EI CAS CSCD 北大核心 2023年第4期1093-1116,共24页
实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构... 实体关系抽取是信息抽取领域的核心任务.从文本中抽取的实体关系三元组是构建大规模知识图谱的基础.传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务.首先,构建一个高效的命名实体识别器,从大规模非结构化文本语句中识别实体边界和类型.然后,将该命名实体识别器识别的实体与类型作为关系抽取任务中所用数据的标注.最后,通过关系抽取器得到两个实体之间的关系类别,进而组合成为结构化的实体关系三元组.命名实体识别任务存在的误差会影响后续的关系抽取任务的性能,这使得流水线方法具有错误累积问题.这是因为关系抽取任务中使用的标注数据来自于前面的命名实体识别任务,这会有一定的误差,进而影响关系抽取的结果质量.此外,流水线方法减弱了两个子任务之间的特征关联,这会出现冗余实体的问题.命名实体识别任务和关系抽取任务独立进行学习训练,导致这两个子任务间缺乏交互,使得文本信息没有得到充分利用,限制了流水线方法的性能瓶颈.由于非结构化文本信息没有得到充分利用,流水线方法在抽取实体间长依赖关系时具有一定局限性,很难达到联合抽取模型的性能指标.实际应用中,实体间往往存在多种关系,流水线方法无法充分使用全局文本信息,且命名实体识别会产生冗余实体,在抽取多元重叠关系时,该方法具有一定的局限性.因此,在构建高准确率实体关系抽取模型时,流水线方法具有欠缺之处.本文对实体关系联合抽取的研究发展全景进行了综述,简要阐明整数线性规划、卡片金字塔解析模型、概率图模型和结构化预测模型这四类基于特征工程的联合模型的共同缺点.本文聚焦基于深度学习的实体关系联合抽取技术,根据近年来实体关系联合抽取前沿研究成果,总结了实体关系联合抽取模型的主流构建方法.按照建模思想的特点总结为三种建模方法:多模块-多步骤、多模块-单步骤以及单模块-单步骤.多模块-多步骤建模方法主要包含实体域映射关系域、关系域映射实体域和头实体域映射关系-尾实体域这三种类别.这三类模型的共同特点都是将三元组的提取过程分为多个模块,通过共享参数的方式整合各个模块,逐步迭代得到三元组.这种方法推动联合模型性能提升,初步解决了流水线方法存在的问题.但每个步骤使用独立的解码算法,导致解码误差累积问题.且共享参数整合各个模块的冗余误差会互相影响预测性能,从而产生级联冗余问题.多模块-单步骤建模方法旨在构建一个最优化的联合解码算法,并对其求取最优解进而得到最优超参数.这种方法设计了简单精确的联合解码算法,并加强了多个子模块间的交互性,减弱了因为逐步迭代导致的解码误差和级联冗余对联合模型性能的影响.然而,模块的分离依然会产生冗余错误,具有一定局限性.单模块-单步骤建模方法可以直接从文本语句中抽取三元组,有效缓解了多模块-多步骤和多模块-单步骤建模方法的级联错误和实体冗余等问题.本文以前沿文献中具有代表性的联合模型为例,详细分析了这些模型的建模思路,剖析了各个模型的优缺点,将多个具有共同建模思路的经典模型进行归类,以阐述实体关系联合抽取模型的发展趋势.本文将单模块-单步骤建模方法的代表模型在公开基准数据集上的模型性能与多模块-多步骤和多模块-单步骤的代表模型性能进行对比分析,阐明实体关系联合抽取模型的建模思路正在从基于多模块-多步骤和多模块-单步骤的复杂建模方法,逐渐向单模块-单步骤的高效建模方法转变的客观趋势.最后,本文对三个实体关系联合抽取的研究方向进行了展望.当下主流的联合模型聚焦于限定域的实体关系抽取任务,对于开放域问题研究得不够.开放域实体关系联合抽取任务是未来的研究人员亟待解决的问题之一.在实际工业应用中,文本语料包含多元信息,如时序信息.而当前的实体关系联合抽取模型大多依据单一文本上下文信息进行特征抽取,从而忽略了时序信息.若融入像时序信息这样的多元信息或能进一步提升联合模型性能,这是未来一项具有重大意义的课题.此外,对于跨文本的实体关系联合抽取模型研究较少,这也是该领域未来的一个研究趋势.本文旨在建立一个完整的基于深度学习的实体关系联合抽取领域研究视图,以对相关领域研究者有所帮助. 展开更多
关键词 信息抽取 知识图谱 深度学习 实体关系联合抽取 流水线方法
在线阅读 下载PDF
基于语义分析的不良倾向文本的识别算法研究 被引量:2
6
作者 刘梅彦 张仰森 张涛 《北京信息科技大学学报(自然科学版)》 2014年第4期16-20,共5页
分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此... 分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此算法能够较好地提高不良文本识别效率和准确率。 展开更多
关键词 不良倾向文本 语义分析 依存句法分析
在线阅读 下载PDF
智能化仓储中箱式缓存区调度算法的设计与应用 被引量:1
7
作者 段旭磊 张仰森 张涛 《现代电子技术》 北大核心 2017年第16期86-89,93,共5页
在传统的智能化立体仓库中,成品将被直接存储,这种模式对于多品种、多批次的产品生产方式而言,极大地浪费了设备资源,增加了整个调度系统的成本和难度。提出箱式缓存道的概念,将不同成品在缓存区进行积存,当达到一定数量时,将成品统一... 在传统的智能化立体仓库中,成品将被直接存储,这种模式对于多品种、多批次的产品生产方式而言,极大地浪费了设备资源,增加了整个调度系统的成本和难度。提出箱式缓存道的概念,将不同成品在缓存区进行积存,当达到一定数量时,将成品统一存储处理。以国药集团致君(深圳)坪山药业智能化立体仓库系统为研究对象,其中的箱式缓存区调度算法将主要研究智能调度系统中成品合理的分道缓存积放和释放码垛,及在节省缓存道占用的前提下合理分配缓存道的问题。箱式缓存道的应用,解决了产品分品种、分批次统一存放的问题,能够对不同品种、不同规格、不同批次的成品进行准确地分道缓存,提高了生产和存储效率。 展开更多
关键词 智能化立体仓库 智能调度 箱式缓存道 生产方式
在线阅读 下载PDF
基于科技文献库的领域专家群发现及其推荐方法 被引量:1
8
作者 段旭磊 张仰森 李超逸 《北京信息科技大学学报(自然科学版)》 2016年第6期23-27,共5页
为了满足企业对包括专家查找、专家发现、团队挖掘、专业技术决策支持及专家研究成果发现等信息服务的巨大需求,采用数据挖掘、中文信息处理等技术,通过对科技文献库中专家数据的挖掘、分析、建模,构建了领域专家群发现模型,并采用拓扑... 为了满足企业对包括专家查找、专家发现、团队挖掘、专业技术决策支持及专家研究成果发现等信息服务的巨大需求,采用数据挖掘、中文信息处理等技术,通过对科技文献库中专家数据的挖掘、分析、建模,构建了领域专家群发现模型,并采用拓扑关系图展示专家群中各专家所涉及领域的详细研究内容以及各专家之间的交叉研究关系。为用户在海量信息中快速、准确找到需求专家及专家研究成果提供帮助。 展开更多
关键词 信息服务 科技文献 数据挖掘 中文信息处理 专家群 拓扑关系
在线阅读 下载PDF
军事知识图谱的构建和检索方法研究 被引量:2
9
作者 侯振瑜 张仰森 +2 位作者 苏振江 谢少辉 胡昌秀 《北京信息科技大学学报(自然科学版)》 2022年第3期82-87,共6页
针对军事信息系统中的信息过载现象,为了提高军事领域信息利用效率,提出了一种基于军事知识图谱的语义检索方法。首先,针对军事文本的特点,在基于转换器的双向编码器表示—条件随机场(bidirectional encoder representation from transf... 针对军事信息系统中的信息过载现象,为了提高军事领域信息利用效率,提出了一种基于军事知识图谱的语义检索方法。首先,针对军事文本的特点,在基于转换器的双向编码器表示—条件随机场(bidirectional encoder representation from transformers-conditional random field, BERT-CRF)模型基础上添加了校对处理层,提升了军事实体的识别效率,构建了更全面的面向军事领域的知识图谱;然后,使用多相似度融合的语义计算方法对其进行语义分析;最后对检索结果进行相关性排序。实验结果表明该方法的查全率和查准率分别达到了85.68%和85.74%,能够满足军事领域下的信息检索要求。 展开更多
关键词 军事知识图谱 命名实体识别 语义检索 多相似度融合
在线阅读 下载PDF
因果关系抽取研究综述 被引量:1
10
作者 冉紫涵 张仰森 +2 位作者 向尕 祁浩家 刁艳茹 《北京信息科技大学学报(自然科学版)》 2023年第3期89-100,共12页
因果关系抽取是自然语言处理技术的一个重要研究分支。以时间为轴线,概述了各阶段的特点。因图神经网络能更好应对复杂因果关系,重点总结了基于图神经网络因果关系抽取的模型,从依赖路径、语义结构、时序等方面分析了现有研究中图结构... 因果关系抽取是自然语言处理技术的一个重要研究分支。以时间为轴线,概述了各阶段的特点。因图神经网络能更好应对复杂因果关系,重点总结了基于图神经网络因果关系抽取的模型,从依赖路径、语义结构、时序等方面分析了现有研究中图结构的构建方式,并对各模型进行了归纳与比较。最后展望了因果关系抽取领域的发展趋势。 展开更多
关键词 因果关系 关系抽取 图神经网络 实体抽取 事件抽取
在线阅读 下载PDF
基于多特征融合的微博用户权威度定量评价方法 被引量:17
11
作者 张仰森 郑佳 唐安杰 《电子学报》 EI CAS CSCD 北大核心 2017年第11期2800-2809,共10页
微博用户权威度是评价微博信息可靠性的重要因素之一.本文针对微博用户权威度的定量计算提出了一种基于多特征融合的微博用户权威度定量评价模型.首先,提出了用户权威度的概念,将其定义为用户影响力和被信服度两部分组成;在暂不考虑用... 微博用户权威度是评价微博信息可靠性的重要因素之一.本文针对微博用户权威度的定量计算提出了一种基于多特征融合的微博用户权威度定量评价模型.首先,提出了用户权威度的概念,将其定义为用户影响力和被信服度两部分组成;在暂不考虑用户领域影响因子的情况下,基于新浪微博数据,抽取出微博用户信息传播影响力、用户信息完整度、用户活跃度以及用户平台认证指数4项评价特征,以构建了用户权威度定量计算模型;然后,采用层次分析法对所构建模型的4项评价特征的权值进行确定,并分别给出了4项评价特征的提取算法.同时,在用户关注关系网络的基础上,提出了一种基于用户被关注价值的用户信息传播影响力模型UIRank,并通过实验验证了其比PageRank算法更加有效.实验结果表明,本文提出的微博用户权威度定量计算模型比较合理,为用户权威度的定量评价提供了一种可行的解决方案. 展开更多
关键词 微博 用户权威度 用户影响力 UIRank 层次分析法
在线阅读 下载PDF
基于多种词特征的微博突发事件检测方法 被引量:5
12
作者 张仰森 段宇翔 +1 位作者 王建 吴云芳 《电子学报》 EI CAS CSCD 北大核心 2019年第9期1919-1928,共10页
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件... 近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性. 展开更多
关键词 微博 突发事件 突发特征词 D-S证据理论 凝聚式层次聚类
在线阅读 下载PDF
微博用户关系网络中意见领袖的分析与挖掘 被引量:4
13
作者 张仰森 蒋玉茹 +1 位作者 陈若愚 彭啟文 《北京信息科技大学学报(自然科学版)》 2015年第4期7-14,共8页
在微博世界中,微博意见领袖对微博中舆论的导向发挥着重要的作用,因此,研究微博意见领袖的分析与挖掘方法十分必要。探讨了微博用户网络中意见领袖的分析与挖掘方法,构建了微博意见领袖的特征指标体系,采用层次分析法(Analytic Hierarch... 在微博世界中,微博意见领袖对微博中舆论的导向发挥着重要的作用,因此,研究微博意见领袖的分析与挖掘方法十分必要。探讨了微博用户网络中意见领袖的分析与挖掘方法,构建了微博意见领袖的特征指标体系,采用层次分析法(Analytic Hierarchy Process,APH)给出了各特征指标的权重计算方法,从而提出了用户初始影响力的计算模型。在此基础上,借鉴PageRank算法思想,提出了用户初始影响力扩散的计算模型,实现了微博用户影响力的定量化度量,为意见领袖的分析确定提供了充分的依据。实验数据表明,所提出的微博意见领袖的分析与挖掘方法是非常有效的。 展开更多
关键词 微博用户关系网络 意见领袖 初始影响力 影响力扩散计算模型
在线阅读 下载PDF
一种基于情感计算与层次化多头注意力机制的负面新闻识别方法 被引量:3
14
作者 张仰森 周炜翔 +1 位作者 张禹尧 吴云芳 《电子学报》 EI CAS CSCD 北大核心 2020年第9期1720-1728,共9页
网络负面新闻识别在网络舆情监测中具有重要的研究意义.针对当前海量数据下负面新闻难以检测的问题,提出了一种基于情感计算与层次化多头注意力机制相结合的负面新闻识别方法.首先,从新闻文本中采用TF-IDF(Term Frequeney-Inverse Docum... 网络负面新闻识别在网络舆情监测中具有重要的研究意义.针对当前海量数据下负面新闻难以检测的问题,提出了一种基于情感计算与层次化多头注意力机制相结合的负面新闻识别方法.首先,从新闻文本中采用TF-IDF(Term Frequeney-Inverse Document Frquency)和语义相似度算法构建负面新闻情感词库;其次,采用情感倾向计算方法计算负面新闻情感词的情感倾向度;最后,将词语和词语的情感倾向度进行向量化表示,并采用层次化多头注意力机制进行正负面新闻的判定.情感计算和多头注意力机制的引入,对于捕获文本中的情感词语提供了很大帮助.最终本文基于真实的网络新闻文本数据与现有的多种算法进行对比,证明了该模型具有较好的识别效果,相比于Han模型和LSTM模型分别提高了0.67%和3.29%. 展开更多
关键词 语义相似度 情感计算 多头注意力模型 情感倾向
在线阅读 下载PDF
基于关系数据库的复合型BOM的设计与实现 被引量:2
15
作者 黄改娟 张仰森 刘武雷 《北京信息科技大学学报(自然科学版)》 2012年第6期66-71,共6页
物料清单(BOM)作为ERP(enterprise resource planning)系统的重要的基础数据,其存储模型的好坏直接影响到分解效率。分析了在关系型数据库中BOM存储的2种基本的存储模型并设计实现了一种复合型BOM存储结构。在此基础上,给出了常用的正... 物料清单(BOM)作为ERP(enterprise resource planning)系统的重要的基础数据,其存储模型的好坏直接影响到分解效率。分析了在关系型数据库中BOM存储的2种基本的存储模型并设计实现了一种复合型BOM存储结构。在此基础上,给出了常用的正查与反查算法以及订单分解算法。实践证明该存储结构和算法能很好地满足实际应用。 展开更多
关键词 物料清单 正查 反查 订单分解
在线阅读 下载PDF
基于SKCC与统计相结合的词语相似度计算方法 被引量:1
16
作者 张仰森 钟鼎 《北京信息科技大学学报(自然科学版)》 2012年第6期8-12,共5页
介绍了一种全新的基于《现代汉语语义词典》(SKCC)的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。
关键词 自然语言处理 现代汉语语义词典 相似度
在线阅读 下载PDF
基于LSTM-CNNS情感增强模型的微博情感分类方法 被引量:8
17
作者 段宇翔 张仰森 +1 位作者 张益兴 段瑞雪 《北京信息科技大学学报(自然科学版)》 2019年第6期1-7,共7页
情感分析是文本分析中一个重要的研究领域,基于新浪微博进行情感极性的分析研究,结合词向量模型、长短期记忆网络(long short-term memory,LSTM)以及注意力机制,搭建了一个适用于中文微博情感分析的模型。同一任务下,基于长短期记忆网... 情感分析是文本分析中一个重要的研究领域,基于新浪微博进行情感极性的分析研究,结合词向量模型、长短期记忆网络(long short-term memory,LSTM)以及注意力机制,搭建了一个适用于中文微博情感分析的模型。同一任务下,基于长短期记忆网络和卷积神经网络(convolutional neural network,CNN)模型,使用情感词库对文本的情感进行加强,搭建了CNN情感增强模型和情感增强型的LSTM-CNNS情感分析模型。使用NLPCC 2013和NLPCC 2014的测评任务标准数据集进行实验。上述两种方法在测试集上的准确率分别为88.02%和93.03%,结果表明LSTM-CNNS情感增强模型在情感分类任务中表现更为突出。 展开更多
关键词 情感分类 长短期记忆网络 注意力机制 卷积神经网络
在线阅读 下载PDF
基于多特征融合的句子相似度计算方法 被引量:3
18
作者 黄姝婧 张仰森 《北京信息科技大学学报(自然科学版)》 2017年第5期45-49,55,共6页
针对现有方法中没有考虑反义、否定信息而无法全面衡量句子相似度的问题,提出了一种基于多特征融合的句子相似度计算方法。在传统的基于语义特征的相似度计算方法中引入了反义信息和否定信息,有效解决了传统方法不能确定句子是否表达相... 针对现有方法中没有考虑反义、否定信息而无法全面衡量句子相似度的问题,提出了一种基于多特征融合的句子相似度计算方法。在传统的基于语义特征的相似度计算方法中引入了反义信息和否定信息,有效解决了传统方法不能确定句子是否表达相反语义的问题,并将包含反义信息和否定信息的语义特征与词频、句长、词序等表面信息特征相结合,采用层次分析法构建了多特征融合的句子相似度计算方法。设计了两组实验,验证了多特征融合的句子相似度计算方法的可行性及有效性。 展开更多
关键词 句子相似度 表面特征 语义特征 层次分析法
在线阅读 下载PDF
基于概念的Web文本分类方法及实现
19
作者 郑瑞娟 张仰森 《北京信息科技大学学报(自然科学版)》 2013年第2期77-81,共5页
通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文... 通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。 展开更多
关键词 WEB文本分类 概念特征 概念词典 模糊距离匹配算法
在线阅读 下载PDF
中文多方对话篇章结构语料库构建及分析模型
20
作者 何威恺 蒋玉茹 +2 位作者 陈杰 李宇 张仰森 《北京信息科技大学学报(自然科学版)》 2023年第5期10-18,共9页
针对面向篇章结构分析的对话文本语料库缺乏的问题,构建了第一个中文的日常生活场景下多方对话篇章结构语料库。同时,提出了一种基于图神经网络的篇章结构分析模型,针对日常生活场景下多方对话的特点,使用图注意力网络进行图网络设计和... 针对面向篇章结构分析的对话文本语料库缺乏的问题,构建了第一个中文的日常生活场景下多方对话篇章结构语料库。同时,提出了一种基于图神经网络的篇章结构分析模型,针对日常生活场景下多方对话的特点,使用图注意力网络进行图网络设计和基本篇章单元编码;并且模型融入了角色识别特征及少量手工特征,使得篇章结构分析性能进一步提升。该模型在所构建的语料库上的实验结果与基线模型相比,篇章结构分析中的链接识别和关系识别两个任务的F1值分别提升了7.8和3.6百分点。 展开更多
关键词 多方对话 篇章结构分析 图神经网络 角色识别
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部