期刊文献+
共找到201篇文章
< 1 2 11 >
每页显示 20 50 100
股票增发与年报文本信息策略性披露——基于MD&A文本相似度视角的研究
1
作者 朱杰 王雄元 《财贸研究》 北大核心 2025年第5期92-110,共19页
中国资本市场大体量的股票增发事件是否会加剧上市公司会计信息策略性披露行为进而影响资本市场资源配置效率,是备受关注的重要问题。基于2007—2017年中国A股上市公司年报管理层讨论与分析(MD&A)文本信息,以文本相似度为切入点,采... 中国资本市场大体量的股票增发事件是否会加剧上市公司会计信息策略性披露行为进而影响资本市场资源配置效率,是备受关注的重要问题。基于2007—2017年中国A股上市公司年报管理层讨论与分析(MD&A)文本信息,以文本相似度为切入点,采用多时点双重差分方法,研究上市公司股票增发进程中的年报文本信息策略性披露行为及其经济后果。结果发现:(1)出于策略性动机,上市公司会在股票增发前一年和当年增加非特质性风险信息披露,并减少特质性信息披露,进而导致年报MD&A文本相似度显著降低。(2)盈余管理程度越高的上市公司,股票增发前一年和当年年报MD&A文本相似度的降低越显著。(3)降低年报MD&A文本相似度与增加盈余管理相联动的策略性会计信息披露行为显著提高了股票增发成功率,但也提高了股票增发折价率,增加了企业权益融资成本。研究结论为监管部门强化上市公司会计信息监督提供了重要的理论依据和政策启示。 展开更多
关键词 股票增发 年报文本信息 策略性披露 MD&A 文本相似
在线阅读 下载PDF
基于交替语言数据重构方法的跨语言文本相似度模型
2
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似 多语言预训练模型 大模型微调
在线阅读 下载PDF
结合依存图卷积的中文文本相似度计算研究 被引量:1
3
作者 胡书林 张华军 +1 位作者 邓小涛 王征华 《计算机工程》 北大核心 2025年第3期76-85,共10页
目前中文文本相似度计算能够通过词嵌入技术在语义层面判别文本相似度,但通常忽略了文本中蕴含的丰富的句法结构信息,而以词为单位的中文句法分析与动态词嵌入模型中以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能... 目前中文文本相似度计算能够通过词嵌入技术在语义层面判别文本相似度,但通常忽略了文本中蕴含的丰富的句法结构信息,而以词为单位的中文句法分析与动态词嵌入模型中以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能使用静态词嵌入来表征词的语义向量。针对此问题,根据依存句法分析构建依存图,通过分词掩码映射与注意力混合池化的方法实现动态词嵌入表征词节点的语义特征,然后使用图卷积网络提取依存图中词节点之间的依存关系信息,最终读出依存图,将其作为句子的特征向量,从语义与句法2个层面计算句子间的相似度。在表示型与交互型2种结构模型上应用所提方法,并在BQ_Corpus与ATEC数据集上进行实验,结果显示,该模型的准确率最高分别达到87.12%与88.33%,结合依存句法信息后模型的各项评估指标均有提升。 展开更多
关键词 图卷积神经网络 依存句法分析 动态词嵌入 文本相似 注意力机制
在线阅读 下载PDF
基于数据分析的新型电力系统电力智能交互平台的短文本相似性研究与应用
4
作者 荆江平 智明 +2 位作者 杨飞 崔志伟 程鹏 《电测与仪表》 北大核心 2025年第10期133-138,共6页
文本相似性度量是电力智能交互平台上的一项基础技术。针对电力智能交互平台中长度较短,且通常不符合严格语法规则的短文本,提出一种新的文本结构相似性度量。新的度量不注重词性标注(part-of-speech,PoS)等在短文本上缺乏代表性的特征... 文本相似性度量是电力智能交互平台上的一项基础技术。针对电力智能交互平台中长度较短,且通常不符合严格语法规则的短文本,提出一种新的文本结构相似性度量。新的度量不注重词性标注(part-of-speech,PoS)等在短文本上缺乏代表性的特征,主要强调文本的结构信息,将短文本视为词-短语-句子的三级结构,基于子结构在上层结构中的相对位置、重排代价和生成熵,从短语和句子两个级别的结构信息为短文本设计了新的特征,并结合词级别上的词向量等特征度量文本相似性。在真实语料上的实验结果验证了新的相似性度量的有效性和优势。 展开更多
关键词 智能交互 文本相似 语义分析 自然语言处理
在线阅读 下载PDF
基于改进蒸馏学习的医学文本相似度计算
5
作者 关慧 赵凌波 杨伟琛 《计算机工程与设计》 北大核心 2025年第9期2473-2479,共7页
针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行... 针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行扩充后,输出的文本在蒸馏模型中通过特征向量中心核对齐方式进行特征间高维相似性度量。增强后的医学数据集在两种医学领域基线模型上的皮尔逊系数较未增强前分别提升了2.9%和1.7%。改进后的蒸馏模型在增强后的医学数据集皮尔逊值为81.1%,达到12层教师模型的95%,参数减少了近7倍。 展开更多
关键词 自然语言处理 相似度计算 医学文本相似 数据增强 蒸馏学习 动态蒸馏 中心核对齐
在线阅读 下载PDF
MD&A文本相似度如何影响资产误定价?
6
作者 黎昌贵 刘霄雯 侯治平 《财会通讯》 北大核心 2025年第19期38-43,共6页
本文以中国A股上市公司为研究样本,借助自然语言处理技术对公司年报中“管理层讨论与分析”(MD&A)文本与同行业其他公司的相似度进行量化,分析MD&A文本相似度对资产误定价的影响。研究发现:MD&A文本相似度与资产误定价呈正... 本文以中国A股上市公司为研究样本,借助自然语言处理技术对公司年报中“管理层讨论与分析”(MD&A)文本与同行业其他公司的相似度进行量化,分析MD&A文本相似度对资产误定价的影响。研究发现:MD&A文本相似度与资产误定价呈正相关,信息不对称在MD&A文本相似度对资产误定价的影响中发挥了部分中介作用。进一步研究证明,对于机构投资者持股比例低、公司治理水平差的上市公司,MD&A文本相似度对资产误定价的影响更为显著。 展开更多
关键词 管理层讨论与分析 文本分析 文本相似 资产误定价
在线阅读 下载PDF
文本相似度计算方法综述 被引量:14
7
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似 字符串 词向量 预训练模型 深度学习
在线阅读 下载PDF
基于RBBLA混合模型的文本相似度计算方法 被引量:1
8
作者 任喜伟 杜丰怡 +2 位作者 向启怀 李兆允 赵杉 《陕西科技大学学报》 北大核心 2024年第4期184-190,198,共8页
文本相似度计算是两个或多个文本之间相似程度的度量,它被广泛用于多个场景.针对现有研究存在的缺乏上下文交互特征捕获、语义结构信息表示不足等问题,提出一种基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度计算方法,该模... 文本相似度计算是两个或多个文本之间相似程度的度量,它被广泛用于多个场景.针对现有研究存在的缺乏上下文交互特征捕获、语义结构信息表示不足等问题,提出一种基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度计算方法,该模型基于RoBERTa模型预训练,获得词语的向量化表示,并提取句子中的语义特征;接着使用双向长短期记忆网络及注意力机制提取上下文依赖关系;最后将两句子的文本特征经聚合操作后由Softmax函数处理得到相似度评分结果.将RBBLA模型与RoBERTa等基准模型在LCQMC数据集上进行对比实验,结果表明,与最优模型相比,RBBLA模型在准确率、精确率等指标上分别提升了2.9、2.1个百分点. 展开更多
关键词 文本相似 RoBERTa 双向长短期记忆网络(BiLSTM) 注意力机制
在线阅读 下载PDF
MD&A文本相似性会影响审计风格吗?
9
作者 阳震青 占焱芳 《南京审计大学学报》 CSSCI 北大核心 2024年第5期26-36,共11页
“管理层讨论与分析”(MD&A)信息披露通常会受到管理层的影响,并带来相应的披露后果。以2014—2021年上市公司为研究样本,以审计师向客户发表非标准审计意见的准确度来衡量审计风格,实证检验MD&A文本相似性对审计风格的影响。... “管理层讨论与分析”(MD&A)信息披露通常会受到管理层的影响,并带来相应的披露后果。以2014—2021年上市公司为研究样本,以审计师向客户发表非标准审计意见的准确度来衡量审计风格,实证检验MD&A文本相似性对审计风格的影响。研究发现:MD&A文本相似性越高,审计风格越激进;分析师跟踪、信息披露质量和媒体关注度削弱了MD&A文本相似性与审计风格之间的正相关关系。影响机制研究发现:MD&A文本相似性越高,审计师投入的审计资源会越少,要求的收费水平就会降低,使得审计风格更加激进。异质性分析发现:MD&A文本语调更为积极的一组,MD&A文本相似性与审计风格之间的关系不显著,语调消极的一组二者之间仍存在显著的正相关关系,而MD&A文本可读性程度的高低不影响MD&A文本相似性和审计风格之间的关系。上述研究结论对监管机构落实审计师责任、审计师作出审计判断和投资者进行投资决策等具有一定的参考意义。 展开更多
关键词 MD&A 文本相似 审计风格 审计意见 审计费用 分析师跟踪 信息披露 媒体关注度
在线阅读 下载PDF
信息环境、上市公司增量信息披露与资本市场定价效率——基于MD&A文本相似度的研究 被引量:15
10
作者 宋昕倍 陈莹 +1 位作者 逯东 程杰 《南开管理评论》 CSSCI 北大核心 2024年第5期30-39,共10页
本文基于2007—2020年中国沪深两市A股上市公司的样本,采用文本分析方法,以当期年报中管理层讨论与分析(MD&A)文本与上一期MD&A文本的相似度衡量上市公司增量信息披露水平,深入考察了上市公司增量信息披露与资本市场定价效率的... 本文基于2007—2020年中国沪深两市A股上市公司的样本,采用文本分析方法,以当期年报中管理层讨论与分析(MD&A)文本与上一期MD&A文本的相似度衡量上市公司增量信息披露水平,深入考察了上市公司增量信息披露与资本市场定价效率的关系。研究发现,公司披露的MD&A文本相似度越高,即增量信息披露越少,公司的股价同步性越高,股价崩盘风险也越大。进一步研究发现,当公司披露的MD&A可读性较低、新媒体运用较少、审计质量较低、媒体报道较少,即内外部信息环境较差时,MD&A文本相似度提高公司股价同步性与股价崩盘风险的作用加剧。本文的研究对如何提高上市公司信息披露水平,改善信息环境,进而促进资本市场的良好运行提供了新的经验证据。 展开更多
关键词 信息环境 文本相似 股价同步性 股价崩盘风险
在线阅读 下载PDF
MD&A纵向文本相似度与分析师盈余预测准确性 被引量:5
11
作者 刘一寒 范慧敏 任晨煜 《北京工商大学学报(社会科学版)》 CSSCI 北大核心 2024年第2期71-84,共14页
注册制下,信息的真实、准确、完整是投资者合理判断证券价值的关键,分析师在信息作用于股价这一过程中扮演着重要的信息中介角色,而年报所披露的信息对分析师盈余预测至关重要。以2012—2021年沪深A股上市公司为样本,探究了管理层讨论... 注册制下,信息的真实、准确、完整是投资者合理判断证券价值的关键,分析师在信息作用于股价这一过程中扮演着重要的信息中介角色,而年报所披露的信息对分析师盈余预测至关重要。以2012—2021年沪深A股上市公司为样本,探究了管理层讨论与分析(MD&A)纵向文本相似度对分析师盈余预测准确性的影响。研究发现,MD&A纵向文本相似度越高,分析师盈余预测准确性越低,证实了“增量信息”假说。异质性分析表明,这种影响显著存在于规模小、高科技行业、媒体关注度低的公司中,并且公司位于市场化程度低省份时受此影响更大。进一步研究发现,MD&A纵向文本相似度越高,分析师盈余预测的正向偏差越大。此外,分析师盈余预测准确性的下降会进一步降低资本市场的信息效率。因此,上市公司应重视文本信息披露,避免披露内容样板化;分析师和监管部门应加强对上市公司文本信息披露的监督,优化资本市场信息环境。 展开更多
关键词 管理层讨论与分析 纵向文本相似 分析师盈余预测 增量信息 资本市场信息效率
在线阅读 下载PDF
深度学习中文本相似度计算研究综述 被引量:5
12
作者 徐传丽 周世杰 吴春江 《计算机应用与软件》 北大核心 2024年第11期1-14,共14页
文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任... 文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任务,因此针对每一模块,梳理文本相似度计算相关技术与理论基础,总结其在短文本中的具体应用及改进;整理文本相似度计算领域的常用数据集及评价指标;讨论文本相似度计算未来可能的发展方向。 展开更多
关键词 文本表示 文本相似 文本 自然语言处理 神经网络
在线阅读 下载PDF
新审计报告特质信息披露的决策有用性研究--基于文本相似度视角
13
作者 宋婕 邳宇晨 赵慧 《中央财经大学学报》 CSSCI 北大核心 2024年第6期89-101,共13页
如何提升审计报告沟通价值对增强我国资本市场效率至关重要。本文基于关键审计事项(CAM)披露的文本相似度视角,考察新审计报告中蕴含的特质信息披露是否具有决策有用性。以2017—2020年A股上市公司为样本,研究发现:与同期同行业其他公司... 如何提升审计报告沟通价值对增强我国资本市场效率至关重要。本文基于关键审计事项(CAM)披露的文本相似度视角,考察新审计报告中蕴含的特质信息披露是否具有决策有用性。以2017—2020年A股上市公司为样本,研究发现:与同期同行业其他公司CAM披露的横向文本相似度越小,公司新审计报告特质信息披露的信息含量越大,表现为事件窗口内的累计超额回报越高。并且,这些特质信息披露的决策有用性主要来自CAM事项描述段,而非审计应对段。进一步研究发现,新审计报告特质信息披露的决策有用性主要存在于公司信息环境较差、审计师具有行业专长,以及公司有着更多专业投资者时。研究表明,新审计报告特质信息披露在我国资本市场具有决策有用性,为当前审计报告模式改革提供经验支撑与参考借鉴。 展开更多
关键词 新审计报告 关键审计事项披露 决策有用性 文本相似
在线阅读 下载PDF
结合关键词微变和LD算法的文本相似性研究
14
作者 程玉胜 梁辉 +1 位作者 王一宾 任勇 《计算机工程与应用》 CSCD 北大核心 2016年第8期70-73,124,共5页
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clust... 为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。 展开更多
关键词 聚类 LD算法 文本相似度矩阵 向量空间模型 文本相似
在线阅读 下载PDF
基于语义理解的文本相似度算法 被引量:80
15
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 知网 语义 文本相似 复制检测 信息检索
在线阅读 下载PDF
基于属性论的文本相似度计算 被引量:64
16
作者 潘谦红 王炬 史忠植 《计算机学报》 EI CSCD 北大核心 1999年第6期651-655,共5页
以属性论为理论依据,分析了文本属性与属性重心剖分模型的关系,建立了文本属性重心剖分模型,并在属性坐标系中表示文本向量与查询式向量,确定向量之间的匹配基准,计算匹配距离,从而建立一个文本与查询式之间的匹配相似度计算公式... 以属性论为理论依据,分析了文本属性与属性重心剖分模型的关系,建立了文本属性重心剖分模型,并在属性坐标系中表示文本向量与查询式向量,确定向量之间的匹配基准,计算匹配距离,从而建立一个文本与查询式之间的匹配相似度计算公式.该模型有效地描述文本属性和查询式属性之间的关系. 展开更多
关键词 信息检索 人工智能 属性论 文本相似 计算
在线阅读 下载PDF
基于LDA主题模型的文本相似度计算 被引量:103
17
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似 GIBBS抽样
在线阅读 下载PDF
基于汉明距离的文本相似度计算 被引量:60
18
作者 张焕炯 王国胜 钟义信 《计算机工程与应用》 CSCD 北大核心 2001年第19期21-22,共2页
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式... 传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。 展开更多
关键词 INTERNET 汉明距离 文本相似 信息检索 信息论
在线阅读 下载PDF
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:230
19
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本聚类 词项语义相似 文本相似 自然语言处理
在线阅读 下载PDF
基于VSM的文本相似度计算的研究 被引量:101
20
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似 特征选择 词频—逆文档频率法 向量空间模型
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部