期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
微信会话文本关键词提取的算法研究
1
作者 王宝会 许卜仁 +1 位作者 李长傲 叶子豪 《计算机科学》 北大核心 2025年第S1期239-246,共8页
微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,... 微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。 展开更多
关键词 文本聚类 文本生成 会话主题聚类 关键词提取
在线阅读 下载PDF
客户数字化转型与企业营运资金管理效率——基于竞争侵占与约束防御的双重视角 被引量:6
2
作者 王娇 王凡林 《南方经济》 CSSCI 北大核心 2024年第8期115-136,共22页
无论在企业管理实践中,还是从已有文献来看,客户数字化转型对企业营运资金管理效率表现出促进还是抑制,仍未形成一致结论。文章采用中国深沪A股上市企业披露的前五大客户数据,探讨客户数字化转型对企业营运资金管理效率的溢出效应与作... 无论在企业管理实践中,还是从已有文献来看,客户数字化转型对企业营运资金管理效率表现出促进还是抑制,仍未形成一致结论。文章采用中国深沪A股上市企业披露的前五大客户数据,探讨客户数字化转型对企业营运资金管理效率的溢出效应与作用机理。基准检验发现,客户数字化转型降低了企业营运资金管理效率,说明数字溢出存在负外部性。作用渠道检验发现,竞争侵占与约束防御是客户数字化转型影响企业营运资金管理效率的两大渠道,即客户数字化转型催生的数字溢出通过降低企业相对议价能力、降低企业应收账款回收率、加剧企业专用资产套牢风险、加大企业商业信用供给以及扩大企业存货储备规模进而降低了企业营运资金管理效率,说明数字溢出具有竞争约束特征。异质性检验发现,当客户集中度较低、企业规模较大、企业风险承担能力较强时,数字溢出的竞争约束特征得到缓解。研究结论解释了客户数字化转型是否能够提升企业营运资金管理效率的争议,发现了客户数字化转型引致的数字溢出具有竞争约束特征,并提供了企业克服数字溢出负外部性的理论指导,具有理论价值和现实意义。 展开更多
关键词 数字化转型 数字溢出 供应链管理 现金转换周期 文本分析法
在线阅读 下载PDF
用于提升聋哑人语音表现力的语音合成技术 被引量:3
3
作者 马皓天 洪峰 +3 位作者 毛海全 郑立通 牟宏宇 许伟杰 《声学技术》 CSCD 北大核心 2024年第6期843-853,共11页
目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文... 目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文章首先分析了聋哑人的语音特征,并根据分析的结论,提出了能合成高自然度、高清晰度且带有聋哑人自身声音特色的模型算法以及相应的评估体系。文章根据不同残疾程度的聋哑人语音特征,提出了面向轻度残疾聋哑人的语音转换和合成方法以及面向重度残疾聋哑人的语音克隆方法。根据分析结果,轻度残疾聋哑人语音与健听人语音具有一定的共性,因此使用AdaIN-VC语音转换模型转换出带有聋哑人音色、高可懂度的语音,并将转换好的语音结合Tacotron2语音合成模型进行文本到语音的映射。考虑到重度残疾聋哑人语音的不稳定性,文章基于Zero-shot的SV2TTS语音克隆框架,使用了ECAPA-TDNN作为重度残疾聋哑人音色表征的说话人编码器,以获取准确的聋哑人表征。此外,文章还引入基于基频情感分类的风格迁移模块,对合成语音进行风格上的迁移。实验结果表明,在保证一定相似度的情况下,实验中两位轻残聋哑人的自然度主观意见评分别从原来的2.53和3.06提高至2.88和3.21,并且语音识别的错词率从100%分别降低至80.77%和76.91%。同样,文中提出的主观错词率也有明显的下降。而在语音克隆的实验中,模型合成的重残聋哑人语音与其自身音色的相似度主观相似度意见评分达到3,且聋哑人语音的自然度主观意见评分和情感表达能力均得到了提高。 展开更多
关键词 语音合成 语音转换 语音克隆 风格迁移
在线阅读 下载PDF
结合对话状态信息的个性化对话回复生成
4
作者 桂海涛 王中卿 《计算机科学》 CSCD 北大核心 2024年第S01期143-149,共7页
尽管个性化回复生成模型取得了显著成功,但这些研究都未能很好地考虑到对话状态信息对于个性化对话回复的影响。针对此问题,基于预训练生成模型提出了结合对话状态的自监督对话回复生成模型,该模型可以有效地对结合对话状态生成个性化... 尽管个性化回复生成模型取得了显著成功,但这些研究都未能很好地考虑到对话状态信息对于个性化对话回复的影响。针对此问题,基于预训练生成模型提出了结合对话状态的自监督对话回复生成模型,该模型可以有效地对结合对话状态生成个性化的回复。首先,将对话状态纳入情景喜剧数据集中,以增强模型对上下文信息的理解能力。其次,采用自监督的训练技术,赋予预训练语言生成模型独特的对话文本特征知识,并采用多种掩码策略合并对话文本和对话状态,进一步提升模型性能。最后,基于历史对话,使用自监督生成模型生成个性化回复。在自行收集的情景喜剧数据集上进行性实验,结果表明,结合对话状态的对话回复生成模型在多项指标上优于一些强基准,进而证明了对话状态和个性化回复生成模型的有效性。 展开更多
关键词 对话回复 对话状态 自监督 预训练 文本生成
在线阅读 下载PDF
基于BERT-Bi-LSTM-CRF模型的机场类中文航行通告要素实体识别 被引量:6
5
作者 郝宽公 董兵 +2 位作者 吴悦 彭自琛 罗创 《科学技术与工程》 北大核心 2024年第10期4182-4188,共7页
航行通告是民用航空情报领域的重要情报资料,针对中文航行通告专业名词较多、格式不统一及语义复杂等问题,提出了一种基于BERT-Bi-LSTM-CRF的实体识别模型,对航行通告E项内容中事件要素实体进行抽取。首先通过BERT(bidirectional encode... 航行通告是民用航空情报领域的重要情报资料,针对中文航行通告专业名词较多、格式不统一及语义复杂等问题,提出了一种基于BERT-Bi-LSTM-CRF的实体识别模型,对航行通告E项内容中事件要素实体进行抽取。首先通过BERT(bidirectional encoder representations from transforms)模型对处理后的向量进行预训练,捕捉丰富的语义特征,然后传送至双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)模型对上下文特征进行提取,最后利用条件随机场(conditional random field,CRF)模型对最佳实体标签预测并输出。收集并整理机场类航行通告相关的原始语料,经过文本标注与数据预处理,形成了可用于实体识别实验的训练集、验证集和评价集数据。基于此数据与不同的实体识别模型进行对比实验,BERT-Bi-LSTM-CRF模型的准确率为89.68%、召回率为81.77%、F_(1)为85.54%,其中F 1相比现有模型得到有效提升,结果验证了该模型在机场类航行通告中要素实体识别的有效性。 展开更多
关键词 机场类航行通告 要素实体识别 双向转换编码器 双向长短期记忆网络 文本信息抽取
在线阅读 下载PDF
短文本信息流的无监督会话抽取技术 被引量:19
6
作者 黄九鸣 吴泉源 +3 位作者 刘春阳 张旭 贾焰 周斌 《软件学报》 EI CSCD 北大核心 2012年第4期735-747,共13页
文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性... 文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%. 展开更多
关键词 会话抽取 短文本 短文本信息流 无监督 时序特征 上下文相关度
在线阅读 下载PDF
一种语句级汉字输入技术的研究 被引量:14
7
作者 徐志明 王晓龙 姜守旭 《高技术通讯》 EI CAS CSCD 2000年第1期51-55,共5页
提出了一种语句级汉字输入技术,把Ngram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程。描述了拼音流自动切分、词网格生成、最优语句候选搜索和系统的自适应学习机制等技术。该语句级汉字输入技术的音字转换正确率... 提出了一种语句级汉字输入技术,把Ngram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程。描述了拼音流自动切分、词网格生成、最优语句候选搜索和系统的自适应学习机制等技术。该语句级汉字输入技术的音字转换正确率达9028%,目前它已用于Microsoft公司的微软拼音输入法中。 展开更多
关键词 词句级 N-GRAM 音字转换 语言元素 汉字输入技术
在线阅读 下载PDF
基于LPC残差用频域法来实现基音周期变换 被引量:4
8
作者 李波 王成友 +2 位作者 杨聪 蔡宣平 张尔扬 《国防科技大学学报》 EI CAS CSCD 北大核心 2005年第1期89-92,共4页
基音周期变换是文—语转换和语音转换的重要内容。在语音转换中有很多作者主张基于LPC分析来实现语音转换,通过直接或间接调整LPC系数来实现频谱包络的转换,而基音周期的转换则通过对LPC激励谱或LPC残差的处理来实现。提出对LPC残差用... 基音周期变换是文—语转换和语音转换的重要内容。在语音转换中有很多作者主张基于LPC分析来实现语音转换,通过直接或间接调整LPC系数来实现频谱包络的转换,而基音周期的转换则通过对LPC激励谱或LPC残差的处理来实现。提出对LPC残差用频域法来进行处理,得到改变了基音周期的LPC残差,从而实现语音的基音周期的变换。这种方法也可以用于文—语转换的基音周期改变中。 展开更多
关键词 文—语转换 语音转换 基音周期变换
在线阅读 下载PDF
研究生学位论文电子版的收集与利用──清华大学的实践与探索 被引量:12
9
作者 窦天芳 姜爱蓉 《大学图书馆学报》 CSSCI 北大核心 2001年第4期50-52,共3页
介绍清华大学图书馆从2000年开始利用校园网收集研究生学位论文电子版全文的思路、措施以及技术手段,对收集电子版全文中出现的问题进行了归纳分析,并对这项工作的进一步完善提出了建议。
关键词 学位论文 计算机网络 电子全文 收集工作 研究生教育 电子全文格式
在线阅读 下载PDF
火电厂语音报警系统中的动态文语转换方法 被引量:4
10
作者 陈坚红 李蔚 +1 位作者 盛德仁 任浩仁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第12期1997-2001,共5页
针对火电厂实时动态语音报警系统的特点,提出了基于动态文语转换技术的火电厂实时动态语音报警系统的实现框架.阐述了实时、动态文语转换子系统的各组成部分,研究了基于基音同步叠加算法(PSOLA)的实时动态文语转换方法,讨论了采用组件... 针对火电厂实时动态语音报警系统的特点,提出了基于动态文语转换技术的火电厂实时动态语音报警系统的实现框架.阐述了实时、动态文语转换子系统的各组成部分,研究了基于基音同步叠加算法(PSOLA)的实时动态文语转换方法,讨论了采用组件对象模型(COM)技术进行包括语音合成数据库、文本预处理、韵律处理和语音波形的生成在内的程序实现的要点.分析测试的结果表明,采用这种方法合成的语音质量高、实时性好,完全可以应用到包括火电厂实时动态语音报警系统在内的其他实时语音处理场合中. 展开更多
关键词 火电厂 文语转换技术 基音同步叠加算法 语音报警
在线阅读 下载PDF
面向方言语音合成的文本分析研究 被引量:3
11
作者 郭威彤 杨鸿武 +2 位作者 宋继华 顾香 甘振业 《计算机工程》 CAS CSCD 北大核心 2015年第9期184-189,共6页
为实现方言的统计参数语音合成,提出一种从文字到方言读音的文本分析方法。通过对比普通话和方言在声韵母方面的发音异同,设计方言的语音评估方法音标字母(SAMPA),用来标注方言声韵母的读音,得到从普通话读音到方言读音的转换规则。对... 为实现方言的统计参数语音合成,提出一种从文字到方言读音的文本分析方法。通过对比普通话和方言在声韵母方面的发音异同,设计方言的语音评估方法音标字母(SAMPA),用来标注方言声韵母的读音,得到从普通话读音到方言读音的转换规则。对输入的汉语文本进行分析,获得语法词、声母、韵母信息,使用基于转换的错误驱动学习算法获得语句的韵律词和韵律短语边界,利用普通话读音到方言读音的转换规则,获得方言发音的SAMPA音标,从而将输入的文本转换为统计参数语音合成所需的上下文相关标注。测试结果表明,该方法能较为准确地生成上下文相关标注。 展开更多
关键词 文本分析 字音转换 语音评估方法音标字母 语音合成 语法分析
在线阅读 下载PDF
纸抄时代文集编纂、流传方式与文学的传播——以李白诸小集到正集衍变过程考察为中心 被引量:6
12
作者 任雅芳 查屏球 《华南师范大学学报(社会科学版)》 CSSCI 北大核心 2016年第6期20-27,189,共9页
纸抄时代,正集产生前文人作品多以小集传世,如李白生前有律诗、乐府歌行等小集,反映了诗人在各个阶段对诗体的关注点不同。从现存李白集宋本可见出印本全集分卷略存纸抄小集原貌。如同诗异题的现象缘于不同小集的编集原则,仅见于宋咸淳... 纸抄时代,正集产生前文人作品多以小集传世,如李白生前有律诗、乐府歌行等小集,反映了诗人在各个阶段对诗体的关注点不同。从现存李白集宋本可见出印本全集分卷略存纸抄小集原貌。如同诗异题的现象缘于不同小集的编集原则,仅见于宋咸淳本的"杂拟"卷目源于原初小集的名称,宋本歌吟卷或与《日本国见在书目》所录"《李白歌行集》三卷"一类小集相关,《古风》两卷可能是逐次增添成的小集。印本全集流行前,以小集形态形成的正集并不稳定,诸小集在流行中亦有分合增减的变化。此在《文苑英华》这类总集中也有体现。全集流行是印刷时代之后的事,此前各小集应是作家显示文学存在的主要方式,相关的文学批评也以此为对象。 展开更多
关键词 纸抄小集 印本全集 文本转化 文学传播
在线阅读 下载PDF
两种Express数据模型的转换方法 被引量:3
13
作者 杨子江 李善平 《计算机工程》 EI CAS CSCD 北大核心 2000年第1期63-64,70,共3页
针对Express语言的特点,结合Step中性文件的读写过程,讨论了两种不同的转换方法:面向结构的方法与面向约束的方法。
关键词 EXPRESS语言 中性文件 数据模型 模型转换
在线阅读 下载PDF
基于实例推理的人机对话系统的设计与实现 被引量:3
14
作者 姚琳 梁春霞 张德干 《计算机应用》 CSCD 北大核心 2007年第3期765-768,共4页
采用基于实例推理的方法,结合人机对话、语音识别和语音合成技术,设计与实现了一个辅助英语学习的人机对话系统。重点阐述了系统的语音功能、对话管理和实例库访问。实验表明,系统很好地满足了用户提高英语听力和口语水平的需求。
关键词 人机对话 基于实例的推理 语音识别 语音合成 英语学习
在线阅读 下载PDF
面向汉语统计参数语音合成的标注生成方法 被引量:1
15
作者 郝东亮 杨鸿武 +3 位作者 张策 张帅 郭立钊 杨静波 《计算机工程与应用》 CSCD 北大核心 2016年第19期146-153,共8页
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每... 针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。 展开更多
关键词 文本分析 语音合成 上下文相关标注 韵律预测 字音转换
在线阅读 下载PDF
AutoCAD与Word和Excel图文转换的效果处理 被引量:8
16
作者 丁建梅 《工程图学学报》 CSCD 2002年第4期157-162,共6页
AutoCAD计算机辅助设计软件、Word字处理软件和Excel电子表格处理软件得到了极为广泛的应用,但Word本身能绘制图形的能力很有限,用于绘制标准的工程图则更难。而使用AutoCAD绘图时,要写入大量的文本和表格也十分不便,利用Word或Excel处... AutoCAD计算机辅助设计软件、Word字处理软件和Excel电子表格处理软件得到了极为广泛的应用,但Word本身能绘制图形的能力很有限,用于绘制标准的工程图则更难。而使用AutoCAD绘图时,要写入大量的文本和表格也十分不便,利用Word或Excel处理软件的特点写入文字或表格,然后插入到AutoCAD绘图文件中,会取得意想不到的效果。针对在AutoCAD与Word和Excel图文转换过程中存在的问题进行了深入探讨,从而完善了工程文件中不同软件的协同设计。 展开更多
关键词 AUTOCAD WORD EXCEL 效果处理 计算机辅助设计 字处理 电子表格 图文转换
在线阅读 下载PDF
Access机试系统的评分方法探讨 被引量:2
17
作者 杨芳菊 李梅 《计算机应用与软件》 CSCD 2011年第9期182-184,共3页
在全国计算机等级考试(NCRE)二级Access机试中,考生主要对Access的七个对象进行操作,这些操作信息被Access数据库隐藏存储,对开发Access机试评分系统带来困难。通过DAO技术以及微软的Application对象中未公开的SaveAsText方法,将考生操... 在全国计算机等级考试(NCRE)二级Access机试中,考生主要对Access的七个对象进行操作,这些操作信息被Access数据库隐藏存储,对开发Access机试评分系统带来困难。通过DAO技术以及微软的Application对象中未公开的SaveAsText方法,将考生操作的信息转换为文本格式。采用"逐一比较"和"要点查询"方法,将考生操作信息与标准答案进行比对,实现了自动评分。 展开更多
关键词 数据库 自动评分 Access对象 操作信息 转换 文本格式
在线阅读 下载PDF
汉语文语转换中的音库词库 被引量:2
18
作者 潘春华 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期167-169,共3页
阐述了为实现汉语文本到语音转换而设计的汉语词库和语音库的设计思想和实现技术。
关键词 文语转换 汉语词库 语音库 中文信息处理
在线阅读 下载PDF
基于重复检测的多摘要消重方法 被引量:1
19
作者 程菲 汪建海 罗键 《计算机工程与设计》 CSCD 北大核心 2006年第23期4521-4524,4555,共5页
针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multiabstractremoverepeat,MARR)。MARR方法对传统基于词表和倒... 针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multiabstractremoverepeat,MARR)。MARR方法对传统基于词表和倒排文件的Web信息数据库进行改装,增加一个字段用于记录关键词所对应的摘要块号,采用文本摘要算法,按倒排文件方式索引,根据内容基于查询词目的相似程度,在检索过程中过滤或标识与查询词目相关的部分内部重复现象,以获得更合理的检索结果组织形式。MARR方法还将传统按PageRank值顺序排列改成树型组织方式,以方便用户信息发现的需要。该方法在基于三明钢铁集团MES智能信息代理的原型化Web检索系统中得到应用。 展开更多
关键词 信息检索 消重方法 文本摘要 倒排文件 树型组织
在线阅读 下载PDF
一种用于语音转换的区域最近邻迭代训练算法 被引量:1
20
作者 简志华 王向文 《电子与信息学报》 EI CSCD 北大核心 2012年第9期2091-2096,共6页
针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据Kullback–Leibler(KL)距离最小... 针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据Kullback–Leibler(KL)距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。客观测试和主观听觉实验都表明由于该文算法采用了更加精确的矢量对齐方法,能取得比INCA算法更优异的转换性能。 展开更多
关键词 语音转换 与文本无关 最近邻准则 迭代训练
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部