期刊文献+
共找到9,782篇文章
< 1 2 250 >
每页显示 20 50 100
基于Word2Vec模型的泥石流多源灾害数据融合研究 被引量:1
1
作者 晋磊 徐鹏 +2 位作者 黎杰 蔡迎春 杨海波 《人民黄河》 北大核心 2025年第7期97-102,共6页
在大数据、物联网与人工智能技术快速发展的背景下,泥石流灾害数据正日益呈现出海量、多源、异构的特点。主要采用jieba、NLPIR和LTP等分词工具抽取模型库,对非结构化存储的泥石流灾害数据进行解析与抽取,并汇聚至数据库,实现数据融合... 在大数据、物联网与人工智能技术快速发展的背景下,泥石流灾害数据正日益呈现出海量、多源、异构的特点。主要采用jieba、NLPIR和LTP等分词工具抽取模型库,对非结构化存储的泥石流灾害数据进行解析与抽取,并汇聚至数据库,实现数据融合。通过Word2Vec模型将词语映射到高维空间中,实现文本中的词汇转换为实数向量;采用t-SNE算法和Kernel PCA算法将高维词向量转换为低维度的向量,使用K-means算法对其进行聚类可视化。研究结果表明:在数据抽取评估方面,一致性、完整性、准确性的评估均值在0.800以上,均方差小于0.050。对比PCA和t-SNE两种降维方法,通过轮廓系数(Silhouette Score,SS)评估聚类效果,PCA的SS指标值为0.359,t-SNE的SS指标值为0.336,结果显示PCA表现更优。Bert模型具有较强的上下文理解能力,更加适合泥石流灾害数据抽取,依托Word2Vec模型的CBOW架构获取词向量,结果显示PCA在评价指标上整体表现优于t-SNE。针对泥石流灾害数据多源和语义一致性问题,涵盖从数据抽取、降维到聚类的全过程,为实现泥石流灾害数据的语义融合与统一管理提供了有效支持。 展开更多
关键词 泥石流灾害 知识抽取 质量评估 知识融合 word2Vec
在线阅读 下载PDF
基于词性与词序的相关因子训练的word2vec改进模型 被引量:12
2
作者 潘博 于重重 +2 位作者 张青川 徐世璇 曹帅 《电子学报》 EI CAS CSCD 北大核心 2018年第8期1976-1982,共7页
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性... 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 展开更多
关键词 word EMBEDDING 词性 相关权重 词序 word2vec
在线阅读 下载PDF
基于Word2Vec的WordNet词语相似度计算研究 被引量:11
3
作者 陈丹华 王艳娜 +3 位作者 周子力 赵晓函 李天宇 王凯莉 《计算机工程与应用》 CSCD 北大核心 2022年第3期222-229,共8页
当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低。为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法。在构建WordNet数据集时提出一种新形式,不再... 当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低。为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法。在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理。利用Word2Vec模型训练WordNet数据集后得到向量表示。在公开的R&G-65、M&C-30和MED38词语相似度测评集上完成了词语相似度计算任务,从多个角度进行了Pearson相关系数对比实验。结果显示该文计算的相似度值与人工判定值计算取得的Pearson相关系数指标得到了显著提升。 展开更多
关键词 词语相似度 wordNET word2Vec 同义词集标号
在线阅读 下载PDF
基于图像Bag-of-Words模型的无载体信息隐藏 被引量:49
4
作者 周志立 曹燚 孙星明 《应用科学学报》 CAS CSCD 北大核心 2016年第5期527-536,共10页
介绍一种基于bag-of-words(BOW)模型的无载体信息隐藏方法.该方法使用BOW模型提取图像的视觉关键词(visual words,VW)以表达待隐藏的文本信息,从而实现文本信息在图像中的隐藏.首先使用BOW模型提取图像集中每幅图像的VW,构建文本信息的... 介绍一种基于bag-of-words(BOW)模型的无载体信息隐藏方法.该方法使用BOW模型提取图像的视觉关键词(visual words,VW)以表达待隐藏的文本信息,从而实现文本信息在图像中的隐藏.首先使用BOW模型提取图像集中每幅图像的VW,构建文本信息的关键词和VW的映射关系库;然后把每幅图像分为若干子图像,统计每一幅子图像的VW频数直方图,选择频数最高的VW表示该子图像;最后根据构建的文本关键词和子图像VW的映射关系库,搜索出与待隐藏文本信息存在映射关系的子图像序列,将含有这些子图像的图像作为含密图像进行传递.实验结果和分析表明,该隐藏算法在抗隐写分析、鲁棒性和安全性方面均有良好的表现. 展开更多
关键词 无载体信息隐藏 BAG of words模型 视觉词汇 图像搜索
在线阅读 下载PDF
基于word2vec和LSTM的饮食健康文本分类研究 被引量:43
5
作者 赵明 杜会芳 +1 位作者 董翠翠 陈长松 《农业机械学报》 EI CAS CSCD 北大核心 2017年第10期202-208,共7页
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维... 为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。 展开更多
关键词 文本分类 word2vec 词向量 长短期记忆网络 K-means++
在线阅读 下载PDF
基于Word文档的数据交换策略及其实现 被引量:13
6
作者 肖刚 王洪恩 +2 位作者 王昌建 单继宏 张元鸣 《计算机应用与软件》 CSCD 北大核心 2004年第3期34-35,66,共3页
论文分析了当前管理信息系统数据采集与传统的数据上报方式之间存在的问题 ,提出了一种基于Word文档实现数据采集和上报的解决方案 ,对基于Word文档的数据交换策略进行了研究 ,实现了基于Word文档的数据自动采集和数据库系统不确定报表... 论文分析了当前管理信息系统数据采集与传统的数据上报方式之间存在的问题 ,提出了一种基于Word文档实现数据采集和上报的解决方案 ,对基于Word文档的数据交换策略进行了研究 ,实现了基于Word文档的数据自动采集和数据库系统不确定报表的自动生成 ,结合实际MIS系统开发 。 展开更多
关键词 word 文档 文字处理软件 数据交换策略 数据采集 数据库系统 数据表格
在线阅读 下载PDF
使用Visual Basic操纵Microsoft Word对象生成报表文档 被引量:12
7
作者 孔令彦 董蓬勃 +1 位作者 姜青香 刘慧平 《计算机工程与应用》 CSCD 北大核心 2003年第36期115-117,共3页
在使用VisualBasic进行管理信息系统开发中,经常需要操纵MicrosoftWord在文档中特定位置填入从数据库中读取的数据资料来生成所需报表文档,以便于管理或打印输出。文章介绍了MicrosoftWord对象模型,以及在VisuaBasic应用程序中如何利用... 在使用VisualBasic进行管理信息系统开发中,经常需要操纵MicrosoftWord在文档中特定位置填入从数据库中读取的数据资料来生成所需报表文档,以便于管理或打印输出。文章介绍了MicrosoftWord对象模型,以及在VisuaBasic应用程序中如何利用OLE引用MicrosoftWord对象。并且通过实例说明了在VisualBasic中利用MicrosoftWord对象的书签(Bookmark)和查找替换(Find、Replacement)两种方式向模板文档中填入数据实现报表文档的生成和保存的方法。 展开更多
关键词 word VISUALBASIC 报表文档 对象模型 数据库 软件开发 文字处理软件 管理信息系统
在线阅读 下载PDF
一种融入用户点击模型Word2Vec查询词聚类 被引量:4
8
作者 杨河彬 贺樑 杨静 《小型微型计算机系统》 CSCD 北大核心 2016年第4期676-681,共6页
用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Wo... 用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Word2Vec神经网络语言模型.CT-Word2Vec模型不仅利用词汇的上下文信息将词转化成向量,而且还将用户的搜索点击行为融入词向量的学习过程当中.聚类实验结果表明,基于Word2Vec的词向量的查询词表示方法相对于传统的词袋法在熵、纯度衡量指标上有20%到30%的提高.基于CT-Word2Vec的词向量表示方法与Word2Vec相比有2%到4%的提升. 展开更多
关键词 查询词 聚类 word2Vec 点击模型 CT-word2Vec
在线阅读 下载PDF
Word操作题自动阅卷的设计与实现 被引量:22
9
作者 李桂成 张永奎 闫锐 《计算机工程与设计》 CSCD 2002年第4期29-30,33,共3页
讨论了Word 操作题的组织形式和录入技术,设计了一个自动阅卷方案,该方案已在山西省计算机应用能力考核系统中实现。
关键词 word 操作题 自动阅卷 设计 形式语言 文字处理软件
在线阅读 下载PDF
基于“bag of words”的视频匹配方法 被引量:10
10
作者 李远宁 刘汀 +1 位作者 蒋树强 黄庆明 《通信学报》 EI CSCD 北大核心 2007年第12期147-151,共5页
提出了一种利用"bag of words"模型对视频内容进行建模和匹配的方法。通过量化视频帧的局部特征构建视觉关键词(visual words)辞典,将视频的子镜头表示成若干视觉关键词的集合。在此基础上构建基于子镜头的视觉关键词词组的... 提出了一种利用"bag of words"模型对视频内容进行建模和匹配的方法。通过量化视频帧的局部特征构建视觉关键词(visual words)辞典,将视频的子镜头表示成若干视觉关键词的集合。在此基础上构建基于子镜头的视觉关键词词组的倒排索引,用于视频片段的匹配和检索。这种方法保留了局部特征的显著性及其相对位置关系,而且有效地压缩了视频的表达,加速的视频的匹配和检索过程。实验结果表明,和已有方法相比,基于"bag of words"的视频匹配方法在大视频样本库上获得了更高的检索精度和检索速度。 展开更多
关键词 视频匹配 视觉关键词 BAG of words倒排索引
在线阅读 下载PDF
基于word-hashing的DGA僵尸网络深度检测模型 被引量:9
11
作者 赵科军 葛连升 +1 位作者 秦丰林 洪晓光 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第A01期30-33,共4页
针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间... 针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间.然后利用5层深度神经网络对转换为高维向量的域名进行训练分类检测.通过深度模型,能够从训练数据中发现不同层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.实验中使用了10万条DGA域名和10万条合法域名作为样本,与基于自然语言特征分类算法进行对比实验.实验结果表明该深度模型对DGA域名检测准确率达到97.23%,比基于自然语言特征分类算法得到的检测准确率高3.7%. 展开更多
关键词 DGA 僵尸网络 wordhashing 深度学习
在线阅读 下载PDF
基于动态网页的Word报告自动生成方法 被引量:9
12
作者 刘鹏 秦巍 +1 位作者 周永辉 郭义琪 《计算机工程》 CAS CSCD 2012年第5期279-280,284,共3页
为减少日常工作中Word报告编制的工作量,提出一种基于动态网页的可扩展Word报告自动生成方法。将数据处理方法封装为数据占位符,并插入Word文档中定制报告模板。利用报告模板生成ASPX动态网页,根据用户操作调用相应的数据处理方法进行... 为减少日常工作中Word报告编制的工作量,提出一种基于动态网页的可扩展Word报告自动生成方法。将数据处理方法封装为数据占位符,并插入Word文档中定制报告模板。利用报告模板生成ASPX动态网页,根据用户操作调用相应的数据处理方法进行信息录入和检索,替换报告模板中的数据占位符,从而生成最终报告。应用结果表明,该方法能提高Word报告编制的效率。 展开更多
关键词 动态网页 word报告 报告模板 占位符
在线阅读 下载PDF
基于Word2Vec的一种文档向量表示 被引量:150
13
作者 唐明 朱磊 邹显春 《计算机科学》 CSCD 北大核心 2016年第6期214-217,269,共5页
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF... 在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 展开更多
关键词 TF-IDF word2vec doc2vec 文本分类
在线阅读 下载PDF
融合Word2Vec的半积累引用共词网络的领域主题演化研究 被引量:13
14
作者 程秀峰 邹晶晶 +1 位作者 叶光辉 夏立新 《情报学报》 CSSCI CSCD 北大核心 2023年第7期801-815,共15页
发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研... 发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研究。通过引用关系定义“引用共现”关联,并融合词嵌入技术构建关键词网络;使用社区探测法识别领域主题,采用后离散分析法,从内容结构和发展趋势两个角度进行学科主题演化分析,并可视化呈现主题演化路径及发展趋势。研究结果表明,本文所构建网络比传统共词网络能呈现粒度更优的主题聚类效果,并且能较好地呈现主题动态演化趋势,是共词分析法的有效补充。 展开更多
关键词 主题演化 引用共词网络 word2Vec模型 时间序列 战略坐标
在线阅读 下载PDF
基于DOM和VBA的Word文档数据交互式抽取 被引量:11
15
作者 孙晓伟 毕晓清 +1 位作者 吴洪越 赵卫东 《计算机应用与软件》 CSCD 北大核心 2013年第2期113-115,共3页
针对信息系统Word文档中的数据提取问题,分析现有解决方案中存在的不足,提出交互式提取Word文档中半结构化数据的方法。该方法通过制定Word模板、编写宏函数并运用可交互的外部程序调用宏函数,将Word文档中指定的内容提取到数据库中。... 针对信息系统Word文档中的数据提取问题,分析现有解决方案中存在的不足,提出交互式提取Word文档中半结构化数据的方法。该方法通过制定Word模板、编写宏函数并运用可交互的外部程序调用宏函数,将Word文档中指定的内容提取到数据库中。实现了Word文档中半结构化数据提取的方便性和灵活性。 展开更多
关键词 word文档 数据抽取 数据库 半结构化数据 交互式
在线阅读 下载PDF
Word模板数据自校验设计与信息提取技术 被引量:8
16
作者 朱敏 方登建 +1 位作者 王哲 周源 《实验室研究与探索》 CAS 北大核心 2012年第3期75-78,共4页
信息系统的正常使用需要大量的数据支撑,目前的数据采集录入方式很难实现通用性、便捷性和规范性的统一。针对此,提出一种基于Word模板的具有数据自校验功能的数据采集方法。首先,结合Word文档窗体域和规则不确定表格的特点,设计出主从... 信息系统的正常使用需要大量的数据支撑,目前的数据采集录入方式很难实现通用性、便捷性和规范性的统一。针对此,提出一种基于Word模板的具有数据自校验功能的数据采集方法。首先,结合Word文档窗体域和规则不确定表格的特点,设计出主从结构采集模板样式;然后,根据采集数据项的格式和取值要求,建立校验规范数据库,编制校验程序,在Word文档内部校验所填数据项的规范性;最后,给出从所建立的数据采集模板中自动提取数据、导入到信息系统数据库的方法,实现了基于Word文档的数据便捷、规范采集。 展开更多
关键词 自校验 word模板 数据提取
在线阅读 下载PDF
基于Word2vec的句子语义相似度计算研究 被引量:61
17
作者 李晓 解辉 李立杰 《计算机科学》 CSCD 北大核心 2017年第9期256-260,共5页
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此... word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。 展开更多
关键词 句子相似度 word2vec 词向量 语义 句法结构
在线阅读 下载PDF
Word文档自动判卷的实现 被引量:7
18
作者 李贵洋 王世伦 +1 位作者 俞晓 左友东 《中国测试技术》 CAS 2004年第4期79-80,68,共3页
本文介绍了解决Word文档自动判卷的关键技术 ,同时提供了具体实现的部分程序流程和代码。
关键词 word文档 自动判卷 对象模型 迟绑定 OLE自动化 计算机 考试
在线阅读 下载PDF
基于Word2vec的论文和专利主题关联演化分析方法研究 被引量:31
19
作者 徐红姣 曾文 张运良 《情报杂志》 CSSCI 北大核心 2018年第12期36-42,共7页
[目的/意义]论文与专利分别反映的是基础研究和技术创新成果的进展情况。将两者结合起来进行主题关联演化分析,对于理解科学和技术的相互影响和渗透关系、技术机会识别、潜在商业化机会发现等方面有着重要的意义。[方法/过程]针对论文... [目的/意义]论文与专利分别反映的是基础研究和技术创新成果的进展情况。将两者结合起来进行主题关联演化分析,对于理解科学和技术的相互影响和渗透关系、技术机会识别、潜在商业化机会发现等方面有着重要的意义。[方法/过程]针对论文和专利的词汇表达方式存在很大差异的问题,该文以Word2vec算法为基础,通过对论文和专利关键词聚类、主题相似度计算,探索构建能综合揭示论文和专利主题关系的关联演化图谱。[结果/结论]电动汽车领域的实证研究表明,该方法能够全面展示领域主题随时间的变化趋势,并能揭示论文和专利主题间的相互影响情况。 展开更多
关键词 主题关联演化 论文 专利 word2vec
在线阅读 下载PDF
基于word2vec和SVMperf的中文评论情感分类研究 被引量:22
20
作者 张冬雯 杨鹏飞 许云峰 《计算机科学》 CSCD 北大核心 2016年第S1期418-421 447,共5页
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相... 利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。 展开更多
关键词 情感分类 word2vec SVMperf 语义特征 PCA
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部