期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
结合LDA与Word2vec的文本语义增强方法 被引量:28
1
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
基于word2vec和LDA的文本主题 被引量:7
2
作者 徐守坤 周佳 +1 位作者 李宁 石林 《计算机工程与设计》 北大核心 2018年第9期2764-2769,共6页
将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初... 将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 展开更多
关键词 自然语言处理 LDA模型 主题挖掘 word2vec模型 GIBBS抽样
在线阅读 下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
3
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
在线阅读 下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:43
4
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 word2vec 改进型TF-IDF算法 卷积神经网络 文本分类 CTMWT
在线阅读 下载PDF
基于Word2Vec和LDA主题模型的Web服务聚类方法 被引量:12
5
作者 肖巧翔 曹步清 +2 位作者 张祥平 刘建勋 李晏新闻 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期2979-2985,共7页
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,... 为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。 展开更多
关键词 WEB服务 word2vec LDA主题模型 K-MEANS算法 Web服务聚类
在线阅读 下载PDF
基于word2vec的配电网恶意控制指令检测算法 被引量:6
6
作者 郑佩祥 陈彬 +1 位作者 卢昕 徐文渊 《计算机工程》 CAS CSCD 北大核心 2019年第4期119-123,129,共6页
现有的配电网恶意控制指令检测方法基于电力系统运行规则,但规则维护困难、规则匹配耗时较长。根据配电网上行测量信息和下行控制指令之间存在的上下文一致性关系,提出基于word2vec的恶意控制指令检测算法。在配电网仿真平台模拟各类工... 现有的配电网恶意控制指令检测方法基于电力系统运行规则,但规则维护困难、规则匹配耗时较长。根据配电网上行测量信息和下行控制指令之间存在的上下文一致性关系,提出基于word2vec的恶意控制指令检测算法。在配电网仿真平台模拟各类工况并获取标注数据集,结果表明,该算法能够取得100%的精确度和87.2%的召回率,具有较高的检测精度。 展开更多
关键词 配电网 恶意控制指令 上下文 word2vec模型 异常检测
在线阅读 下载PDF
基于word2vec与LDA主题模型的技术相似性可视化研究 被引量:39
7
作者 席笑文 郭颖 +1 位作者 宋欣娜 王瑾 《情报学报》 CSSCI CSCD 北大核心 2021年第9期974-983,共10页
技术相似性是企业、组织或国家进行技术情报分析的重要内容,能为其识别潜在竞争关系和合作伙伴提供准确、有效的信息支持。本文针对传统LDA(latent Dirichlet allocation)主题模型忽略专利文本上下文间语义关联的问题,提出了基于word2ve... 技术相似性是企业、组织或国家进行技术情报分析的重要内容,能为其识别潜在竞争关系和合作伙伴提供准确、有效的信息支持。本文针对传统LDA(latent Dirichlet allocation)主题模型忽略专利文本上下文间语义关联的问题,提出了基于word2vec和LDA主题模型的技术相似性可视化研究方法。首先,基于word2vec模型学习特征词在专利文档集合中的上下文语境信息;其次,基于LDA主题模型构建专利权人-专利-技术主题三层概率分布,并将两者融合生成“词粒度”层面的主题向量、专利文档向量及专利权人向量;再次,利用向量相似性指标计算专利权人间的语义相似度,并在此基础上构建能够直观反映专利权人与技术主题关系的二模网络;最后,以NEDD(nano enabled drug delivery)领域为例进行实证研究,证明了该模型在技术相似性测度分析中具有较好的效果。 展开更多
关键词 word2vec LDA主题模型 技术相似性测度
在线阅读 下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:16
8
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 word2vec 词向量模型 SCI地址字段
在线阅读 下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:35
9
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 word2vec 主题演化 热点主题 主题影响力 主题关注度
在线阅读 下载PDF
融合word2vec和注意力机制的图像描述模型 被引量:7
10
作者 邓珍荣 张宝军 +1 位作者 蒋周琴 黄文明 《计算机科学》 CSCD 北大核心 2019年第4期268-273,共6页
针对当前图像描述任务中,生成描述图像的语句整体质量不高的问题,提出一种融合word2vec和注意力机制的图像描述模型。在编码阶段,应用word2vec模型描述文本向量化操作,以增强词与词的相关性;应用VGGNet19网络提取图像特征,并在图像特征... 针对当前图像描述任务中,生成描述图像的语句整体质量不高的问题,提出一种融合word2vec和注意力机制的图像描述模型。在编码阶段,应用word2vec模型描述文本向量化操作,以增强词与词的相关性;应用VGGNet19网络提取图像特征,并在图像特征中融合注意力机制,使得模型在每一个时间节点上生成单词时能够突出相对应的图像特征。在解码阶段,应用GRU网络作为图像描述任务的语言生成模型,用以提高模型的训练效率和生成句子的质量。在Flickr8k和Flickr30k两个公共数据集上的实验结果表明,在同一训练环境下,GRU模型的训练时长比LSTM模型节省了1/3的时间,在BLEU和METEOR评价标准上,所提模型的性能得到了显著提升。 展开更多
关键词 图像描述 word2vec 注意力机制 GRU模型
在线阅读 下载PDF
文本数据驱动下尾部风险影响因素动态识别与测度——基于我国金融机构的实证研究
11
作者 刘超 钱存 《管理工程学报》 北大核心 2025年第6期16-34,共19页
挖掘和提取文本数据中的潜在风险驱动信息,提升金融行业的风险识别效率是提高金融监管质效的重要途径。本文的研究将文本主题分析技术与多元统计方法相结合,提出文本数据驱动下的尾部风险影响因素动态识别与测度框架,以期从金融风险文... 挖掘和提取文本数据中的潜在风险驱动信息,提升金融行业的风险识别效率是提高金融监管质效的重要途径。本文的研究将文本主题分析技术与多元统计方法相结合,提出文本数据驱动下的尾部风险影响因素动态识别与测度框架,以期从金融风险文本中识别出金融机构的潜在风险因素并测度其影响程度,对结构化数据进行信息补充,为风险管理提供决策支持。本文以上市公司定期报告与机构分析师报告为文本数据源,采用LDA模型与Word2Vec模型的混合算法识别潜在风险因素,并针对风险因素的高维共线性特征,结合LASSO模型来验证和测度长期与短期影响因素的边际贡献。本文选取2001年至2022年我国上市金融机构的相关数据开展实证研究。研究结果表明,相较于仅包含结构化数据的分析框架,文本信息为尾部风险的影响因素识别补充了额外的信息价值,为尾部风险防范提供前瞻性的参考依据。静态分析表明,该框架能够识别出文本信息中金融机构经营过程中存在的长期风险因素,且不同风险因素的边际贡献存在异质性,即当尾部风险升高时风险文本主题因素的边际贡献更高,解释力度更强。动态模型分析表明,该框架能够识别出短期的潜在风险因素,且对尾部风险的敏感性更高。该框架为金融风险管理提供了“文本数据驱动”的新思路。 展开更多
关键词 文本驱动决策 尾部风险 LDA模型 word2vec模型 LASSO模型
在线阅读 下载PDF
城市空中交通感知风险识别与评价:基于在线评论数据
12
作者 郑秀梅 李智恒 《安全与环境学报》 北大核心 2025年第8期3143-3150,共8页
感知风险对技术采纳行为具有显著影响,探究中国公众对城市空中交通(Urban Air Mobility,UAM)的感知风险有助于推动UAM市场化进程。采用扎根理论挖掘在线评论数据,提取UAM感知风险因素,构建UAM感知风险理论框架;借助可视化软件Ucinet和Ne... 感知风险对技术采纳行为具有显著影响,探究中国公众对城市空中交通(Urban Air Mobility,UAM)的感知风险有助于推动UAM市场化进程。采用扎根理论挖掘在线评论数据,提取UAM感知风险因素,构建UAM感知风险理论框架;借助可视化软件Ucinet和Netdraw开展UAM感知风险语义网络分析,探究UAM感知风险因素的重要度排序。结果表明:中国情境下公众UAM感知风险包括六个风险类型、19个风险因素;六类感知风险的重要度排序由高至低依次是感知社会风险、感知侵权风险、感知环境风险、感知绩效风险、感知技术风险和感知政策风险;其中,身体损伤、公共安全、信息泄露、自然环境、服务性能、人居环境、政策制定、设施环境、机体结构、飞行性能等10个风险因素处于语义网络中的核心区域,是更为关键的UAM感知风险因素。 展开更多
关键词 安全社会科学 城市空中交通 感知风险 扎根理论 语义网络 word2vec模型
在线阅读 下载PDF
水电工程施工安全隐患文本智能类推研究 被引量:4
13
作者 郑霞忠 汪珂 +1 位作者 陈云 晋良海 《安全与环境学报》 CAS CSCD 北大核心 2023年第12期4449-4456,共8页
水电工程施工安全隐患治理不断向信息化与智能化转型。为高效挖掘大规模非结构化的安全隐患文本数据,提出融合案例推理与深度学习的水电工程施工安全隐患文本智能类推方法,辅助隐患治理方案的制订,提高隐患治理效率。首先,柔性化处理案... 水电工程施工安全隐患治理不断向信息化与智能化转型。为高效挖掘大规模非结构化的安全隐患文本数据,提出融合案例推理与深度学习的水电工程施工安全隐患文本智能类推方法,辅助隐患治理方案的制订,提高隐患治理效率。首先,柔性化处理案例数据,用框架法表示案例并建立隐患案例库;其次,从案例推理技术视角出发,构建隐患治理方案类推框架;最后,融合Word2vec模型优化检索过程,将隐患文本转化为词向量并计算相似度。以某水电站2016—2020年记录的3160条安全隐患信息为数据源,经实例验证,该类推方法综合准确率达0.867,表明隐患文本智能类推方法有助于管理人员及时对隐患进行整改,能够有效指导水电工程安全施工及安全管理。 展开更多
关键词 安全社会工程 案例推理 隐患治理 深度学习 文本类推 word2vec模型
在线阅读 下载PDF
基于主题和情绪相互作用的微博舆情演化研究——以“红黄蓝虐童事件”为例 被引量:36
14
作者 姜金贵 闫思琦 《情报杂志》 CSSCI 北大核心 2018年第12期118-123,共6页
[目的/意义]从内容层面深入挖掘微博舆情演化过程,根据主题和情绪的相互作用实时预测舆情变化,帮助政府及利益相关者快速地应对舆情。[方法/过程]以Python为工具采集并整理数据,运用Word2vec模型识别文章主题特征,利用情感词典以及情绪... [目的/意义]从内容层面深入挖掘微博舆情演化过程,根据主题和情绪的相互作用实时预测舆情变化,帮助政府及利益相关者快速地应对舆情。[方法/过程]以Python为工具采集并整理数据,运用Word2vec模型识别文章主题特征,利用情感词典以及情绪分析技术对文章评论进行情绪分析。[结果/结论]信息发布的及时性和透明性影响着微博舆情的发展趋势和网民的情绪,高涨的情绪则会促使主题内容倾向于网民的关注点,消息闭塞和极端情绪使得网民迫切希望了解真相,容易导致其轻信并传播不实消息。主题诱发情绪,情绪引导微博舆情演化进而催生主题,主题和情绪的相互作用推动了微博舆情各个阶段的演化。 展开更多
关键词 主题识别 word2vec模型 情绪分析 微博舆情
在线阅读 下载PDF
基于主题模型和词向量融合的微博文本主题聚类研究 被引量:28
15
作者 颜端武 梅喜瑞 +1 位作者 杨雄飞 朱鹏 《现代情报》 CSSCI 2021年第10期67-74,共8页
[目的/意义]针对微博短文本数据存在的高维稀疏和上下文语义缺失等问题,提出一种融合主题模型和词向量的文本特征表达方式,以期提高微博主题聚类的效果。[方法/过程]以新浪微博为数据源,结合LDA文档—主题分布特征和加权Word2Vec词向量... [目的/意义]针对微博短文本数据存在的高维稀疏和上下文语义缺失等问题,提出一种融合主题模型和词向量的文本特征表达方式,以期提高微博主题聚类的效果。[方法/过程]以新浪微博为数据源,结合LDA文档—主题分布特征和加权Word2Vec词向量特征构建微博短文本的融合特征,基于K-means算法进行主题聚类,并与单一特征聚类、标准LDA主题模型的实验结果进行对比,根据F1值评估主题聚类方法的优劣。[结果/结论]相较于其他方法,融合特征主题聚类模型表现最佳,其F1值达到83.7%。实验表明,融合特征能够更加全面、准确地描述文本的语义信息,能更有效地表征微博文本。 展开更多
关键词 微博主题聚类 LDA主题模型 word2vec 特征融合 K-MEANS
在线阅读 下载PDF
民航不安全事件报告危险源识别模型 被引量:14
16
作者 王洁宁 张聪俊 张钰涵 《安全与环境学报》 CAS CSCD 北大核心 2020年第1期186-192,共7页
为了识别民航不安全事件的发生原因,从民航不安全事件报告出发,提出了一种基于LDA主题模型和Word2Vec模型的民航不安全事件报告危险源识别模型。首先,构建危险源标签分类表,选取民航不安全事件报告与Wiki中文数据库作为数据源,然后利用... 为了识别民航不安全事件的发生原因,从民航不安全事件报告出发,提出了一种基于LDA主题模型和Word2Vec模型的民航不安全事件报告危险源识别模型。首先,构建危险源标签分类表,选取民航不安全事件报告与Wiki中文数据库作为数据源,然后利用LDA主题模型得出民航不安全事件报告的主题概率分布与词概率分布,最后利用Wiki中文数据库训练Word2Vec模型得到词向量,进而计算文档主题与不同危险源标签之间的相似度,得出民航不安全事件报告的危险源分类。结果表明,该模型的精准率为77.7%、召回率为86.8%、F为82.0%,能够有效识别各民航不安全事件报告的危险源。 展开更多
关键词 安全管理工程 民航不安全事件报告 危险源识别 LDA主题模型 word2vec模型 相似度
在线阅读 下载PDF
基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 被引量:11
17
作者 吴树芳 杨强 +1 位作者 侯晓舟 尹萌 《情报杂志》 CSSCI 北大核心 2023年第11期119-125,共7页
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提... [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。 展开更多
关键词 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 GuidedLDA word2vec
在线阅读 下载PDF
教师在线学习社区中会话主题发现及演化分析 被引量:9
18
作者 张瑾 张夷楠 +2 位作者 叶海智 朱珂 张思 《远程教育杂志》 CSSCI 北大核心 2021年第2期85-94,共10页
教师在参与网络研修过程中所产生的交互式文本数据,可成为分析教师学习状态、学习关注点、自身不足的重要依据。这些数据具有篇幅短小、价值呈隐性、价值密度低的特点,而经典的LDA主题模型更适用于篇章级文本的主题信息抽取,当应用于短... 教师在参与网络研修过程中所产生的交互式文本数据,可成为分析教师学习状态、学习关注点、自身不足的重要依据。这些数据具有篇幅短小、价值呈隐性、价值密度低的特点,而经典的LDA主题模型更适用于篇章级文本的主题信息抽取,当应用于短文本主题抽取时生成的主题信息并不准确。为了有效提取教师在线学习社区中的会话主题,首先,利用爬虫技术收集话题帖子作为实验数据;其次,使用Word2Vec词向量技术对数据帖子进行词向量建模,并采用K-means聚类方法将词向量进行聚类,以实现隐含主题信息抽取,再根据不同主题表达内容的分离程度,将主题归纳为六类;最后,通过采用会话主题演化的可视化方法,探索教师在参与会话讨论时主题的演化规律。基于会话主题分析结果,能够为学习社区管理者预测和干预教师学习状态,提供借鉴和参考。 展开更多
关键词 教师网络研修 MOOC word2vec K-MEANS 在线讨论 主题模型
在线阅读 下载PDF
改进的预训练模型JWT及其在情感分析中的应用 被引量:2
19
作者 费宏慧 《中国工程机械学报》 北大核心 2021年第3期212-216,共5页
深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的... 深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的局部上下文和全局上下文建模。局部上下文建模沿用word2vec的思想,全局上下文建模利用vMF分布。JWT将全局上下文视为主题,并将其作为中心词局部上下文的产生条件,能适应"方面-主题"类型的方面级情感分析应用场景。在3个数据集上评估了JWT模型学得的词相似性,在4种不同的情感分类器上研究了JWT在评论数据集SemEval ABSA上的情感分类性能。结果表明:JWT模型在所有的实验任务上均优于标准的skip-gram,并取得了与现有的基准模型(cvMF)和Joint skip-gram相媲美的效果。 展开更多
关键词 预训练模型 word2vec 词嵌入 全局上下文 情感分析
在线阅读 下载PDF
基于大数据的产品族本体造型意象挖掘方法研究 被引量:5
20
作者 王鹏 朱韦龙 《图学学报》 CSCD 北大核心 2021年第6期1051-1060,共10页
为提升产品造型意象成族的准确性,增强感性工学研究中意象词汇提取的规范性和知识重用性。首先从同族、泛族、异族的概念切入,对目标产品族的造型意象本体进行了定义;再借助word2vec工具和主成分分析法(PCA)分别完成了对产品族意象词汇... 为提升产品造型意象成族的准确性,增强感性工学研究中意象词汇提取的规范性和知识重用性。首先从同族、泛族、异族的概念切入,对目标产品族的造型意象本体进行了定义;再借助word2vec工具和主成分分析法(PCA)分别完成了对产品族意象词汇的关联性联想和降维提取,从而构建了意象词汇挖掘机制,通过此机制可以辅助设计师利用网络大数据资源更高效、准确地进行目标产品意象的挖掘,一定程度上解决了传统感性工学在意象挖掘方法中模糊性。最后结合意象词汇与造型特征的映射关系,利用Protege工具构建了产品族造型意象的本体模型,对目标产品的造型意象知识进行了逻辑化表征,为下一代产品继承并发展原产品族造型意象提供参考。以马自达MX-5车系的造型意象为例构建了本体模型,并进行了子代产品前脸的概念设计。 展开更多
关键词 产品族 本体模型 意象挖掘 word2vec 主成分分析法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部