期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于TI-Rank的弹幕关键词提取方法
被引量:
3
1
作者
何梓源
张仰森
+1 位作者
吴云芳
亓文法
《计算机工程与设计》
北大核心
2022年第2期580-586,共7页
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数...
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。
展开更多
关键词
词频-逆文档频率
文本关键词
抽取
词频词义
关键词
提取
三级梯度评价标准
视频弹幕
在线阅读
下载PDF
职称材料
基于统计语言模型改进的Word2Vec优化策略研究
被引量:
14
2
作者
张克君
史泰猛
+1 位作者
李伟男
钱榕
《中文信息学报》
CSCD
北大核心
2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,...
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。
展开更多
关键词
词向量
统计语言模型
TFIDF
文本关键词
CBOW-TFIDF
在线阅读
下载PDF
职称材料
题名
基于TI-Rank的弹幕关键词提取方法
被引量:
3
1
作者
何梓源
张仰森
吴云芳
亓文法
机构
北京信息科技大学智能信息处理研究所
北京大学计算语言学研究所
北京大学王选计算机研究所
出处
《计算机工程与设计》
北大核心
2022年第2期580-586,共7页
基金
国家自然科学基金项目(61772081)
国家重点研发计划基金项目(2018YFB1403104)。
文摘
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。
关键词
词频-逆文档频率
文本关键词
抽取
词频词义
关键词
提取
三级梯度评价标准
视频弹幕
Keywords
TF-IDF
TextRank
TI-RANK
three-level gradient evaluation standard
video barrage
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于统计语言模型改进的Word2Vec优化策略研究
被引量:
14
2
作者
张克君
史泰猛
李伟男
钱榕
机构
北京电子科技学院
西安电子科技大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2019年第7期11-19,共9页
基金
国家重点研发计划(2018YFB1004101)
国家自然科学基金(61170037)
文摘
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。
关键词
词向量
统计语言模型
TFIDF
文本关键词
CBOW-TFIDF
Keywords
word vector
statistical language model
TFIDF
key words
CBOW-TFIDF
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于TI-Rank的弹幕关键词提取方法
何梓源
张仰森
吴云芳
亓文法
《计算机工程与设计》
北大核心
2022
3
在线阅读
下载PDF
职称材料
2
基于统计语言模型改进的Word2Vec优化策略研究
张克君
史泰猛
李伟男
钱榕
《中文信息学报》
CSCD
北大核心
2019
14
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部