面向特定领域开展科技情报分析时,由于文献的集中与离散分布规律,难以有效构造全量文献集。那么多大规模的领域文献集是可靠的?这一问题在不同的情报分析任务场景下,有不同答案。本文综合考虑待分析领域大小、待分析对象(学科分类、国...面向特定领域开展科技情报分析时,由于文献的集中与离散分布规律,难以有效构造全量文献集。那么多大规模的领域文献集是可靠的?这一问题在不同的情报分析任务场景下,有不同答案。本文综合考虑待分析领域大小、待分析对象(学科分类、国家、机构、关键词、引文、作者,及其各自共现关系)、待分析对象的Top值截取(如高频词)数量、结果是否考虑排序等常见的多种任务场景,设计相应的实验方案。以“人工智能”领域WoS(Web of Science)数据为例,开展多种规模的数据抽样,并计算得出抽样子文献集对全量文献集的拟合指标值为4800个,以量化结果揭示科技情报分析中不同任务场景对文献集规模的要求。研究结果表明,涉及学科与国家分类的分析任务,以极小规模文献集便可得到较为可靠的结果;涉及作者的分析任务,对于文献集规模的要求极高,有必要采用全量数据;涉及机构、关键词、引文的分析任务,文献集达到一定规模可得到较为可靠的结果,但相应规模受不同因素的影响,尤其是共现分析、截取较多Top对象和结果要求排序这三种任务场景对文献集规模要求更高。展开更多
为了解决财经微博文本中网民情感状态转移的时序数据分析问题,本文提出一个基于认知情感评价模型(Ortony,Clore&Collins,OCC)和长短期记忆模型(long short term memory,LSTM)的财经微博文本情感分类模型(OCC-LSTM)。基于OCC模型从...为了解决财经微博文本中网民情感状态转移的时序数据分析问题,本文提出一个基于认知情感评价模型(Ortony,Clore&Collins,OCC)和长短期记忆模型(long short term memory,LSTM)的财经微博文本情感分类模型(OCC-LSTM)。基于OCC模型从网民认知角度建立情感规则,对财经微博文本进行情感标注,并作为LSTM模型进行深度学习的训练集;基于LSTM模型,使用深度学习中的TensorFlow框架和Keras模块建立相应的实验模型,进行海量微博数据情感分类,并结合13家上市公司3年的微博文本数据进行实证研究和模型验证对比。实证研究结果发现本文提出的模型取得了89.45%的准确率,高于采用传统的机器学习方式的支持向量机方法 (support vector machine,SVM)和基于深度学习的半监督RAE方法 (semi-supervised recursive auto encoder)。展开更多
文摘面向特定领域开展科技情报分析时,由于文献的集中与离散分布规律,难以有效构造全量文献集。那么多大规模的领域文献集是可靠的?这一问题在不同的情报分析任务场景下,有不同答案。本文综合考虑待分析领域大小、待分析对象(学科分类、国家、机构、关键词、引文、作者,及其各自共现关系)、待分析对象的Top值截取(如高频词)数量、结果是否考虑排序等常见的多种任务场景,设计相应的实验方案。以“人工智能”领域WoS(Web of Science)数据为例,开展多种规模的数据抽样,并计算得出抽样子文献集对全量文献集的拟合指标值为4800个,以量化结果揭示科技情报分析中不同任务场景对文献集规模的要求。研究结果表明,涉及学科与国家分类的分析任务,以极小规模文献集便可得到较为可靠的结果;涉及作者的分析任务,对于文献集规模的要求极高,有必要采用全量数据;涉及机构、关键词、引文的分析任务,文献集达到一定规模可得到较为可靠的结果,但相应规模受不同因素的影响,尤其是共现分析、截取较多Top对象和结果要求排序这三种任务场景对文献集规模要求更高。
文摘为了解决财经微博文本中网民情感状态转移的时序数据分析问题,本文提出一个基于认知情感评价模型(Ortony,Clore&Collins,OCC)和长短期记忆模型(long short term memory,LSTM)的财经微博文本情感分类模型(OCC-LSTM)。基于OCC模型从网民认知角度建立情感规则,对财经微博文本进行情感标注,并作为LSTM模型进行深度学习的训练集;基于LSTM模型,使用深度学习中的TensorFlow框架和Keras模块建立相应的实验模型,进行海量微博数据情感分类,并结合13家上市公司3年的微博文本数据进行实证研究和模型验证对比。实证研究结果发现本文提出的模型取得了89.45%的准确率,高于采用传统的机器学习方式的支持向量机方法 (support vector machine,SVM)和基于深度学习的半监督RAE方法 (semi-supervised recursive auto encoder)。