-
题名基于NLP的文本相似度检测方法
被引量:13
- 1
-
-
作者
代晓丽
刘世峰
宫大庆
-
机构
北京交通大学经济管理学院
北京信通传媒有限责任公司
-
出处
《通信学报》
EI
CSCD
北大核心
2021年第10期173-181,共9页
-
基金
国家自然科学基金资助项目(No.J1824031)。
-
文摘
针对当前的文本相似度检测方法忽略文档结构信息、缺乏语义关联性的问题,提出了面向文本的相似度检测方法。首先,采用层次分析法(AHP)计算词语位置权重以提取特征词。其次,引入Pearson相关系数度量词语间的语义关联,并将其作为广义Dice系数的权重计算相似度。实验表明,所提方法在提高特征词提取的精确度、相似度计算结果的准确率方面表现良好。
-
关键词
文本相似度
词语位置权重
层次分析法
特征词提取
Pearson相关系数
-
Keywords
text similarity
word position weight
analytic hierarchy process
feature word extraction
Pearson correlation coefficient
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据时代的数据出版
被引量:9
- 2
-
-
作者
吴娜达
叶雅珍
朱扬勇
-
机构
北京信通传媒有限责任公司学术出版中心
东华大学计算机科学与技术学院
复旦大学计算机科学技术学院
-
出处
《编辑之友》
CSSCI
北大核心
2020年第11期31-38,共8页
-
文摘
数据出版早期是指科学数据出版,后来一些学者把政府数据公开也纳入数据出版,其目的是将数据放置在公共数据库或网站公开实现数据开放共享。这种出版模式弊端在于权益宣示作用没有发挥出来,尚无法律约束,如科学数据出版和引用就只是科学家的自律行为。大数据时代,数据作为数字经济的关键要素参与分配,数据的商业价值凸显。从这一角度出发,数据出版更大作用应是一种数据所有权的宣示。因此,亟需设计一套符合法律规范、具备法律效应的数据出版体系。文章分析了当前科学数据出版的局限性,重点讨论为什么要数据出版、什么数据可以出版和什么数据需要出版等问题,提出一个数据出版可行方法。
-
关键词
数据出版
数据开放
科学数据
大数据
-
Keywords
data publishing
open data
scientific data
big data
-
分类号
G203
[文化科学—传播学]
-
-
题名6G的价值展望和技术特征
被引量:1
- 3
-
-
作者
牛晓敏
-
机构
北京信通传媒有限责任公司
-
出处
《电信科学》
2019年第12期137-141,共5页
-
文摘
首先结合5G的价值认知,对6G进行了价值展望,并从覆盖性、开放性、安全性、自生性4个方面做了6G的技术特征分析。得出结论,如果把6G作为移动互联网下半场的所有技术创新和模式创新产生的基础,并且始终将持续提升用户对应用和内容的体验作为第一优先级目标,那么6G将比5G多出远远不止"1G"。
-
关键词
6G价值
技术特征
移动互联网
-
Keywords
5G/6G value
technical features
mobile internet
-
分类号
TN929.5
[电子电信—通信与信息系统]
-