-
题名面向中文科学数据集的句子级语义匹配模型
- 1
-
-
作者
刘建平
初新涛
王健
顾勋勋
王萌
王影菲
-
机构
北方民族大学计算机科学与工程学院
北方民族大学图像图形智能处理国家民委重点实验室
中国农业科学院农业信息研究所
-
出处
《郑州大学学报(工学版)》
CAS
北大核心
2024年第6期56-64,共9页
-
基金
宁夏回族自治区重点研发计划(2022BSB03044)
宁夏回族自治区自然科学基金资助项目(2021AAC03205)
北方民族大学科研启动金项目(2020KYQD37)。
-
文摘
针对现有以词为粒度的语义匹配模型难以理解句子级科学数据集元数据的问题,提出了一个面向中文科学数据集的句子级语义匹配(CSDSM)模型。该模型使用CSL数据集对SimCSE和CoSENT进行训练生成CoSENT预训练模型。基于CoSENT模型,引入多头自注意力机制进行特征提取,通过余弦相似度与KNN分类结果加权求和得到最终输出。以国家地球系统科学数据中心开放的语义元数据信息作为自建科学数据集进行实验,实验结果表明:与中文BERT模型相比,所提模型在公共数据集AFQMC、LCQMC、Chinese-STS-B和PAWS-X上的Spearman指标ρ分别提升了0.0448,0.0290,0.1777和0.0509;在自建科学数据集上的F 1和Acc分别提升了0.0788和0.0634,所提模型能够有效地解决科学数据集句子级语义匹配问题。
-
关键词
文本匹配
语义匹配
预训练模型
科学数据集
自然语言处理
-
Keywords
text matching
semantic matching
pre-training model
scientific datasets
natural language processing
-
分类号
TP3-05
[自动化与计算机技术—计算机科学与技术]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名《数据论文出版元数据》国家标准研制与实践
被引量:4
- 2
-
-
作者
高瑜蔚
朱艳华
胡良霖
孔丽华
赵欢
-
机构
中国科学院计算机网络信息中心
首都师范大学中国语言智能中心
国家基础学科公共科学数据中心
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第1期69-78,共10页
-
文摘
2023年8月,《GB/T 42813-2023数据论文出版元数据》国家标准正式发布,该标准规定了数据论文出版元数据的内容与结构,包括数据集元数据、数据论文元数据及其描述方法、扩展原则与方法。适用于数据论文及其关联数据集的描述、保存、在线出版和共享服务等。该标准的发布标志着首次从国家层面对数据论文出版这一科学数据开放共享新模式进行了总体约定,解决了数据出版领域缺少标准规范指导的问题。有助于数据出版机构快速地发布数据论文和关联数据,为科学数据确权、产权保护提供支撑,对于推动科学数据开放共享生态建设具有重要意义。自标准发布以后,一些数据期刊或科学数据出版平台开始使用标准规定的元素与定义,开展较为广泛的实践。
-
关键词
开放科学
数据论文
科学数据出版
元数据
标准规范
科学数据集
-
Keywords
open science
data paper
scientific data publication
metadata
standard
scientific dataset
-
分类号
H152.3
[语言文字—汉语]
F203
[经济管理—国民经济]
-
-
题名HDF4文件访问中间件的设计与实现
被引量:2
- 3
-
-
作者
沈夏炯
马瑞
韩道军
周兵
-
机构
河南大学计算机与信息工程学院
河南大学数据与知识工程研究所
图像处理与模式识别研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第3期278-282,286,共6页
-
基金
国家自然科学基金资助项目(61272545)
河南省科技厅科技攻关计划基金资助项目(142102210390)
河南省教育厅自然科学基金资助项目(13B520918)
-
文摘
HDF4文件常用于中分辨率成像光谱仪(MODIS)产品数据的存储,可存储多种类型的数据,但是文件数据结构复杂。目前,HDF GROUP开发的操作HDF4文件的函数库只可用于Fortran语言和C语言,其他编程语言缺少比较系统读写HDF4文件的方法。Arc GIS虽支持大部分栅格数据格式,但不支持多数据集层次式存储的HDF数据格式。为此,设计基于C#语言操作的HDF4文件中间件,解决Arc GIS无法创建多数据集HDF4文件等问题,并给出中间件的核心思想和具体应用实例。将该中间件应用于环保部生态环境遥感产品生产分系统项目中,结果表明,在处理MODIS产品数据时,解决了C#语言无法创建多数据集HDF4文件等问题,验证了该中间件的实用性。
-
关键词
分层数据格式
科学数据集
中间件
中分辨率成像光谱仪
栅格数据
C#语言
-
Keywords
Hierarchical Data Format(HDF)
scientific dataset
middleware
Moderate-resolution Imaging Spectroradiometer(MODIS)
raster data
C#language
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-