-
题名多任务增强的文本生成式事件要素抽取方法
- 1
-
-
作者
史张龙
周喜
王震
马博
杨雅婷
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆民族语音语言信息处理重点实验室
-
出处
《计算机工程与应用》
北大核心
2025年第9期168-176,共9页
-
文摘
事件要素抽取旨在从非结构化文本中抽取结构化的事件数据,为下游任务提供结构化输入。近年来,许多研究采用预训练语言模型加提示学习的方式实现事件要素抽取,以模板槽位填空的形式完成该任务。然而,以往的研究主要采用单模板单任务的方法,但单一模板难以很好地捕捉事件要素实体间的结构依赖关系,其设计质量会影响最终的抽取结果;并且忽视了在进行多任务学习时,相似任务之间的促进作用。因此,设计了一种基于多任务增强的文本生成式事件要素抽取方法。具体地,分别构建了多模板指令增强任务模块与跨任务协同增强任务模块,以生成式模型作为共享主干网络,多种任务统一训练实现知识高效共享。该方法通过不同模板的指令增强,加强额外语义约束,提高了模型对指令的理解能力,通过跨任务的协同增强,使模型通过不同任务的互相监督,提高了模型对事件文本的理解分析能力。在ACE05数据集和RAMS数据集上的全样本实验中,该方法的Arg-C值分别达到了74.1%和52.4%,达到了最优水平。同时具有优异的少样本性能,在少样本场景下实验,仅需一半的数据量就可以达到阅读理解方法的抽取效果。
-
关键词
事件要素抽取
信息抽取
提示学习
多任务学习
自然语言处理
-
Keywords
event argument extraction
information extraction
prompt learning
multi-task learning
natural language processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名关系型数据的知识抽取和RDF转换框架及实现
被引量:12
- 2
-
-
作者
张永威
张岩
唐新余
王蒙
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆民族语音语言信息处理重点实验室
江苏中科西北星信息科技有限公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第17期213-223,共11页
-
基金
无锡市产业前瞻与关键技术研发资助项目(G20202018)。
-
文摘
关系数据库是行业中广泛使用的数据存储和管理方案,根据自定义的本体模型从关系型数据中进行知识抽取并转换成RDF是构建行业知识图谱的关键步骤。但是当前关系数据的知识抽取方案,需要进行大量的查询语句和映射的编辑工作,映射语句编码的工作量和映射的维护是关系型数据的知识抽取的主要障碍。针对以上问题提出一种能够自动解析关系数据和本体模型并生成对应关系,支持可视化调整和修正的关系型知识抽取转换框架。该框架简化了映射编辑和维护工作,提供了更自动化和简单易用的关系型数据的知识抽取的解决方案。最后应用该框架进行知识图谱的构建的实验表明,该框架能够较为高效地对关系数据进行知识抽取并转换成RDF。
-
关键词
知识图谱
知识抽取
关系型数据
RDB2RDF
本体模型
-
Keywords
knowledge graph
knowledge extraction
relational data
RDB2RDF
ontology model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词向量的维吾尔语词项归一化方法
被引量:5
- 3
-
-
作者
罗延根
李晓
蒋同海
杨雅婷
周喜
王磊
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆民族语音语言信息处理重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期220-225,共6页
-
基金
新疆维吾尔自治区青年科技创新人才培养工程项目(2014711006
2014721032)
+2 种基金
新疆维吾尔自治区高技术研究与发展项目(201412101)
新疆维吾尔自治区重点实验室开放课题"基于黏着语形态特征的维汉机器翻译最大熵调序研究"(2015KL031)
新疆维吾尔自治区重大科技专项课题"维汉机器翻译平台"(2016A03007-2)
-
文摘
使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。
-
关键词
维吾尔语口语文本
非正规词
归一化
神经网络
重采样
-
Keywords
Uyghur spoken text
unformal word
normalization
neural network
resample
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义元数据的医养数据融合研究与实现
被引量:4
- 4
-
-
作者
季文飞
蒋同海
王蒙
唐新余
陈光
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆民族语音语言信息处理重点实验室
江苏中科西北星信息科技有限公司
-
出处
《计算机应用与软件》
北大核心
2020年第5期38-43,共6页
-
基金
中科院西部之光人机物多维时空数据可视分析技术研究项目(2016-QNXZ-A-3)
无锡市社会发展科技示范工程项目(CSE12N1608)。
-
文摘
传统的数据融合系统在进行医养数据融合时由于缺乏灵活性和扩展性,存在无法有效解决数据模型不统一、数据质量较差、无法进行统一可视化和数据访问等问题。针对以上问题,基于五元组表示的语义元数据,对数据模型、清洗和融合规则、数据可视化和访问进行建模和描述,研究并实现了医养数据融合系统,提供基于五元组描述的统一数据建模模型、数据清洗融合模型、数据可视化和访问模型。应用案例和实验结果表明,采用该系统能够动态进行建模和规则定制,满足区域医养数据融合对灵活性和扩展性的要求,同时满足对一定数据量下的处理响应时间的要求。
-
关键词
智慧养老
医养融合
数据融合
数据可视化
语义元数据
-
Keywords
Intelligent pension
Integration of medical and pension
Data fusion
Data visualization
Semantic metadata
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-