-
题名面向语料库机助辞书编纂系统的设计与实现
被引量:2
- 1
-
-
作者
张永伟
顾曰国
胡钦谙
曹新龙
-
机构
中国社会科学院语言研究所/辞书编纂研究中心
中国多语言多模态语料库暨大数据研究中心
-
出处
《辞书研究》
2021年第4期32-44,I0002,共14页
-
基金
国家语委“十三五”科研规划2020年度一般(委托)项目“辅助语文辞书编纂的人工智能关键技术研究”(项目编号WT135-69)
国家社科基金项目“基于《现代汉语词典》的词汇计量研究”(项目编号20BYY170)
中国社会科学院辞书编纂研究中心项目“面向语料库机助辞书编纂系统:V1.0版本升级V2.0”阶段性成果。
-
文摘
“面向语料库机助辞书编纂系统”由中国社会科学院语言所和中国多语言多模态语料库暨大数据研究中心研发,是一个可以充分地利用各种语料库、辞书库和其他相关资源库辅助汉语辞书编纂的平台。文章介绍了该系统的研发背景、目标、系统设计与实现。此外,对系统的技术选型也进行了简单介绍,为辞书编纂或相关系统的研制提供借鉴。
-
关键词
辞书编纂系统
语料库
设计与实现
-
Keywords
dictionary compilation system
corpus
design and implementation
-
分类号
H31
[语言文字—英语]
-
-
题名面向语文辞书编纂的神经网络语料库检索研究
- 2
-
-
作者
胡钦谙
-
机构
中国社会科学院语言研究所/辞书编纂研究中心
-
出处
《辞书研究》
2023年第1期36-45,I0002,共11页
-
基金
国家语委“十三五”科研规划2020年度一般(委托)项目“辅助语文辞书编纂的人工智能关键技术研究”(项目编号WT135-69)的研究成果之一。
-
文摘
语料库检索已成为语文辞书编纂过程中不可或缺的一个步骤。现有的语料库检索系统通常先返回句子列表,然后由人工进行筛选。然而,随着语料库规模不断扩大,海量检索结果与用户有限的语料消化能力之间的矛盾已成为辞书编纂过程中的痛点之一。文章注意到,辞书编纂人员在检索语料库时,实际上更为关注的是检索词出现的语境(或称上下文)。语境具有相对稳定的语言学规律,语料库中往往存在着大量符合同一语言规律的语境。这种同质的语境对辞书编纂提供的价值相对有限,单纯依靠增加语料数量对辞书编纂的贡献已呈现出边际效益递减的现象。因此,文章尝试以海量检索结果中的同质语境为突破口,通过人工智能中的注意力机制、上下文相关词向量以及预训练语言模型等技术,以可视化及可交互的形式为辞书编纂人员展现检索结果分布的概貌,批量处理同质的语境,以提升辞书编纂的效率。
-
关键词
语料库检索
语境
语义
上下文相关词向量
注意力机制
-
Keywords
corpus retrieval
contexts
semantics
contextual word embeddings
attentions
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
H16
[语言文字—汉语]
-