期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向民族地区语言生活调研的甘肃新闻文本及新词语数据集
1
作者 朱登赟 黄锐 万福成 《中国科学数据(中英文网络版)》 2025年第3期557-568,共12页
本研究构建了甘肃省2013年至2022年网络媒体数据集,数据来源于临夏回族自治州和甘南藏族自治州的五个主要网络媒体平台,包括临夏州政府网、民族日报、中国临夏网、香巴拉在线和中国甘南网。本数据集覆盖了甘肃民族地区的社会、文化、语... 本研究构建了甘肃省2013年至2022年网络媒体数据集,数据来源于临夏回族自治州和甘南藏族自治州的五个主要网络媒体平台,包括临夏州政府网、民族日报、中国临夏网、香巴拉在线和中国甘南网。本数据集覆盖了甘肃民族地区的社会、文化、语言等多方面的内容,时间跨度长达十年,全部数据均为汉语新闻报道和评论。针对每年数据集进行了新词提取,分析提取出的新词在词频、词性、词数、凝聚度、自由度和新词概率等方面的特征。数据集的构建采取了严格的质量控制措施,包括人工校对、噪音过滤、去重处理和语言标注,确保数据的准确性和完整性。本数据集是研究民族地区语言使用、社会文化动态和双语教育发展等问题的重要基础数据,具备在政策分析、社会舆情监测及语言政策研究等领域的广泛应用价值。 展开更多
关键词 甘肃民族地区 网络媒体 语言生活调研 数据集 新词提取
在线阅读 下载PDF
一个面向广播语音识别的语言模型自适应框架
2
作者 王晓瑞 丁鹏 +1 位作者 梁家恩 徐波 《中文信息学报》 CSCD 北大核心 2007年第4期73-79,共7页
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一... 语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。 展开更多
关键词 计算机应用 中文信息处理 语言模型自适应 新词提取 开放式词典
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部