期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向民族地区语言生活调研的甘肃新闻文本及新词语数据集
1
作者
朱登赟
黄锐
万福成
《中国科学数据(中英文网络版)》
2025年第3期557-568,共12页
本研究构建了甘肃省2013年至2022年网络媒体数据集,数据来源于临夏回族自治州和甘南藏族自治州的五个主要网络媒体平台,包括临夏州政府网、民族日报、中国临夏网、香巴拉在线和中国甘南网。本数据集覆盖了甘肃民族地区的社会、文化、语...
本研究构建了甘肃省2013年至2022年网络媒体数据集,数据来源于临夏回族自治州和甘南藏族自治州的五个主要网络媒体平台,包括临夏州政府网、民族日报、中国临夏网、香巴拉在线和中国甘南网。本数据集覆盖了甘肃民族地区的社会、文化、语言等多方面的内容,时间跨度长达十年,全部数据均为汉语新闻报道和评论。针对每年数据集进行了新词提取,分析提取出的新词在词频、词性、词数、凝聚度、自由度和新词概率等方面的特征。数据集的构建采取了严格的质量控制措施,包括人工校对、噪音过滤、去重处理和语言标注,确保数据的准确性和完整性。本数据集是研究民族地区语言使用、社会文化动态和双语教育发展等问题的重要基础数据,具备在政策分析、社会舆情监测及语言政策研究等领域的广泛应用价值。
展开更多
关键词
甘肃民族地区
网络媒体
语言生活调研
数据集
新词提取
在线阅读
下载PDF
职称材料
一个面向广播语音识别的语言模型自适应框架
2
作者
王晓瑞
丁鹏
+1 位作者
梁家恩
徐波
《中文信息学报》
CSCD
北大核心
2007年第4期73-79,共7页
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一...
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。
展开更多
关键词
计算机应用
中文信息处理
语言模型自适应
新词提取
开放式词典
在线阅读
下载PDF
职称材料
题名
面向民族地区语言生活调研的甘肃新闻文本及新词语数据集
1
作者
朱登赟
黄锐
万福成
机构
兰州城市学院文史学院
西北民族大学
西北民族大学
出处
《中国科学数据(中英文网络版)》
2025年第3期557-568,共12页
基金
甘肃省基础研究创新群体项目(24JRRA154)
甘肃省陇原青年英才项目(z25142)。
文摘
本研究构建了甘肃省2013年至2022年网络媒体数据集,数据来源于临夏回族自治州和甘南藏族自治州的五个主要网络媒体平台,包括临夏州政府网、民族日报、中国临夏网、香巴拉在线和中国甘南网。本数据集覆盖了甘肃民族地区的社会、文化、语言等多方面的内容,时间跨度长达十年,全部数据均为汉语新闻报道和评论。针对每年数据集进行了新词提取,分析提取出的新词在词频、词性、词数、凝聚度、自由度和新词概率等方面的特征。数据集的构建采取了严格的质量控制措施,包括人工校对、噪音过滤、去重处理和语言标注,确保数据的准确性和完整性。本数据集是研究民族地区语言使用、社会文化动态和双语教育发展等问题的重要基础数据,具备在政策分析、社会舆情监测及语言政策研究等领域的广泛应用价值。
关键词
甘肃民族地区
网络媒体
语言生活调研
数据集
新词提取
Keywords
Gansu ethnic areas
online media
language life research
dataset
neologism extraction
分类号
H136 [语言文字—汉语]
H2 [语言文字—少数民族语言]
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一个面向广播语音识别的语言模型自适应框架
2
作者
王晓瑞
丁鹏
梁家恩
徐波
机构
中国科学院自动化研究所模式识别国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2007年第4期73-79,共7页
基金
国家863计划资助项目(2006AA010103)
文摘
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。
关键词
计算机应用
中文信息处理
语言模型自适应
新词提取
开放式词典
Keywords
computer application
chinese information processing
language model adaptation
new words extraction
open-vocabulary LM
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向民族地区语言生活调研的甘肃新闻文本及新词语数据集
朱登赟
黄锐
万福成
《中国科学数据(中英文网络版)》
2025
0
在线阅读
下载PDF
职称材料
2
一个面向广播语音识别的语言模型自适应框架
王晓瑞
丁鹏
梁家恩
徐波
《中文信息学报》
CSCD
北大核心
2007
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部