期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于Web的大规模语料库构建方法 被引量:8
1
作者 李培峰 朱巧明 钱培德 《计算机工程》 CAS CSCD 北大核心 2008年第7期41-43,46,共4页
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境... 低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。 展开更多
关键词 大规模语料库 网格 可信度
在线阅读 下载PDF
大规模语料库可用性评测方法 被引量:1
2
作者 李艳红 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第16期134-137,共4页
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语... 提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。 展开更多
关键词 大规模语料库 可用性评价 层次分析法 模糊综合评价
在线阅读 下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
3
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 大规模语料库
在线阅读 下载PDF
一种基于双向LSTM的联合学习的中文分词方法 被引量:10
4
作者 章登义 胡思 徐爱萍 《计算机应用研究》 CSCD 北大核心 2019年第10期2920-2924,共5页
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句... 针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。 展开更多
关键词 中文分词 大规模语料库 联合学习 双向长短时记忆模型
在线阅读 下载PDF
维吾尔文网络查询扩展词的构建研究 被引量:3
5
作者 年梅 张兰芳 《计算机工程》 CAS CSCD 北大核心 2015年第4期187-189,194,共4页
为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近义词词典和反义词词典等建立基本候选词库,将互联网作为超大规模语料库,以搜索引擎为工具,使用改进的点互... 为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近义词词典和反义词词典等建立基本候选词库,将互联网作为超大规模语料库,以搜索引擎为工具,使用改进的点互信息对基本扩展词进行相似度评价,选取前N个词形成候选扩展词库1,对包含关键词的互联网语料,基于局部共现和点互信息分析,构建候选扩展词库2,对上述2种候选扩展词库加权求和,按顺序选择部分词为扩展词。通过搜索引擎实现扩展查询验证,结果表明,与常规查询和同义词查询扩展算法相比,该算法能明显提高查询的准确率。 展开更多
关键词 查询扩展 局部共现分析 点互信息算法 扩展词 大规模语料库
在线阅读 下载PDF
规则与统计相结合的分词一致性检验 被引量:7
6
作者 刘博 郑家恒 张虎 《计算机工程与设计》 CSCD 北大核心 2008年第7期1814-1816,1827,共4页
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处... 建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量。 展开更多
关键词 中文信息处理 大规模语料库 分词一致性检验 分词 语料库加工
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
7
《计算机工程与应用》 CSCD 北大核心 2023年第9期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
8
《计算机工程与应用》 CSCD 北大核心 2023年第8期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
9
《计算机工程与应用》 CSCD 北大核心 2023年第11期F0002-F0002,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
10
《计算机工程与应用》 CSCD 北大核心 2023年第12期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
11
《计算机工程与应用》 CSCD 北大核心 2023年第13期F0003-F0003,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
12
《计算机工程与应用》 CSCD 北大核心 2023年第10期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
13
《计算机工程与应用》 CSCD 北大核心 2023年第7期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。大语言模型与知识图谱之间存在着密切的联系和互补性。当前大语言模型在数据真实性、可解释性、可扩展性等方面存在一定的局限性。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 可解释性 大规模语料库 自动学习
在线阅读 下载PDF
“大语言模型与知识图谱”专题征文通知
14
《计算机科学与探索》 CSCD 北大核心 2023年第4期I0002-I0002,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 大规模语料库 自动学习 知识图谱
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部