近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucinati...近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucination)问题引起了学术界和工业界的广泛关注。如何有效检测大语言模型幻觉,成为确保其在文本生成等下游任务可靠、安全、可信应用的关键挑战。该研究着重对大语言模型幻觉检测方法进行综述:首先,介绍了大语言模型概念,进一步明确了幻觉的定义与分类,系统梳理了大语言模型从构建到部署应用全生命周期各环节的特点,并深入分析了幻觉的产生机制与诱因;其次,立足于实际应用需求,考虑到在不同任务场景下模型透明度的差异等因素,将幻觉检测方法划分为针对白盒模型和黑盒模型2类,并进行了重点梳理和深入对比;而后,分析总结了现阶段主流的幻觉检测基准,为后续开展幻觉检测奠定基础;最后,指出了大语言模型幻觉检测的各种潜在研究方法和新的挑战。展开更多
物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存...物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存在误用、混乱甚至是缺失的情况,特别是在鱼类中,约20%的物种缺少中文名,严重制约了生物多样性认知、跨语言交流、科学传播和数据共享与利用等。为应对这一问题,本研究整合《拉汉世界鱼类系统名典》等多个权威数据源,构建了60564条高质量拉丁学名与中文名双语平行语料库。基于多语言大模型mT5(multilingual text-to-text transfer transformer,包含small、base、large三种参数规模),引入对偶学习框架与命名规则约束,实现鱼类中文名的自动生成与校正。结果显示,微调后的mT5-large模型在独立测试集上获得的BLEURT和COMET的对偶译质评分分别为0.90和0.93,较DeepSeek-R1等通用大语言模型提升38%~159%,并将低频属名与新描述种名的翻译错误率降低25%~80%。所有生成的鱼类中文名均由分类学专家逐条审定,以确保命名的科学性和规范性。本研究首次系统性地补全了全球鱼类的中文名系统,打通了物种学名与俗名之间的信息壁垒;并开发配套微信小程序面向所有用户开放,实时更新种名信息和分类变动。研究方法为其他生物类群的多语言俗名翻译提供了可复制、可推广的技术范式,助力全球生物多样性与文化多样性保护实践。展开更多
文摘近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucination)问题引起了学术界和工业界的广泛关注。如何有效检测大语言模型幻觉,成为确保其在文本生成等下游任务可靠、安全、可信应用的关键挑战。该研究着重对大语言模型幻觉检测方法进行综述:首先,介绍了大语言模型概念,进一步明确了幻觉的定义与分类,系统梳理了大语言模型从构建到部署应用全生命周期各环节的特点,并深入分析了幻觉的产生机制与诱因;其次,立足于实际应用需求,考虑到在不同任务场景下模型透明度的差异等因素,将幻觉检测方法划分为针对白盒模型和黑盒模型2类,并进行了重点梳理和深入对比;而后,分析总结了现阶段主流的幻觉检测基准,为后续开展幻觉检测奠定基础;最后,指出了大语言模型幻觉检测的各种潜在研究方法和新的挑战。
文摘物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存在误用、混乱甚至是缺失的情况,特别是在鱼类中,约20%的物种缺少中文名,严重制约了生物多样性认知、跨语言交流、科学传播和数据共享与利用等。为应对这一问题,本研究整合《拉汉世界鱼类系统名典》等多个权威数据源,构建了60564条高质量拉丁学名与中文名双语平行语料库。基于多语言大模型mT5(multilingual text-to-text transfer transformer,包含small、base、large三种参数规模),引入对偶学习框架与命名规则约束,实现鱼类中文名的自动生成与校正。结果显示,微调后的mT5-large模型在独立测试集上获得的BLEURT和COMET的对偶译质评分分别为0.90和0.93,较DeepSeek-R1等通用大语言模型提升38%~159%,并将低频属名与新描述种名的翻译错误率降低25%~80%。所有生成的鱼类中文名均由分类学专家逐条审定,以确保命名的科学性和规范性。本研究首次系统性地补全了全球鱼类的中文名系统,打通了物种学名与俗名之间的信息壁垒;并开发配套微信小程序面向所有用户开放,实时更新种名信息和分类变动。研究方法为其他生物类群的多语言俗名翻译提供了可复制、可推广的技术范式,助力全球生物多样性与文化多样性保护实践。