随着大语言模型(large language models,LLMs)在医学诊断、科研与教育等领域的广泛应用,其卓越的生成与推理能力已显著展现优势。然而,医学领域对伦理、隐私保护及模型准确性的严格标准,也使LLMs的实际应用面临严峻挑战。尽管个体预后...随着大语言模型(large language models,LLMs)在医学诊断、科研与教育等领域的广泛应用,其卓越的生成与推理能力已显著展现优势。然而,医学领域对伦理、隐私保护及模型准确性的严格标准,也使LLMs的实际应用面临严峻挑战。尽管个体预后或诊断的多变量模型透明报告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+人工智能(artificial intelligence,AI)为预后或诊断预测模型提供了报告规范,但其在生成式人工智能研究中的适用性仍显不足。本文解读了在TRIPOD+AI基础上扩展形成的TRIPOD-LLM报告指南,系统梳理了其在模型构建、验证、任务适应性及人类监督等方面的报告要素,为提升医学领域LLMs研究的透明度、规范性与可复现性提供了参考。展开更多
文摘随着大语言模型(large language models,LLMs)在医学诊断、科研与教育等领域的广泛应用,其卓越的生成与推理能力已显著展现优势。然而,医学领域对伦理、隐私保护及模型准确性的严格标准,也使LLMs的实际应用面临严峻挑战。尽管个体预后或诊断的多变量模型透明报告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+人工智能(artificial intelligence,AI)为预后或诊断预测模型提供了报告规范,但其在生成式人工智能研究中的适用性仍显不足。本文解读了在TRIPOD+AI基础上扩展形成的TRIPOD-LLM报告指南,系统梳理了其在模型构建、验证、任务适应性及人类监督等方面的报告要素,为提升医学领域LLMs研究的透明度、规范性与可复现性提供了参考。