理解蛋白质的生物学功能是定量合成生物学成功的前提。然而,除了少数模式生物外,大多数生物中有许多蛋白质的功能尚未通过实验进行解析。因此,开发自动、准确的蛋白质功能预测算法尤为重要。近年来,以深度学习为代表的人工智能算法成为...理解蛋白质的生物学功能是定量合成生物学成功的前提。然而,除了少数模式生物外,大多数生物中有许多蛋白质的功能尚未通过实验进行解析。因此,开发自动、准确的蛋白质功能预测算法尤为重要。近年来,以深度学习为代表的人工智能算法成为蛋白质生物信息学发展的主流。在蛋白质功能预测领域,深度学习尤为显著。例如,在最近几届国际蛋白质功能预测大赛(Critical Assessment of Function Annotation,CAFA)中,排名靠前的算法使用深度学习模型(主要是大语言模型)实现基于文本数据挖掘的蛋白质功能预测。具体而言,这些方法或直接利用从科学文献中提取的文本特征来预测基因本体(Gene Ontology,GO),或通过具有相似文献的模板蛋白质来预测GO。尽管在开发更强大的深度学习模型用于基于文本挖掘的蛋白质功能注释方面已有大量研究,基于文本挖掘的蛋白质功能预测算法在处理科学文献数据时仍存在一些长期被忽视的问题。本文首先回顾了蛋白质功能注释中现有的方法和挑战:第一,大多数基于文本挖掘的蛋白质功能预测器仅使用由UniProt数据库管理员为目标蛋白手工收集的PubMed摘要,忽略了尚未被UniProt收录的文献;第二,几乎所有方法都只处理摘要,而忽略了PubMed Central和Europe PMC等数据库中可获得的更详尽的全文文献;第三,鲜有研究工作能自动区分低通量实验、高通量研究和计算预测等不同类别的科研文献,这大大增加了基于文本进行功能注释的难度。此外,本文还提出了利用人工智能最新发展的有前景的方法,以改进基于文本挖掘的蛋白质功能注释。这有助于开发下一代文本挖掘工具,针对性攻克文本数据处理的现有困难,以实现更准确的功能注释。展开更多
[目的/意义]揭示中国和美国“人工智能+教育”研究的话题异同对于促进我国人工智能教育发展具有重要意义。[方法/过程]以Web of Science数据库中人工智能教育的相关文献为分析对象,采用结构话题模型分析方法,对话题结构、话题内容以及...[目的/意义]揭示中国和美国“人工智能+教育”研究的话题异同对于促进我国人工智能教育发展具有重要意义。[方法/过程]以Web of Science数据库中人工智能教育的相关文献为分析对象,采用结构话题模型分析方法,对话题结构、话题内容以及话题时序变化等进行了模型估计和比较分析。[结果/结论]研究结果发现,中美“人工智能+教育”研究涵盖了15个主要话题。美国研究者倾向于机器学习、教育机器人以及智能知识管理系统等11个智能技术性话题,中国研究者关注教育游戏、教学代理和智能医疗等4个教学性话题。他们在同一话题的预期比例和话题关键词内容等方面存在着显著差异,大部分研究话题的时序发展强度各异。基于结构话题模型的文献分析,不仅揭示了两国在话题数量、内容偏好以及强度时序发展等方面的异同,而且为我国人工智能教育的基础性研究、研究体系创建、建立健全研发机制等建议的提出提供了依据。展开更多
文摘理解蛋白质的生物学功能是定量合成生物学成功的前提。然而,除了少数模式生物外,大多数生物中有许多蛋白质的功能尚未通过实验进行解析。因此,开发自动、准确的蛋白质功能预测算法尤为重要。近年来,以深度学习为代表的人工智能算法成为蛋白质生物信息学发展的主流。在蛋白质功能预测领域,深度学习尤为显著。例如,在最近几届国际蛋白质功能预测大赛(Critical Assessment of Function Annotation,CAFA)中,排名靠前的算法使用深度学习模型(主要是大语言模型)实现基于文本数据挖掘的蛋白质功能预测。具体而言,这些方法或直接利用从科学文献中提取的文本特征来预测基因本体(Gene Ontology,GO),或通过具有相似文献的模板蛋白质来预测GO。尽管在开发更强大的深度学习模型用于基于文本挖掘的蛋白质功能注释方面已有大量研究,基于文本挖掘的蛋白质功能预测算法在处理科学文献数据时仍存在一些长期被忽视的问题。本文首先回顾了蛋白质功能注释中现有的方法和挑战:第一,大多数基于文本挖掘的蛋白质功能预测器仅使用由UniProt数据库管理员为目标蛋白手工收集的PubMed摘要,忽略了尚未被UniProt收录的文献;第二,几乎所有方法都只处理摘要,而忽略了PubMed Central和Europe PMC等数据库中可获得的更详尽的全文文献;第三,鲜有研究工作能自动区分低通量实验、高通量研究和计算预测等不同类别的科研文献,这大大增加了基于文本进行功能注释的难度。此外,本文还提出了利用人工智能最新发展的有前景的方法,以改进基于文本挖掘的蛋白质功能注释。这有助于开发下一代文本挖掘工具,针对性攻克文本数据处理的现有困难,以实现更准确的功能注释。
文摘[目的/意义]揭示中国和美国“人工智能+教育”研究的话题异同对于促进我国人工智能教育发展具有重要意义。[方法/过程]以Web of Science数据库中人工智能教育的相关文献为分析对象,采用结构话题模型分析方法,对话题结构、话题内容以及话题时序变化等进行了模型估计和比较分析。[结果/结论]研究结果发现,中美“人工智能+教育”研究涵盖了15个主要话题。美国研究者倾向于机器学习、教育机器人以及智能知识管理系统等11个智能技术性话题,中国研究者关注教育游戏、教学代理和智能医疗等4个教学性话题。他们在同一话题的预期比例和话题关键词内容等方面存在着显著差异,大部分研究话题的时序发展强度各异。基于结构话题模型的文献分析,不仅揭示了两国在话题数量、内容偏好以及强度时序发展等方面的异同,而且为我国人工智能教育的基础性研究、研究体系创建、建立健全研发机制等建议的提出提供了依据。