In developing and using measures of Language abilities, the most important consideration is the use of a language test, so that the most important quality of a test is its usefulness. A model of test usefulness is reg...In developing and using measures of Language abilities, the most important consideration is the use of a language test, so that the most important quality of a test is its usefulness. A model of test usefulness is regarded as the essential basis for quality control throughout the entire test development process. A model of test usefulness includes following qualities--validity, reliability, discrimination and backwash effects.展开更多
A test flow description language is designed for the description of test flow.The design concept,composition,program structure and syntax structure of statement are presented.The development and impletementation proce...A test flow description language is designed for the description of test flow.The design concept,composition,program structure and syntax structure of statement are presented.The development and impletementation processes of the language are also described.This language is independent of hardware,which can be used for different platforms,and can be extended.The language is used to describe the test flow easily.It simplifies the development process of test software and reduces the difficulty of software maintenance greatly.展开更多
单元测试用于检验软件单一模块的功能是否正确,是软件开发过程中的重要步骤,可以及时发现代码中的缺陷,提升软件的质量和可信度.由于手动编写单元测试费时费力,经常遗漏覆盖重要的代码逻辑.为此,研究者提出单元测试用例自动生成技术.近...单元测试用于检验软件单一模块的功能是否正确,是软件开发过程中的重要步骤,可以及时发现代码中的缺陷,提升软件的质量和可信度.由于手动编写单元测试费时费力,经常遗漏覆盖重要的代码逻辑.为此,研究者提出单元测试用例自动生成技术.近来,预训练大语言模型(large language models,LLM)已经广泛应用于代码生成相关任务.然而,当前在重要的系统级编程语言C上,还没有相关工作.为了填补这一空白,本文面向C程序设计并实现了基于LLM的单元测试用例生成方法LLM4CUTCG.该方法结合LLM多智能体交互和程序分析技术,客服了LLM内在问题.为了验证方法效果,收集了125个C语言目标程序,并针对这些程序生成测试用例.实验结果表明,LLM4CUTCG生成的测试行覆盖率为91.71%,测试预言正确率为50.05%.其覆盖率优于传统方法符号执行.展开更多
题目自动生成(Automatic Item Generation,AIG)技术通过自动化生成测验题目,旨在解决心理与教育测验中题目开发成本高、效率低、维护困难和安全风险等问题。该技术经历了从规则驱动方法到大语言模型(Large Language Model,LLM)的演进历...题目自动生成(Automatic Item Generation,AIG)技术通过自动化生成测验题目,旨在解决心理与教育测验中题目开发成本高、效率低、维护困难和安全风险等问题。该技术经历了从规则驱动方法到大语言模型(Large Language Model,LLM)的演进历程,虽显著提升了生成效率与内容多样性,但在应用过程中面临专业知识表达准确性、文化公平性与构念效度、多模态内容生成、开放性题目发展、智能化质量控制、资源环境适应及技术可访问性等现实挑战。针对这些挑战,有效应对策略包括检索增强生成技术和多模态生成模型应用、多阶段心理测量学验证、云算力资源整合及用户友好型系统开发等。这些方法为提升自动生成题目的科学性与实用性提供了可行路径。展开更多
基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这...基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题,提出将编码风格和功能风格同步迁移微调的思想,并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先,利用广泛使用的指令数据集对LLM进行指令对齐,并按任务类型对指令集分类;同时,提取并存储具有任务特征的权重增量;其次,设计一个自适应风格提取模块,该模块包含抗噪声干扰学习和编码风格回溯学习,以应对不同的代码编写风格;最后,在目标域分别对功能风格增量和编码风格增量进行联合训练,以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明,所提方法的结果均优于对比方法,与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比,所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%;行覆盖率分别提高4.1%、6.5%和15.5%,验证了所提方法在代码生成任务上的优越性。展开更多
文摘In developing and using measures of Language abilities, the most important consideration is the use of a language test, so that the most important quality of a test is its usefulness. A model of test usefulness is regarded as the essential basis for quality control throughout the entire test development process. A model of test usefulness includes following qualities--validity, reliability, discrimination and backwash effects.
文摘A test flow description language is designed for the description of test flow.The design concept,composition,program structure and syntax structure of statement are presented.The development and impletementation processes of the language are also described.This language is independent of hardware,which can be used for different platforms,and can be extended.The language is used to describe the test flow easily.It simplifies the development process of test software and reduces the difficulty of software maintenance greatly.
文摘单元测试用于检验软件单一模块的功能是否正确,是软件开发过程中的重要步骤,可以及时发现代码中的缺陷,提升软件的质量和可信度.由于手动编写单元测试费时费力,经常遗漏覆盖重要的代码逻辑.为此,研究者提出单元测试用例自动生成技术.近来,预训练大语言模型(large language models,LLM)已经广泛应用于代码生成相关任务.然而,当前在重要的系统级编程语言C上,还没有相关工作.为了填补这一空白,本文面向C程序设计并实现了基于LLM的单元测试用例生成方法LLM4CUTCG.该方法结合LLM多智能体交互和程序分析技术,客服了LLM内在问题.为了验证方法效果,收集了125个C语言目标程序,并针对这些程序生成测试用例.实验结果表明,LLM4CUTCG生成的测试行覆盖率为91.71%,测试预言正确率为50.05%.其覆盖率优于传统方法符号执行.
文摘题目自动生成(Automatic Item Generation,AIG)技术通过自动化生成测验题目,旨在解决心理与教育测验中题目开发成本高、效率低、维护困难和安全风险等问题。该技术经历了从规则驱动方法到大语言模型(Large Language Model,LLM)的演进历程,虽显著提升了生成效率与内容多样性,但在应用过程中面临专业知识表达准确性、文化公平性与构念效度、多模态内容生成、开放性题目发展、智能化质量控制、资源环境适应及技术可访问性等现实挑战。针对这些挑战,有效应对策略包括检索增强生成技术和多模态生成模型应用、多阶段心理测量学验证、云算力资源整合及用户友好型系统开发等。这些方法为提升自动生成题目的科学性与实用性提供了可行路径。
文摘基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题,提出将编码风格和功能风格同步迁移微调的思想,并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先,利用广泛使用的指令数据集对LLM进行指令对齐,并按任务类型对指令集分类;同时,提取并存储具有任务特征的权重增量;其次,设计一个自适应风格提取模块,该模块包含抗噪声干扰学习和编码风格回溯学习,以应对不同的代码编写风格;最后,在目标域分别对功能风格增量和编码风格增量进行联合训练,以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明,所提方法的结果均优于对比方法,与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比,所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%;行覆盖率分别提高4.1%、6.5%和15.5%,验证了所提方法在代码生成任务上的优越性。