GUI 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ,特别是多模式模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...
源代码的预训练的生成语言模型(例如PLBART,CODET5,SPT-CODE)在过去几年中对多个任务(包括代码生成和翻译)产生了强大的结果 ...
源代码作者归因是在软件取证,错误修复和软件质量分析等应用程序中经常遇到的重要问题。最近的研究表明,当前的源代码作者归因方法可以通过利用对抗性示例和编码样式操纵的攻击者损害。这要求解决代码作者归因问题的强大解决方案 ...
开源社区的扩展和大型语言模型的兴起引起了人们对源代码分布的道德和安全问题,例如对版权法规的不当行为,无适当许可的发行或出于恶意目的滥用代码。因此,跟踪源代码的所有权很重要,其中水印是一项主要技术。但是,源代码水印与自然语言截然不同,需要更严格,更复杂的规则,以确保可读性以及源代码的功能 ...
时间序列预测对于诸如资源调度和风险管理等应用程序至关重要,在该应用程序中,多步预测提供了对未来趋势的全面看法。不确定性定量(UQ)是一种解决预测不确定性的主流方法,由于其模型 - 不合骨的性质和统计保证,共形预测(CP)引起了人们的注意。但是,大多数CP的变体都是为单步预测而设计的,并且在多步骤场景中面临挑战,例如依赖实时数据和有限的可伸缩性 ...
有监督微调 (SFT) 对于使大型语言模型 (LLM) 适应特定领域或任务至关重要。然而,在实际应用中,可用的标记数据数量有限,这对 SFT 获得令人满意的结果提出了严峻的挑战。因此,一个能够充分利用标记和未标记数据进行LLM微调的数据高效框架备受期待 ...
本文介绍了Rosemary,这是首个ML/Crypto CodeSign水印框架,该框架调节了LLM生成的代码,以避免侵犯知识产权和在软件开发中的不当滥用。高质量的水印符合可探测性的固定性三个主体由于代码的低渗透性质而受到限制。但是,水印验证通常需要揭示签名,并需要重新编码新的代码重复使用,这可能会损害系统的可用性 ...
在当前大语模型(LLMS)的景观中,教学调整过程是必不可少的一步。考虑到高计算能力开销,提出了数据有效的指令调整,以减少此过程中的训练数据大小,旨在选择高质量的教学数据。尽管如此,我们认为大多数当前数据有效的指令调用方法高度取决于原始指令调整数据集的质量 ...