大型语言模型(LLM),例如OpenAI发布的ChatGpt,由于其展示的能力为各种任务生成高质量的内容,因此引起了行业和学术界的极大关注。尽管LLM具有令人印象深刻的能力,但人们对它们在新闻,教育和软件工程等各个领域的潜在风险越来越担心。最近,已经提出了一些商业和开源LLM生成的内容探测器,但是,该探测器主要用于检测自然语言内容而无需考虑程序代码的具体特征 ...
大型语言模型(LLM)在代码生成方面取得了显着进度。现在,确定代码是否为AI生成并确定所使用的特定模型至关重要,尤其是为了保护行业中的知识产权(IP),并防止在编程练习中作弊。为此,已经进行了几次尝试将水印插入机器生成的代码中 ...
这项工作提出了一种无培训的方法来检测LLMS生成的代码,从而减轻与其不加区分使用的风险。据我们所知,我们的研究是第一个研究零射击检测技术应用于Chatgpt等高级Black-Box LLM生成的代码的零射击技术。首先,我们发现现有的基于培训或零照片的文本检测器在检测代码方面无效,这可能是由于代码结构中发现的独特统计属性所致 ...
基于一组可解释的变体特征集,用复杂的遗传基础来预测表型仍然是一项艰巨的任务。通常,数据驱动的方法用于此任务,但是基因型数据的高维质使分析和预测变得困难。由预先训练的LLM中编码的广泛知识及其在处理复杂的生物医学概念方面的成功,我们开始研究LLM在功能选择和工程中用于表格基因型数据的能力,并具有新颖的知识驱动框架 ...
对视觉细节的高分辨率感知对于日常任务至关重要。但是,当前的视力预训练仍然仅限于低分辨率(例如 ...
基于 Transformer 体系结构的越来越多的端到端文本斑点方法表现出了卓越的性能。这些方法利用匹配算法的二分图来执行预测对象和实际对象之间的一对一最佳匹配。但是,两分图匹配的不稳定性会导致不一致的优化目标,从而影响模型的训练性能 ...
培训语义细分器和合成数据的训练语义分段因其易于访问性和大量数量而引起了极大的关注。大多数以前的方法都侧重于生成大规模合成图像批准样品,然后使用所有方法训练分段器。但是,这种解决方案仍然是一个主要的挑战,因为不可避免的样品是不可避免的,并且使用它们来训练模型会损害训练过程 ...
最近发布的Chatgpt表现出了自然语言理解和自然语言产生的惊人能力。机器翻译在很大程度上取决于语言理解和发电的能力。因此,在本文中,我们探讨了如何使用Chatgpt协助机器翻译 ...