为了减少大型语言模型 (LLM) 的潜在滥用,最近的研究开发了水印算法,该算法限制生成过程,为水印检测留下不可见的痕迹。由于任务的两阶段性质,大多数研究分别评估生成和检测,从而对公正、彻底和适用的评估提出了挑战。在本文中,我们介绍了第一个LLM水印综合基准测试WaterBench,其中我们设计了三个关键因素:(1)对于基准测试程序,为了确保同类比较,我们首先调整每种水印方法的超参数达到相同的水印强度,然后共同评估它们的生成和检测性能 ...
由于大型语言模型卓越的生成性能引起了伦理和法律问题,因此正在开发通过嵌入水印来检测机器生成文本的方法。然而,我们发现,由于任务具有低熵的性质,现有的工作无法在代码生成任务中正常运行。扩展 logit 修改水印方法,我们提出了通过熵阈值进行选择性水印标记 (SWEET),它通过在生成和检测水印时删除低熵片段来增强检测能力并减轻代码质量下降 ...
我们研究对大型语言模型 (LLM) 生成的文本加水印的问题——这是解决 LLM 使用安全挑战的最有前途的方法之一。在本文中,我们提出了一个严格的理论框架来量化 LLM 水印的有效性和鲁棒性。我们通过使用简化的固定分组策略扩展现有方法,提出了一种鲁棒且高质量的水印方法,Unigram-Watermark ...
文本水印算法在文本内容的版权保护中发挥着至关重要的作用,但其功能和应用场景历来受到限制。大语言模型(LLM)的最新发展为文本水印技术的进步提供了新的机遇。 LLM 不仅可以通过文本理解和生成能力来增强文本水印算法的能力,而且还需要使用文本水印算法来保护自己的版权 ...
大型语言模型的潜在危害可以通过对模型输出加水印来减轻,即将信号嵌入到生成的文本中,这些信号对人类来说是不可见的,但可以通过算法从短跨度的 Token 中检测到 ...
提出了水印方法来识别正在传播的文本是人类生成的还是大型语言模型(LLM)生成的。 Kirchenbauer 等人 (2023a) 最先进的水印策略偏向于 LLM 生成特定的(“绿色”) Token ...