最近在零样本语音合成方面取得的突破使得只需几秒钟的录音就能模仿说话者的声音,同时保持高水平的真实感。除了潜在的好处之外,这项强大的技术也带来了显着的风险,包括语音欺诈和模仿说话者。与仅依靠被动方法来检测合成数据的传统方法不同,水印提供了针对这些迫在眉睫的风险的主动且强大的防御机制 ...
随着人工智能技术的快速发展和广泛应用,大语言模型(LLM)被广泛用于提高各个领域的生产、创造力、学习和工作效率。然而,LLM的滥用也给人类社会带来了潜在危害,如知识产权问题、学术不端行为、虚假内容、幻觉等。相关研究提出利用LLM水印来实现LLM的IP保护以及LLM输出的多媒体数据的可追溯性 ...
语言模型 (LM) 通常无法部署,因为它们有可能以难以预测的方式伤害用户。先前的工作通过使用人工注释者手写测试用例来在部署之前识别有害行为。然而,人工注释成本高昂,限制了测试用例的数量和多样性 ...
随着通用人工智能 (AGI) 日益融入人类生活的各个方面,确保此类系统的安全性和道德一致性至关重要。先前的研究主要集中于单一模态威胁,考虑到跨模态交互的集成性和复杂性,这可能还不够。我们引入了一种新颖的安全对齐挑战,称为安全输入但不安全输出(SIUO)来评估跨模态安全对齐 ...
尽管大型语言模型 (LLM) 已展现出以零射击方式执行复杂任务的强大功能,但它们很容易受到越狱攻击,并且可能被操纵以产生有害的输出。最近,越来越多的研究将越狱攻击分为 Token 级攻击和提示级攻击。然而,之前的工作主要忽视了越狱攻击的多种关键因素,大多数研究集中在LLM漏洞上,缺乏对防御增强型LLM的探索 ...