我们提出了Flux.1 Kontext的评估结果,Kontext,这是一种生成流量匹配模型,统一图像生成和编辑。该模型通过结合文本和图像输入中的语义上下文来生成新的输出视图 ...
Natiq是阿拉伯语的端到端文本到语音系统。我们的语音合成器使用Encoder-Decoder架构引起了人们的注意。我们同时使用了基于TACOTRON的模型(Tacotron-1和Tacotron-2)和更快的 Transformer 模型来从字符中生成MEL光谱图 ...
大型语言模型(LLM)从单模式系统迅速发展为多模式LLM和智能代理,在引入越来越严重的安全风险的同时,大大扩展了其功能。本文对越来越多的LLM生态系统内的越来越多的复杂性以及相应的防御机制进行了系统的调查。我们首先追踪从LLM到MLLM和代理的发展轨迹,突出了每个阶段出现的核心安全挑战 ...
自我播放算法已被开发为用于微调大语模型(LLM)的有效方法,以两种玩家游戏的优先优化制定了偏好优化。但是,关于参考策略的正则化对于缓解过度优化至关重要,在自我播放一致性方面没有足够的研究。在本文中,我们表明我们的正则化方法可以显着改善未注册的自我播放 ...
大型语言模型(LLM)越来越多地部署在与不信任环境相互作用的代理系统中。但是,LLM代理在处理不受信任的数据时很容易受到迅速注射攻击的影响。在本文中,我们提出了骆驼,这是一种强大的防御,可在LLM周围创建保护性系统层,即使在基础模型容易受到攻击时也可以保护它 ...
机械解释性旨在了解神经网络能力的基础机制,以实现具体的科学和工程目标。因此,该领域的进步有望为AI系统行为提供更大的保证,并阐明有关智力本质的令人兴奋的科学问题。尽管最近朝着这些目标朝着这些目标方面的进步,但该领域仍有许多开放问题需要解决方案,然后才能实现许多科学和实际的好处:我们的方法需要概念性和实际的改进来揭示更深入的见解;我们必须弄清楚如何最好地运用我们的方法来追求特定目标;而且该领域必须努力应对影响并受到我们工作影响的社会技术挑战 ...
从视觉上富裕的文档中了解信息仍然是传统检索型生成(RAG)方法的重大挑战。现有基准主要集中在基于图像的问题答案(QA)上,忽视了密集的视觉文档中有效检索,理解和推理的基本挑战。为了弥合这一差距,我们介绍了Vidoseek,这是一个新颖的数据集,旨在评估需要复杂推理的视觉丰富文档的抹布性能 ...
软件是我们人类可以使用的最强大的工具之一。它允许熟练的程序员以复杂而深刻的方式与世界互动。同时,由于大语言模型(LLM)的改进,AI代理商也有了迅速的发展,与周围环境的互动并影响变化。在本文中,我们介绍了开放式(f ...
Trinity-RFT是一种通用,灵活且可扩展的框架,旨在加强大型语言模型的微调(RFT)。它是由脱钩的设计构建的,由(1)RFT核组成,该核核统一和概括了同步/异步,policy/policy/policy/off-policy以及RFT的在线/离线模式,(2)无缝整合,以使代理 - 环境互动以高效效率和稳健性以及(3)系统pipeliness ipline pipeliness ipline in floces-Environal互动。 Trinity-RFT可以轻松适应各种应用程序方案,并用作探索高级强化学习范式的统一平台 ...
多标签分类是在各种现实世界应用中使用的必不可少的任务。多标签零射击学习是一种将图像分类为多个看不见的类别的方法,没有训练数据可用,而在一般零摄像的情况下,测试集可能包括观察到的类。剪辑描述器是一种基于最先进的ML Decoder注意力头的新方法 ...