我们介绍了$ \ texttt {complex-edit} $,这是一种综合基准,旨在系统地评估基于教学的图像编辑模型,跨不同复杂性的指令。为了开发此基准,我们利用GPT-4O自动按大规模收集各种编辑说明。我们的方法遵循结构良好的``编辑''管道:我们首先独立生成单独的原子编辑任务,然后整合它们以形成凝聚力,复杂的说明 ...
0 0 0 2025/05/07 arXiv:2504.13143v1 likelike
由于内容制作和/或交付期间的普遍条件,视觉伪影经常被引入到流视频内容中。由于这些会降低用户体验的质量,因此自动、准确地检测它们以实现有效的质量测量和增强非常重要。现有的检测方法通常关注单一类型的伪影和/或通过对客观质量指数进行阈值化来确定伪影的存在 ...
0 0 0 2025/05/07 arXiv:2406.00212v2 13080420360
大型语言模型(LLM)在复杂的推理任务中取得了显着进步,但由于依赖静态内部知识和仅文本推理,它们在根本上仍然限制了它们。现实世界中的解决问题通常需要动态,多步推理,自适应决策以及与外部工具和环境互动的能力。在这项工作中,我们介绍了艺术家(自我改进 Transformer 中的代理推理和工具集成),这是一个统一的框架,与LLMS的代理推理,强化学习和工具集成紧密结合 ...
0 1 0 2025/05/07 arXiv:2505.01441v1 firefly2024
视觉语言动作模型(VLAS)通常在演示任务上实现高性能,但是在需要推断时会大力挣扎,并结合以新颖方式从不同任务中学到的技能。例如,VLA可能会成功地将奶油奶酪放在碗里,将碗放在橱柜顶部,但仍然无法将奶油奶酪放在橱柜顶部。在这项工作中,我们证明了来自不同任务的行为可以通过在推理时操纵VLA的内部表示有效地重组 ...
0 0 0 2025/05/07 arXiv:2505.03500v1 蔡明方
在过去的几十年中,金融中的计算情报一直是学术界和金融行业的一个非常流行的话题。已经发表了许多研究,导致各种模型。同时,在机器学习(ML)领域内,深度学习(DL)最近开始引起很多关注,这主要是由于其在经典模型上的表现要出色 ...
0 0 0 2025/05/07 arXiv:2002.05786v1 spkang
大型语言模型(LLMS)的个性化偏好一致性是将LLMS量身定制为单个用户偏好的过程,是跨越NLP和个性化领域的新兴研究方向。在这项调查中,我们介绍了有关LLMS的个性化对齐和建模作品的分析。我们介绍了偏好对准技术的分类法,包括培训时间,推理时间以及基于用户模型的方法 ...
0 0 0 2025/05/07 arXiv:2504.07070v1 13026155693
作为热门研究主题,在过去几年中提出了许多多视图聚类方法。然而,大多数现有算法仅将共识信息在不同的观点中考虑到集群。实际上,它可能会阻碍现实生活中的多视图聚类性能,因为不同的视图通常包含各种统计属性 ...
0 0 0 2025/05/07 arXiv:2010.09193v7 FOUR_A
LLM-AS-A-a-Gudge已被广泛用作各种基准的评估方法,并用作模型培训的监督奖励。但是,尽管它们在许多领域中都出色,但潜在的问题却没有探索,破坏了它们的可靠性和效用范围。因此,我们确定了12个关键的潜在偏见,并提出了一个新的自动偏差量化框架 - 核对框架 - 该框架通过使用自动化和原理引导的修改,系统地量化和分析了LLM-AS-A-A-法官中的每种偏差 ...
0 0 0 2025/05/07 arXiv:2410.02736v2 hhhhh

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)