随着大型视觉语言模型(VLM)的提高,它们在多语言视觉问题答案(MVQA)中的功能已大大提高。经过思考链(COT)推理已被证明可以增强可解释性和复杂的推理。但是,大多数现有的方法主要依赖于文本COT,并为多语言多模式推理提供了有限的支持,从而限制了其在现实世界应用程序中的部署 ...
基于LVLM的GUI代理越来越多地用于与网站互动。但是,它们对开放世界内容的暴露使它们容易受到通过网页元素劫持代理行为的环境注入攻击(EIA)。许多最近的研究认为,攻击者是普通用户,他只能上传单个触发图像,这比以前对网站级管理控制的假设更现实 ...
自动测试生成在软件质量保证中起着至关重要的作用。虽然基于搜索的软件测试 (SBST) 和大型语言模型 (LLM) 的最新进展在生成有用的测试方面显示出了希望,但这些技术仍然难以覆盖某些分支。达到这些难以覆盖的分支通常需要构造复杂的对象并解决分支条件中复杂的过程间依赖关系,这对现有的测试生成技术提出了重大挑战 ...
随着模型越来越利用多步推理策略来解决复杂问题,监督这些中间步骤的逻辑有效性已成为一项关键的研究挑战。流程奖励模型通过提供逐步反馈来解决这一问题,但是当前的方法具有两个主要缺点:它们通常是分类器而无需提供解释的分类器,并且它们依赖静态数据集限制了概括。受到最新进展的启发,我们将逐步奖励建模从分类任务重新奖励建模为推理任务本身 ...
从可验证的奖励(RLVR)中学习的强化学习已成为增强大语言模型的推理能力的有前途的框架。但是,诸如GRPO之类的现有方法通常会遭受零梯度的影响。此问题主要是由于 Token 级别概率比和相同奖励的标准化的固定剪辑界限,这可能导致无效的梯度更新和未充分利用生成的响应 ...
儿童图纸具有出色的创造力,创造力和多样性。我们提出了一个系统,该系统会自动为儿童人物的图纸动画,对这些描述中固有的差异是可靠的,并且简单明了,任何人都可以使用。我们通过构建和释放动画图纸演示来证明我们的方法的价值和广泛吸引力,这是一个免费的公共网站,已被全球数百万人使用 ...
无监督的域适应性(UDA)旨在使用标记的源域学习机器学习模型,该标记的源域在类似但不同的未标记的目标域上表现良好。 UDA在许多应用(例如医学)中很重要,在医学上,它用于适应不同患者同类的风险评分。在本文中,我们为时间序列数据的UDA开发了一个新颖的框架,称为Cluda ...
我们基于RectifiedFlow框架提出了一种称为InstantEdit的快速文本引导的图像编辑方法,该方法构成为几个步骤的编辑过程,该过程可保留关键内容,同时紧随文本指令。我们的方法通过引入称为Perrfi的专门反转策略来利用整流流的直接采样轨迹。为了保持一致,而对整流流模型的可编辑结果,我们进一步提出了一种新型的再生方法,反转潜在注射,该方法有效地重复了反转过程中获得的潜在信息,以促进更连贯 ...