我们介绍了EXREC,这是一个通过语义知识追踪的个性化锻炼建议的一般框架。我们的方法基于这样的观察,即现有的练习建议方法通过知识跟踪(KT)模拟学生的表现,但它们经常忽略两个关键方面:(a)问题的语义内容和(b)学生学习的顺序,结构化的进步。为了解决这个问题,我们的EXREC提出了一条端到端的管道,从注释问题的KC和学习其语义表征到培训KT模型并优化多种强化学习(RL)方法 ...
布局到图像生成旨在创建复杂的场景,以精确控制对象的位置和安排。现有的作品表明,预先训练的文本对图像扩散模型可以实现此目标,而无需对任何特定数据培训。但是,他们经常以不精确的本地化和不切实际的人工制品面临挑战。为了关注这些弊端,我们提出了一种新颖的无培训方法Winwinlay ...
由于缺乏固有的特征,不精确的边界回归,现实世界数据集的稀缺和敏感的本地化评估,因此单帧红外小目标(SIRST)检测一直是一项具有挑战性的任务。在本文中,我们提出了针对这些挑战的全面解决方案。首先,我们发现现有的无锚标签分配方法容易误标记小目标作为背景,从而导致检测器的遗漏 ...
最近的视频基础模型(例如SAM2)在提示视频细分方面表现出色,通过将口罩视为通用原始性。但是,许多现实世界的设置都需要无提醒的细分,旨在检测和跟踪没有外部提示的视频中的所有对象,从而使当今的景观在特定于任务的模型和管道上碎片。我们将视频分割重新出现为顺序掩码预测,类似于语言建模,并引入自回归的通用分段模型(AUSM),这是一种单个体系结构,既可以统一提示和未提及的视频细分 ...
语言模型在很大程度上取决于高质量数据以获得最佳性能。现有方法依赖于手动设计的启发式方法,现有模型的困惑,培训分类器或仔细的及时工程,这些工程需要大量的专家经验和人类注释工作,同时引入偏见。我们介绍了Critiq,这是一种新型的数据选择方法,该方法自动从人类对数据质量的偏好中矿井标准,仅30个人类注销对,并执行有效的数据选择 ...
这项工作着重于视觉推理中视觉LLM(VLLM)的潜力。与先前的研究不同,我们将重点从评估标准绩效转变为引入全面的安全评估套件,涵盖了分布(OOD)概括和对抗性鲁棒性。对于OOD评估,我们提出了两个新型的VQA数据集,每个数据集具有一个变体,旨在在有挑战性的条件下测试模型性能 ...
我们将“视觉故事写作”定义为使用故事元素的视觉表示来支持写作和修改叙事文本。为了证明这种方法,我们开发了一个文本编辑器,该编辑器会自动可视化实体交互,位置之间的运动以及故事事件的时间表。与这些可视化互动相互作用会导致建议的文本编辑:例如,将图中的两个字符连接在它们之间创建相互作用,移动实体更新其所描述的位置,并在时间表上重新安排事件重新组织叙事序列 ...
由于其多功能性和可负担性,基于视觉的3D占用预测已成为一项流行的研究任务。如今,常规方法通常将基于图像的视觉特征投射到3D空间,并通过注意机制学习几何信息,从而实现3D语义占用预测。但是,这些作品通常面临两个主要挑战:1)有限的几何信息 ...