一译 —— 文档和论文翻译、对照阅读、讨论和社区

MIRAGE: Towards AI-Generated Image Detection in the Wild

AI生成的图像（AIGI）的传播是在生成AI的进步的驱动下，对信息安全和公共信任构成了重大威胁。现有的AIGI探测器在清洁实验室环境中有效反对图像，但未能推广到野外场景。这些真实的图像很嘈杂，从``明显的伪造''图像到源自多个生成模型的现实图像，并进一步编辑以进行质量控制 ...

0 0 0 2025/09/16 arXiv:2508.13223v1 Symaike

Leptogenesis with Linear, Inverse or Double Seesaw

带有双重和双重双线HIGGS标量的左右对称模型可以容纳线性，逆或双seesaw，以在存在三个单重式费米子的情况下产生小中微子质量。如果Singlet Fermions的主要主要群体很小，它们可以与三个右手中微子形成三对准脱位majoraferana fermions。准脱位的衰减可能会意识到共鸣的瘦肉发生 ...

0 0 0 2025/09/16 arXiv:1007.2323v2 Skylar.G.Lee

Attention to Trajectory: Trajectory-Aware Open-Vocabulary Tracking

开放式摄影量多对象跟踪（OV-MOT）旨在使方法能够跟踪对象，而不会仅限于预定义的类别集。当前的OV-MOT方法通常主要依赖于实例级检测和关联，通常会忽略对象跟踪任务的独特且必不可少的轨迹信息。利用轨迹信息可以提高关联稳定性和分类精度，尤其是在遮挡和类别歧义的情况下，从而提高了对新型类别的适应性 ...

0 0 0 2025/09/16 arXiv:2503.08145v1 bin

Towards Understanding Visual Grounding in Visual Language Models

视觉接地是指模型在与文本描述匹配的某些视觉输入中识别区域的能力。因此，配备了视觉接地功能的模型可以针对各种领域的广泛应用，包括参考表达理解，回答与图像或视频中的细粒细节有关的问题，通过明确指向实体以及模拟和真实环境中的低水平和高级控制和高级控制和高级控制和高级控制和真实环境。在本调查文件中，我们审查了有关现代通用视觉语言模型（VLM）研究的主要研究领域的代表性作品 ...

0 0 0 2025/09/16 arXiv:2509.10345v2 yiweima

Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight

黑暗的模式，欺骗性的界面设计操纵用户行为，已广泛研究其对人类决策和自主权的影响。然而，随着LLM驱动的GUI剂的突出性的不断增长，使从高级意图中实现任务的自动化，因此了解黑模式如何影响代理人的重要性越来越重要。我们提出了一项两阶段的实证研究，研究了代理人，人类参与者和人类团队如何应对各种情况下的16种黑暗模式 ...

0 0 0 2025/09/16 arXiv:2509.10723v1 hhhhh

LIPM-Guided Reinforcement Learning for Stable and Perceptive Locomotion in Bipedal Robots

由于复杂的地形几何形状和对外部干扰的敏感性，在非结构化的户外环境中实现双皮亚机器人的稳定和强大的感知运动仍然是一个关键的挑战。在这项工作中，我们提出了一种受线性倒置模型（LIPM）启发的新型奖励设计，以使野外的感知和稳定的运动能够在野外实现。 LIPM通过调节质量中心（COM）高度和躯干方向来提供理论指导，以实现动态平衡 ...

0 0 0 2025/09/16 arXiv:2509.09106v1 yukun

Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning

本文提出了一个新型的多标签图像识别框架，而无需任何培训数据，称为无数据框架，该框架使用预训练的大语言模型（LLM）知识来学习提示以适应预处理的视觉语言模型（VLM），例如剪辑，例如Multilabel分类。通过通过精心设计的问题询问LLM，我们获得了有关对象的特征和环境的全面知识，该知识为学习提示提供了有价值的文本描述。然后，我们通过考虑多标签依赖性来提出一种层次及时的学习方法，当相应的对象显示出 ...

0 0 0 2025/09/16 arXiv:2403.01209v1 19396386025

TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding

多模式语言模型在视觉和音频方面取得了进步，但在处理时代序列域中复杂的推理任务方面仍然面临重大挑战。原因是双重的。首先，多模式时间序列数据的标签是粗糙的，没有分析或推理过程 ...

0 0 0 2025/09/16 arXiv:2501.07335v2 haoyb22

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）