一译 —— 文档和论文翻译、对照阅读、讨论和社区

Personalized Exercise Recommendation with Semantically-Grounded Knowledge Tracing

我们介绍了EXREC，这是一个通过语义知识追踪的个性化锻炼建议的一般框架。我们的方法基于这样的观察，即现有的练习建议方法通过知识跟踪（KT）模拟学生的表现，但它们经常忽略两个关键方面：（a）问题的语义内容和（b）学生学习的顺序，结构化的进步。为了解决这个问题，我们的EXREC提出了一条端到端的管道，从注释问题的KC和学习其语义表征到培训KT模型并优化多种强化学习（RL）方法 ...

0 0 0 2025/09/07 arXiv:2507.11060v1 Shylie

Control and Realism: Best of Both Worlds in Layout-to-Image without Training

布局到图像生成旨在创建复杂的场景，以精确控制对象的位置和安排。现有的作品表明，预先训练的文本对图像扩散模型可以实现此目标，而无需对任何特定数据培训。但是，他们经常以不精确的本地化和不切实际的人工制品面临挑战。为了关注这些弊端，我们提出了一种新颖的无培训方法Winwinlay ...

0 1 0 2025/09/07 arXiv:2506.15563v1 yisinoya

One-Stage Cascade Refinement Networks for Infrared Small Target Detection

由于缺乏固有的特征，不精确的边界回归，现实世界数据集的稀缺和敏感的本地化评估，因此单帧红外小目标（SIRST）检测一直是一项具有挑战性的任务。在本文中，我们提出了针对这些挑战的全面解决方案。首先，我们发现现有的无锚标签分配方法容易误标记小目标作为背景，从而导致检测器的遗漏 ...

0 0 0 2025/09/07 arXiv:2212.08472v2 Fun_James

Autoregressive Universal Video Segmentation Model

最近的视频基础模型（例如SAM2）在提示视频细分方面表现出色，通过将口罩视为通用原始性。但是，许多现实世界的设置都需要无提醒的细分，旨在检测和跟踪没有外部提示的视频中的所有对象，从而使当今的景观在特定于任务的模型和管道上碎片。我们将视频分割重新出现为顺序掩码预测，类似于语言建模，并引入自回归的通用分段模型（AUSM），这是一种单个体系结构，既可以统一提示和未提及的视频细分 ...

0 0 0 2025/09/07 arXiv:2508.19242v1 徐小五

CritiQ: Mining Data Quality Criteria from Human Preferences

语言模型在很大程度上取决于高质量数据以获得最佳性能。现有方法依赖于手动设计的启发式方法，现有模型的困惑，培训分类器或仔细的及时工程，这些工程需要大量的专家经验和人类注释工作，同时引入偏见。我们介绍了Critiq，这是一种新型的数据选择方法，该方法自动从人类对数据质量的偏好中矿井标准，仅30个人类注销对，并执行有效的数据选择 ...

0 0 0 2025/09/07 arXiv:2502.19279v2 songbingyan

How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs

这项工作着重于视觉推理中视觉LLM（VLLM）的潜力。与先前的研究不同，我们将重点从评估标准绩效转变为引入全面的安全评估套件，涵盖了分布（OOD）概括和对抗性鲁棒性。对于OOD评估，我们提出了两个新型的VQA数据集，每个数据集具有一个变体，旨在在有挑战性的条件下测试模型性能 ...

0 0 0 2025/09/07 arXiv:2311.16101v1 hhhhh

Visual Story-Writing: Writing by Manipulating Visual Representations of Stories

我们将“视觉故事写作”定义为使用故事元素的视觉表示来支持写作和修改叙事文本。为了证明这种方法，我们开发了一个文本编辑器，该编辑器会自动可视化实体交互，位置之间的运动以及故事事件的时间表。与这些可视化互动相互作用会导致建议的文本编辑：例如，将图中的两个字符连接在它们之间创建相互作用，移动实体更新其所描述的位置，并在时间表上重新安排事件重新组织叙事序列 ...

0 0 0 2025/09/07 arXiv:2410.07486v2 waterfall666

LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba

由于其多功能性和可负担性，基于视觉的3D占用预测已成为一项流行的研究任务。如今，常规方法通常将基于图像的视觉特征投射到3D空间，并通过注意机制学习几何信息，从而实现3D语义占用预测。但是，这些作品通常面临两个主要挑战：1）有限的几何信息 ...

0 0 0 2025/09/07 arXiv:2412.08388v1 chenhualin

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）