arxiv的文档

arxiv 南京

个性签名 ...

PromptHMR: Promptable Human Mesh Recovery

人类的姿势和形状（HPS）估计在各种场景中提出了挑战，例如拥挤的场景，人人的互动和单视重建。现有方法缺乏结合辅助“侧面信息”的机制，这些信息可以在这种挑战性的情况下提高重建精度。此外，最准确的方法依赖于裁剪的人检测，并且无法利用场景上下文，而处理整个图像的方法通常无法检测到人，并且不如使用农作物的方法准确 ...

0 0 0 0 2025/06/25 arXiv:2504.06397v2 小小卡拉米

MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-ray

计算机断层扫描（CT）是一种有效的医学成像方式，在临床医学领域广泛用于诊断各种病理。多探测器CT成像技术的进步已经实现了其他功能，包括生成薄片多平台横截面体成像和3D重建。但是，这涉及患者暴露于相当剂量的电离辐射 ...

0 1 0 0 2025/06/25 arXiv:2202.01020v3 CZ

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

我们介绍了InteractVLM，这是一种新的方法，用于估计人体上的3D接触点和来自单个野外图像的物体，从而在3D中实现了准确的人类对象关节重建。由于阻塞，深度歧义和广泛变化的物体形状，这具有挑战性。现有方法依赖于通过昂贵的运动捕获系统或乏味的手动标记，限制可扩展性和概括收集的3D接触注释 ...

0 0 0 0 2025/06/24 arXiv:2504.05303v1 陆三七

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

3D人才一代的最新进展取得了重大进展。但是，现有的方法仍然很难从文本中产生新的人类对象互动（HOI），尤其是对于开放式对象。我们确定了这项任务的三个主要挑战：精确的人类对象关系推理，对任何对象的负担解析以及详细的人类互动构成构成的综合描述和对象几何形状 ...

0 0 0 0 2025/06/24 arXiv:2505.24315v1 陆三七

Bridging Language and Items for Retrieval and Recommendation

本文介绍了布莱尔（Blair），这是一系列专门用于推荐方案的验证式嵌入模型。布莱尔（Blair）受过培训，可以学习项目元数据与潜在的自然语言环境之间的相关性，这对于检索和推荐物品很有用。为了确定布莱尔（Blair），我们收集了亚马逊评论2023，这是一个新的数据集，其中包括33个类别的5.7亿次评论和4800万个项目，大大扩展了以前版本的范围 ...

0 0 0 0 2025/06/24 arXiv:2403.03952v1 siweima

From Recall to Reasoning: Automated Question Generation for Deeper Math Learning through Large Language Models

教育工作者已经开始转向生成的AI（Genai）来帮助创建新的课程内容，但对他们应该如何做的知之甚少。在此项目中，我们研究了优化高级数学内容创建内容的第一步。特别是，我们研究了Genai产生与课程内容相关的高质量实践问题的能力 ...

0 0 0 0 2025/06/24 arXiv:2505.11899v1 cheeryapp

Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better

红外小目标（IRST）检测在同时实现精确，通用，强大和有效的性能方面具有挑战性，这是由于极度昏暗的目标和强烈的干扰。当前的基于学习的方法试图利用``空间和短期时间域的更多信息''，但在复杂条件下遭受了不可靠的性能，同时会产生计算冗余。在本文中，我们探索了``来自更重要的''域中的“更重要的”信息，以进行检测 ...

0 0 0 0 2025/06/24 arXiv:2506.12766v1 Chainey

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

在本文中，我们介绍了运动座的视频推理，这是一项新的运动理解任务，需要根据输入问题生成视觉答案（视频分割掩码），因此需要隐含的时空推理和接地。这项任务通过通过问题启用隐性推理，将重点放在明确的动作/运动接地上的现有时空接地工作扩展到了更通用的格式。为了促进新任务的开发，我们收集了一个名为GroundMore的大规模数据集，该数据集包括1,715个视频剪辑，249k对象蒙版，这些镜头是故意设计的，具有4种问题类型（因果关系，顺序，反事实和描述性），用于基于深度和全面的运动推理能力 ...

0 0 0 0 2025/06/24 arXiv:2411.09921v2 chengwenxuan7

FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

电影配音旨在将脚本转换为与给定的电影剪辑相一致的演讲，同时保持给定简短参考音频的声音音色。现有方法主要侧重于降低单词错误率，同时忽略唇部同步和声学质量的重要性。为了解决这些问题，我们提出了一个基于大型语言模型（LLM）的流程匹配体系结构，用于配音，名为FlowDubber，该体系结构通过合并大型语音语言模型和双重对比度对齐，同时通过拟议的语音启动的流程匹配来实现高质量的音频同步和发音 ...

0 0 0 0 2025/06/24 arXiv:2505.01263v1 Du

AugCSE: Contrastive Sentence Embedding with Diverse Augmentations

数据增强技术已被证明在NLP字段中的许多应用中有用。大多数增强是特定于任务的，不能用作通用工具。在我们的工作中，我们提出了Augcse，这是一个统一的框架，用于利用各种数据增强集以实现更好，通用，句子嵌入模型 ...

0 0 0 0 2025/06/24 arXiv:2210.13749v1 nero