一译 —— 文档和论文翻译、对照阅读、讨论和社区

3D Scene Reconstruction with Multi-layer Depth and Epipolar Transformers

我们解决了从单个RGB图像自动重建场景的完整3D模型的问题。这项具有挑战性的任务需要推断可见的表面和遮挡表面的形状。我们的方法利用了以观看器为中心的场景几何形状的多层表示，该表现从最新的单个对象形状完成方法改编 ...

0 0 0 2025/02/16 arXiv:1902.06729v2 18353319397

AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers

训练后量化（PTQ）已成为减少视觉 Transformer （VIT）的存储和计算成本的有前途解决方案。最近的进步主要是针对制定量化器来处理以VIT为特征的特殊激活的。但是，大多数现有方法低估了体重量化所产生的信息损失，从而导致严重的性能恶化，尤其是在低位案例中 ...

0 0 0 2025/02/16 arXiv:2502.04628v1 hnu

DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model

本文是出于有趣的现象的激励：当Maskdino的开头 Transformer 解码器层研究中间的结果时，对象检测的性能滞后于实例分割（即性能不平衡）（i ...

0 0 0 2025/02/16 arXiv:2410.16707v1 hnu

PolaFormer: Polarity-aware Linear Attention for Vision Transformers

线性关注已成为基于软马克斯的注意力的有希望的替代方法，利用核特征图以降低从二次到线性的复杂性，序列长度。然而，与原始的查询键点相比，在特征图上的非负约束和用于近似值的松弛指数函数导致大幅度的信息丢失，从而导致较高的熵的歧视性注意图。为了解决由Query-Key对中负值驱动的缺失相互作用，我们提出了一种极性感知的线性注意机制，该机制明确地模拟了相同和相反的查询键相互作用，以确保对关系信息的全面覆盖  ...

0 0 0 2025/02/16 arXiv:2501.15061v1 fly

Combining Planning and Diffusion for Mobility with Unknown Dynamics

在长范围内操纵大物体（例如仓库中的购物车）是可部署机器人系统的重要技能。大物体需要移动操作，涉及与物体拖曳的同时操纵，导航和运动。在许多现实世界中，对象动态非常复杂，例如办公椅（带有旋转底座和五个施法车轮）和地面的相互作用 ...

0 0 0 2025/02/16 arXiv:2410.06911v1 kate2024

Latte: Latent Diffusion Transformer for Video Generation

我们提出了一种新颖的潜在扩散 Transformer ，即拿铁，用于视频生成。拿铁，然后采用一系列，然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模，从分解输入视频的空间和时间维度的角度引入了四种有效的变体... ...

0 0 0 2025/02/16 arXiv:2401.03048v1 chensiyu25

Divide-Then-Aggregate: An Efficient Tool Learning Method via Parallel Tool Invocation

尽管当前的大型语言模型（LLM）具有令人印象深刻的功能，但执行复杂的现实世界任务仍然需要工具学习。主流方法（例如COT/REACT）依靠分步工具调用来与外部环境进行交互，但是它们在感知范围上受到限制，并且缺乏足够的任务计划功能。为了解决这些局限性，其他研究介绍了第一个基于搜索的决策树（DFSDT），该决策树仍然遭受高计算成本的影响 ...

0 0 0 2025/02/16 arXiv:2501.12432v1 liuweitang

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

大型语言模型（LLM）表现出在人级推理和发电能力方面非常熟练的熟练程度，这鼓励了对其在数学问题解决中的应用。但是，当前的工作主要集中在基于文本的数学问题上，并且在涉及几何信息的问题方面进行了有限的研究。解决这一差距，我们旨在通过理解图像输入来解决LLMS解决几何问题 ...

0 0 0 2025/02/16 arXiv:2312.11370v1 yyh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）