一译 —— 文档和论文翻译、对照阅读、讨论和社区

Accelerating Very Deep Convolutional Networks for Classification and Detection

本文旨在加快卷积神经网络（CNN）的测试时间计算，尤其是非常深的CNN，这些CNN极大地影响了计算机视觉社区。与用于近似线性过滤器或线性响应的以前的方法不同，我们的方法将非线性单元考虑在内。我们在不需要随机梯度下降（SGD）的情况下为最终的非线性优化问题开发了有效的解决方案 ...

0 0 0 2025/04/04 arXiv:1505.06798v2 smallz

Speeding up Convolutional Neural Networks with Low Rank Expansions

本文的重点是加快卷积神经网络的评估。在一系列计算机视觉和机器学习任务中取得令人印象深刻的结果时，这些网络在计算上是苛刻的，从而限制了它们的可部署性。卷积层通常会消耗大部分处理时间，因此，在这项工作中，我们提出了两个简单的方案，以极大地加速这些层 ...

0 0 0 2025/04/04 arXiv:1405.3866v1 smallz

Unbiased Faster R-CNN for Single-source Domain Generalized Object Detection

用于对象检测的单源域概括（SDG）是一项具有挑战性但具有挑战性的任务，因为看不见的域的分布偏置显着降低了算法性能。但是，现有的方法试图提取域不变特征，忽略了有偏见的数据导致网络学习非c-colusal且易于推广的有偏见的特征。为此，我们提出了一个公正的更快的R-CNN（UFR），以进行可推广的特征学习 ...

0 0 0 2025/04/04 arXiv:2405.15225v1 武切维奇五千万

Hallucination of Multimodal Large Language Models: A Survey

此次调查对多模态大语言模型（MLLM）（又称大语言模型（LVLM））中的幻觉现象进行了全面分析，该模型在多模态任务中的表现促进了显着的进步和发展卓越的能力。尽管取得了这些希望的发展，MLLM经常生成的视觉与内容不一致的输出，这是一种称为幻觉的挑战，这在实际应用中造成了巨大的障碍，并引发了其在实际应用中的警惕性的担忧。这个问题引起了越来越多的关注高度关注，促使人们努力发现和减少此类错误......  ...

0 0 0 2025/04/04 arXiv:2404.18930v2 LittleHenry

UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets

鉴于从看不见的场景中有限数量的多视图图像，可概括的神经隐式表面重建旨在获得准确的基础几何形状。但是，现有方法仅选择使用预定义的分数进行培训和测试阶段的信息和相关观点。这种约束使该模型在现实世界中不切实际，在这种情况下，不能总是确保有利组合的可用性 ...

0 0 0 2025/04/04 arXiv:2403.05086v3 漏视野

Prototypes-oriented Transductive Few-shot Learning with Conditional Transport

转导数量少学习（TFSL）最近引起了人们越来越多的关注，因为它通常通过利用查询样品的统计数据来优于其感应同行。但是，以前的TFSL方法通常编码统一之前，查询样品中的所有类都可能同样可能，这在不平衡的TFSL中偏差，并导致严重的性能降解。 Given this pivotal issue, in this work, we propose a novel Conditional Transport  ...

0 0 0 2025/04/04 arXiv:2308.03047v1 likelc

F5R-TTS: Improving Flow Matching based Text-to-Speech with Group Relative Policy Optimization

我们提出了F5R-TTS，这是一种新颖的文本到语音（TTS）系统，该系统将梯度奖励策略优化（GRPO）集成到基于流程匹配的架构中。通过重新将匹配TT的确定性输出重新定为概率高斯分布，我们的方法可以无缝整合增强学习算法。在预训练期间，我们训练一个基于概率重新匹配的基于流动匹配的模型，该模型源自具有开源数据集的F5-TT ...

0 0 0 2025/04/04 arXiv:2504.02407v1 wenzhanwujian

Tactile-Augmented Radiance Fields

我们提出了一个场景代表，我们称之为触觉的辐射场（TARF），该场景将视觉和触摸带入共享的3D空间。该表示形式可用于估计场景中给定3D位置的视觉和触觉信号。我们从一系列照片和稀疏采样触摸探针中捕获了场景的tarf ...

0 0 0 2025/04/04 arXiv:2405.04534v1 Sm0ggy

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）