一译 —— 文档和论文翻译、对照阅读、讨论和社区

自动驾驶汽车越来越依赖深度神经网络来实现类人驾驶。然而，这种黑匣子运动规划器的不透明性使得驾驶员很难准确预测它们何时会失败，并可能带来灾难性的后果。在这里，我们介绍概念包装网络（i. ...

0 0 0 2025/01/09 arXiv:2411.18714v1 jesson

复杂场景下多智能体的轨迹预测对于自动驾驶等应用至关重要。然而，现有方法常常忽视环境偏差，导致泛化能力较差。此外，硬件限制限制了跨环境大规模数据的使用，而持续的学习设置加剧了灾难性遗忘的挑战 ...

0 0 0 2025/01/09 arXiv:2411.12313v1 jesson

美国法院将口头辩论的录音作为公共记录提供，但这些录音很少包括发言者注释。本文解决了语音音频分类问题，回答了“谁在何时说话？”的问题。在司法口头辩论程序领域。我们提出了一个使用口头辩论录音来记录法官演讲的工作流程，我们将这个过程称为“参考相关说话人验证” ...

0 0 0 2025/01/09 arXiv:2104.01304v1 wenwen

多跳工具使用的有效评估对于分析大型语言模型 (LLM) 的理解、推理和函数调用能力至关重要。然而，由于缺乏可靠的评估数据集，进展受到阻碍。为了解决这个问题，我们提出了 ToolHop，这是一个包含 995 个用户查询和 3,912 个相关工具的数据集，专门为严格评估多跳工具的使用而设计 ...

0 0 0 2025/01/09 arXiv:2501.02506v2 liuweitang

这项工作提出了一个基于特征解缠的框架，用于学习对环境变化具有鲁棒性的说话者嵌入。我们的框架利用自动编码器作为解缠器，将输入说话者嵌入划分为与说话者和其他残留信息相关的组件。我们采用一组目标函数来确保自动编码器的代码表示（用作细化嵌入）仅压缩说话者特征 ...

0 0 0 2025/01/09 arXiv:2406.14559v1 wenwen

深度神经网络擅长学习训练数据，但在稍微不同的测试示例上进行评估时，通常会提供错误且可信的预测。这包括分布变化、异常值和对抗性例子。为了解决这些问题，我们提出了 Manifold Mixup，这是一种简单的正则化器，它鼓励神经网络对隐藏表示的插值进行不太自信的预测 ...

0 0 0 2025/01/09 arXiv:1806.05236v7 Ann96125

图像质量评估（IQA）是几乎所有计算机视觉领域中所有模型性能的黄金标准。然而，它仍然存在分布外泛化能力差和训练成本昂贵的问题。为了解决这些问题，我们提出了 Dog-IQA，这是一种标准引导的零样本混合粒度 IQA 方法，该方法无需训练，并利用多模态大语言模型 (MLLM) 的特殊先验知识 ...

0 0 0 2025/01/09 arXiv:2410.02505v2 rich_eggs

自监督学习（SSL）模型面临着突然的信息崩溃或缓慢的维度崩溃的挑战。我们提出了 TriNet，它引入了一种新颖的三分支架构，用于防止崩溃并稳定预训练。 TriNet 学习 SSL 潜在嵌入空间并将其合并到更高级别的空间中，以预测由冻结的教师生成的伪目标向量 ...

0 0 0 2025/01/09 arXiv:2301.00656v2 wenwen