一译 —— 文档和论文翻译、对照阅读、讨论和社区

肥胖现象被称为繁重的问题，是全球可预防的慢性疾病的主要原因。传统的卡路里估计工具通常依赖于特定的数据格式或复杂的管道，从而限制了它们在实际情况下的实用性。最近，视觉模型（VLM）在理解现实世界的环境和实现对话互动方面表现出色，使其成为下游任务（例如成分分析）的理想选择 ...

0 0 0 2025/04/12 arXiv:2412.09936v1 baibaili

控制文本到语音（TTS）系统将语音与用户预期的韵律特征合成的韵律引起了很多关注。为了实现可控性，当前的研究集中在两个主要方向上：（1）使用参考语音作为韵律提示指导语音综合，以及（2）使用自然语言描述来控制生成过程。但是，找到准确包含用户想要合成的韵律的参考语音需要大量精力 ...

0 0 0 2025/04/12 arXiv:2501.04256v1 阿巍

流程奖励模型（PRM）在大型语言模型（LLMS）的复杂推理任务中表现出了成功。但是，由于缺乏系统的方法和评估基准，它们在机器翻译（MT）上的应用仍未得到充实。为了解决此差距，我们介绍了\ textbf {Mt-rewardtree}，这是MT中构建，评估和部署过程奖励模型的综合框架 ...

0 0 0 2025/04/12 arXiv:2503.12123v1 ChenSF1998

近年来，通用多模态大语言模型（MLLM）迅速发展。然而，将通用 MLLM 应用于特定领域（例如科学领域和工业应用）的探索仍然较少。本文通过后训练系统地研究了 MLLM 的领域适应，重点关注数据合成、训练流程和任务评估 ...

0 0 0 2025/04/12 arXiv:2411.19930v2 baibaili

无监督跨域图像检索（UCIR）旨在检索跨不同域共享同一类别的图像，而不依赖于标记数据。先前的方法通常将 UCIR 问题分解为两个不同的任务：域内表示学习和跨域特征对齐。然而，这些分离的策略忽视了这些任务之间的潜在协同作用 ...

0 0 0 2025/04/12 arXiv:2402.18411v4 0123456789

大型语言模型（LLM）正在发展，超越了在对话系统中提供信息的经典作用，以积极参与工具并在现实世界应用程序和服务上执行操作。如今，人类验证LLM生成的产出的正确性和适当性（例如 ...

0 0 0 2025/04/12 arXiv:2404.06921v1 Extious

深卷积神经网络（CNN）的准确性通常在用高分辨率图像加油时会提高。但是，这通常具有高计算成本和高内存足迹。受图像中并非所有区域都与任务相关的事实的启发，我们提出了一个新颖的框架，该框架通过处理一系列相对较小的输入来执行有效的图像分类，这些序列是从原始图像中策略性地从原始图像中选择的 ...

0 0 0 2025/04/12 arXiv:2010.05300v1 q774798577

深度卷积神经网络（CNN）通常是具有精致设计的，其准确的原因是许多可学习的参数。为了减轻将它们部署在移动设备上的昂贵成本，最近的作品为挖掘预定义建筑的冗余做出了巨大努力。然而，尚未对现代CNN的输入解决方案的冗余进行全面研究，即 ...

0 0 0 2025/04/12 arXiv:2106.02898v3 q774798577