肥胖现象被称为繁重的问题,是全球可预防的慢性疾病的主要原因。传统的卡路里估计工具通常依赖于特定的数据格式或复杂的管道,从而限制了它们在实际情况下的实用性。最近,视觉模型(VLM)在理解现实世界的环境和实现对话互动方面表现出色,使其成为下游任务(例如成分分析)的理想选择 ...
0 0 0 2025/04/12 arXiv:2412.09936v1 baibaili
控制文本到语音(TTS)系统将语音与用户预期的韵律特征合成的韵律引起了很多关注。为了实现可控性,当前的研究集中在两个主要方向上:(1)使用参考语音作为韵律提示指导语音综合,以及(2)使用自然语言描述来控制生成过程。但是,找到准确包含用户想要合成的韵律的参考语音需要大量精力 ...
0 0 0 2025/04/12 arXiv:2501.04256v1 阿巍
流程奖励模型(PRM)在大型语言模型(LLMS)的复杂推理任务中表现出了成功。但是,由于缺乏系统的方法和评估基准,它们在机器翻译(MT)上的应用仍未得到充实。为了解决此差距,我们介绍了\ textbf {Mt-rewardtree},这是MT中构建,评估和部署过程奖励模型的综合框架 ...
0 0 0 2025/04/12 arXiv:2503.12123v1 ChenSF1998
近年来,通用多模态大语言模型(MLLM)迅速发展。然而,将通用 MLLM 应用于特定领域(例如科学领域和工业应用)的探索仍然较少。本文通过后训练系统地研究了 MLLM 的领域适应,重点关注数据合成、训练流程和任务评估 ...
0 0 0 2025/04/12 arXiv:2411.19930v2 baibaili
无监督跨域图像检索(UCIR)旨在检索跨不同域共享同一类别的图像,而不依赖于标记数据。先前的方法通常将 UCIR 问题分解为两个不同的任务:域内表示学习和跨域特征对齐。然而,这些分离的策略忽视了这些任务之间的潜在协同作用 ...
0 0 0 2025/04/12 arXiv:2402.18411v4 0123456789
大型语言模型(LLM)正在发展,超越了在对话系统中提供信息的经典作用,以积极参与工具并在现实世界应用程序和服务上执行操作。如今,人类验证LLM生成的产出的正确性和适当性(例如 ...
0 0 0 2025/04/12 arXiv:2404.06921v1 Extious
深卷积神经网络(CNN)的准确性通常在用高分辨率图像加油时会提高。但是,这通常具有高计算成本和高内存足迹。受图像中并非所有区域都与任务相关的事实的启发,我们提出了一个新颖的框架,该框架通过处理一系列相对较小的输入来执行有效的图像分类,这些序列是从原始图像中策略性地从原始图像中选择的 ...
0 0 0 2025/04/12 arXiv:2010.05300v1 q774798577
深度卷积神经网络(CNN)通常是具有精致设计的,其准确的原因是许多可学习的参数。为了减轻将它们部署在移动设备上的昂贵成本,最近的作品为挖掘预定义建筑的冗余做出了巨大努力。然而,尚未对现代CNN的输入解决方案的冗余进行全面研究,即 ...
0 0 0 2025/04/12 arXiv:2106.02898v3 q774798577

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)