文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...
0 0 0 2025/09/13 arXiv:2509.04545v3 smallz
准确的新闻表示对于新闻推荐至关重要。大多数现有的新闻表示方法仅从新闻文本中学习新闻表示,而忽略了图像之类的新闻中的视觉信息。实际上,用户不仅可以单击新闻,这不仅是因为对新闻标题的兴趣,而且还因为新闻图像的吸引力 ...
0 0 0 2025/09/13 arXiv:2104.07407v2 Goodhao
移情对于在口语对话系统中实现自然互动至关重要,使机器能够对年龄,性别和情感等副语言提示识别并适当地做出反应。端到端语言模型的最新进展(统一语音理解和产生)提供了有希望的解决方案。但是,一些挑战持续存在,包括过度依赖大规模对话数据集,对传达同理心至关重要的副语言提示的提取不足,以及缺乏特定于移情的数据集和评估框架 ...
0 0 0 2025/09/13 arXiv:2508.09600v2 CJY1018
随着大语言模型(LLM)的快速发展,增强学习(RL)已成为增强LLMS推理能力的关键方法。与传统的培训方法不同,RL包括多个阶段:推出,奖励和培训,这需要在各种工人类型之间进行协作。但是,由于两个主要因素,当前的RL系统继续努力应对大量的GPU未充分利用:(1)由于测试时间缩放,推出阶段主导了整体RL过程; (2)推出长度的不平衡(在同一批次内)导致GPU气泡 ...
0 0 0 2025/09/13 arXiv:2508.18588v1 tianjianjjj
深度学习模型已被广泛应用于快速MRI。大多数现有的深度学习模型,例如 ...
0 0 0 2025/09/13 arXiv:2302.10273v1 userpasf
高斯分裂已成为一种用于新型视图合成的高性能技术,从而实现了实时渲染和小场景的高质量重建。但是,到目前为止,扩展到较大的环境已经依靠将场景划分为块 - 这种策略在块边界引入文物,使跨不同尺度的训练变得复杂,并且非常适合非结构化的场景,例如城市规模的天桥,结合街道级别的视图。此外,渲染基本上仍然受GPU记忆的限制,因为所有可见的块必须同时存在于VRAM中 ...
0 0 0 2025/09/13 arXiv:2507.01110v2 ututjinh
3D异常检测对于工业质量检查至关重要。尽管现有方法取得了显着的进步,但由于全球信息不足,它们的性能在高精度3D异常检测中降低。为了解决这个问题,我们提出了多视图重建(MVR),该方法无效地将高分辨率点云转换为多视图图像,并采用基于重建的异常检测框架来增强全球信息学习 ...
0 0 0 2025/09/13 arXiv:2507.21555v1 ggggggsm
(火烈鸟)示例来实现少样本学习,而且还可以提供涉及图像之间交互的更复杂的提示,而且还可以提供涉及图像之间交互的更复杂的提示,例如... ...
0 0 0 2025/09/13 arXiv:2304.06939v3 TwoSugar

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)