我们提出了Illyality,这是一种新颖的管道,将RGB-D扫描转换为室内环境的扫描变成紧凑,现实和交互式3D虚拟复制品。文化性不仅重建了类似于现实的场景,而且还支持图形管道必不可少的关键特征 - 例如对象个性,表达,高质量的物理呈现材料以及基于物理的互动。从本质上讲,Illyality首先执行场景理解,并在结构化场景图的帮助下将结果解析为连贯的3D布局和对象 ...
0 0 0 2025/07/13 arXiv:2507.02861v1 qinhui_cici
 Transformer 可以从全球(远程)信息建模使用自我注意机制中受益,最近在自然语言处理和2D图像分类方面已成功。但是,本地和全球特征对于密集的预测任务至关重要,尤其是对于3D医学图像分割。在本文中,我们首次将3D CNN中的 Transformer 用于MRI脑肿瘤分割,并提出了一个基于编码器解码器结构的新型网络 ...
0 0 0 2025/07/13 arXiv:2103.04430v2 尼斯湖
在线视频平台的快速增长,尤其是实时流媒体服务,迫切需要实时视频理解系统。这些系统必须处理连续的视频流并立即响应用户查询,这对当前的视频大型语言模型(视频学)提出了独特的挑战。尽管现有的视频在处理完整的视频方面表现出色,但由于无法有效处理密集的冗余帧,因此它们在流媒体方案中面临重大限制 ...
0 0 0 2025/07/13 arXiv:2504.17343v1 18832252926
本文研究了回归测试时间适应(TTA),其中预先训练源域中预先训练的回归模型适用于没有标记的目标数据的未知目标分布。尽管回归是机器学习中的基本任务之一,但大多数现有的TTA方法都具有特定于分类的设计,该设计假设模型输出类别类别预测,而回归模型通常仅输出单个标量值。为了启用TTA进行回归,我们采用了一种特征对齐方法,该方法将源和目标域之间的特征分布对齐以减轻域间隙 ...
0 0 0 2025/07/13 arXiv:2410.03263v2 mmmmp
这是关于模块化发展的调查文章,自Fermat的最后定理证明以来,重点是该主题的历史发展,而不是任何技术细节 ...
0 0 0 2025/07/13 arXiv:2109.14145v1 fazai001
基础模型已成为时间序列预测(TSF)中一种有前景的方法。现有方法要么微调大型语言模型 (LLM),要么构建大规模时间序列数据集来开发 TSF 基础模型。然而,由于严重的跨域差距或域内异质性,这些方法面临挑战 ...
0 0 0 2025/07/13 arXiv:2408.17253v4 guoyubo
视频语言(VIDL)建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行,先前的作品倾向于“幻想”视频输入,即 ...
0 0 0 2025/07/13 arXiv:2111.12681v2 chengwenxuan7
主流视频语言预训练模型\ cite {actbert,clipbert,紫罗兰}由三个部分,视频编码器,文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能,从而增加参数,而在下游任务中效率较低。在这项工作中,我们首次引入端到端的视频语言模型,即\ textit {All-In-In-In-One Transfo ...
0 0 0 2025/07/13 arXiv:2203.07303v1 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)