arxiv的文档

arxiv 南京

个性签名 ...

LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans

我们提出了Illyality，这是一种新颖的管道，将RGB-D扫描转换为室内环境的扫描变成紧凑，现实和交互式3D虚拟复制品。文化性不仅重建了类似于现实的场景，而且还支持图形管道必不可少的关键特征 - 例如对象个性，表达，高质量的物理呈现材料以及基于物理的互动。从本质上讲，Illyality首先执行场景理解，并在结构化场景图的帮助下将结果解析为连贯的3D布局和对象 ...

0 0 0 0 2025/07/13 arXiv:2507.02861v1 qinhui_cici

TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

Transformer 可以从全球（远程）信息建模使用自我注意机制中受益，最近在自然语言处理和2D图像分类方面已成功。但是，本地和全球特征对于密集的预测任务至关重要，尤其是对于3D医学图像分割。在本文中，我们首次将3D CNN中的 Transformer 用于MRI脑肿瘤分割，并提出了一个基于编码器解码器结构的新型网络 ...

0 0 0 0 2025/07/13 arXiv:2103.04430v2 尼斯湖

TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

在线视频平台的快速增长，尤其是实时流媒体服务，迫切需要实时视频理解系统。这些系统必须处理连续的视频流并立即响应用户查询，这对当前的视频大型语言模型（视频学）提出了独特的挑战。尽管现有的视频在处理完整的视频方面表现出色，但由于无法有效处理密集的冗余帧，因此它们在流媒体方案中面临重大限制 ...

0 0 0 0 2025/07/13 arXiv:2504.17343v1 18832252926

Test-time Adaptation for Regression by Subspace Alignment

本文研究了回归测试时间适应（TTA），其中预先训练源域中预先训练的回归模型适用于没有标记的目标数据的未知目标分布。尽管回归是机器学习中的基本任务之一，但大多数现有的TTA方法都具有特定于分类的设计，该设计假设模型输出类别类别预测，而回归模型通常仅输出单个标量值。为了启用TTA进行回归，我们采用了一种特征对齐方法，该方法将源和目标域之间的特征分布对齐以减轻域间隙 ...

0 0 0 0 2025/07/13 arXiv:2410.03263v2 mmmmp

Reciprocity in the Langlands program since Fermat's Last Theorem

这是关于模块化发展的调查文章，自Fermat的最后定理证明以来，重点是该主题的历史发展，而不是任何技术细节 ...

0 0 0 0 2025/07/13 arXiv:2109.14145v1 fazai001

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

基础模型已成为时间序列预测（TSF）中一种有前景的方法。现有方法要么微调大型语言模型 (LLM)，要么构建大规模时间序列数据集来开发 TSF 基础模型。然而，由于严重的跨域差距或域内异质性，这些方法面临挑战 ...

0 0 0 0 2025/07/13 arXiv:2408.17253v4 guoyubo

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

视频语言（VIDL）建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行，先前的作品倾向于“幻想”视频输入，即 ...

0 0 0 0 2025/07/13 arXiv:2111.12681v2 chengwenxuan7

All in One: Exploring Unified Video-Language Pre-training

主流视频语言预训练模型\ cite {actbert，clipbert，紫罗兰}由三个部分，视频编码器，文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能，从而增加参数，而在下游任务中效率较低。在这项工作中，我们首次引入端到端的视频语言模型，即\ textit {All-In-In-In-One Transformer}，该模型将原始视频和文本信号嵌入使用统一的骨干架构中 ...

0 0 0 0 2025/07/13 arXiv:2203.07303v1 chengwenxuan7

Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation

大多数端到端的自主驾驶方法都依赖于单个专家演示的模仿学习，这通常导致保守和同质行为，这些行为限制了在复杂的现实世界情景中的概括。在这项工作中，我们提出了Diver，这是一个端到端的驾驶框架，将增强学习与基于扩散的生成集成在一起，以产生多样化和可行的轨迹。潜水员的核心是基于增强扩散的生成机制 ...

0 0 0 0 2025/07/13 arXiv:2507.04049v1 longgangganggang

Predicting the large-scale evolution of tag systems

我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段，其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性，包括生长速率和弦密度 ...

0 0 0 0 2025/07/13 arXiv:1601.02014v2 parsifalster