arxiv的文档

arxiv 南京

个性签名 ...

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

视频语言（VIDL）建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行，先前的作品倾向于“幻想”视频输入，即 ...

0 0 0 0 2025/07/13 arXiv:2111.12681v2 chengwenxuan7

All in One: Exploring Unified Video-Language Pre-training

主流视频语言预训练模型\ cite {actbert，clipbert，紫罗兰}由三个部分，视频编码器，文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能，从而增加参数，而在下游任务中效率较低。在这项工作中，我们首次引入端到端的视频语言模型，即\ textit {All-In-In-In-One Transformer}，该模型将原始视频和文本信号嵌入使用统一的骨干架构中 ...

0 0 0 0 2025/07/13 arXiv:2203.07303v1 chengwenxuan7

Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation

大多数端到端的自主驾驶方法都依赖于单个专家演示的模仿学习，这通常导致保守和同质行为，这些行为限制了在复杂的现实世界情景中的概括。在这项工作中，我们提出了Diver，这是一个端到端的驾驶框架，将增强学习与基于扩散的生成集成在一起，以产生多样化和可行的轨迹。潜水员的核心是基于增强扩散的生成机制 ...

0 0 0 0 2025/07/13 arXiv:2507.04049v1 longgangganggang

Predicting the large-scale evolution of tag systems

我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段，其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性，包括生长速率和弦密度 ...

0 0 0 0 2025/07/13 arXiv:1601.02014v2 parsifalster

ResSVD: Residual Compensated SVD for Large Language Model Compression

大型语言模型（LLM）在各种下游自然语言处理任务中表现出了令人印象深刻的功能。然而，它们的大小和内存需要阻碍实际部署，强调了制定有效的压缩策略的重要性。奇异值分解（SVD）将矩阵分解为正交组件，从而实现有效的低级近似值 ...

0 0 0 0 2025/07/13 arXiv:2505.20112v2 szfmsmdx

The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains

语言模型的改进通常是通过提高我们对数据训练的数据的质量来驱动的，当稀缺的强烈监督时，这可能会限制。在这项工作中，我们表明，由个别弱数据点组成的配对偏好数据可以超出每个单个数据点的强度。我们制定了三角洲学习假设来解释这一现象，认为点之间的相对质量三角洲足以通过偏好调整来驱动学习 - 即使在监督弱数据上进行填充时，也会受到较弱的数据伤害 ...

0 1 0 0 2025/07/12 arXiv:2507.06187v1 smpublic

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

尽管近年来在语言模型（LMS）方面取得了不可思议的进步，但主要是由于从设计的特定任务的专业模型转变为基于强大的体系结构（例如 Transformer ）的一般模型，这些模型从原始数据中学习了所有内容，这些步骤（例如，诸如 Token 化）仍然是真正端到端端到端基础模型的障碍 ...

0 0 0 0 2025/07/12 arXiv:2507.07955v1 hwrabbit

QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training

临床决策通常要求对异质数据进行推理，但是现有的多模式模型（MLLM）仍然基本以视力为中心，并且无法跨越临床专业。为了弥合这一差距，我们介绍了QOQ-MED-7B/32B，这是第一个开放的通用临床基础模型，该模型在医学图像，时间序列信号和文本报告中共同考虑。 QOQ-MED接受了域感知相对政策优化（DRPO）的训练，这是一个新颖的加强学习目标，根据域稀有性和模态难度，层次结构缩放归一化的奖励，从而减轻了由偏斜的临床数据分布引起的性能失衡 ...

0 0 0 0 2025/07/12 arXiv:2506.00711v1 duyuetian

Time-Aware Neighbor Sampling for Temporal Graph Networks

我们在时间图上提出了一种新的邻居抽样方法。在时间图中，预测不同节点的时间变化属性可能需要各种时间尺度的接受邻居。在这项工作中，我们提出了TNS（时间感知的邻居采样）方法：TNS从时间信息中学习，以随时为每个节点提供自适应的接受邻域 ...

0 0 0 0 2025/07/12 arXiv:2112.09845v1 jupiter078495

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor

多模式大语言模型（MLLM）的最新进展已启用基于图像的问答功能。但是，一个关键的限制是将夹子用作视觉编码器。尽管它可以捕获粗糙的全局信息，但通常会错过与输入查询相关的细粒细节。为了解决这些缺点，这项工作研究了预训练的文本对图像扩散模型是否可以用作具有指导感知的视觉编码器 ...

0 0 0 0 2025/07/12 arXiv:2507.07106v1 18811558339