arxiv的文档

arxiv 南京

个性签名 ...

Linking forward-pass dynamics in Transformers and real-time human processing

现代AI模型越来越多地用作研究人类认知的理论工具。一种主要方法是评估模型的输出是否预测了人类衍生的措施（例如离线判断或实时处理）：即通过网络的远期通行证（ES）的最终产物。同时，机械性解释性的最新进展已经开始揭示导致模型产出的内部过程，从而提出了模型和人类是否使用类似的“处理策略”达到产出的问题 ...

0 0 0 0 2025/06/22 arXiv:2504.14107v2 林雨馨

ByteCheckpoint: A Unified Checkpointing System for LLM Development

现实世界中大型语言模型（LLM）的开发需要对持续存储中的培训状态进行检查点，以减轻潜在的软件和硬件故障，并促进培训管道中的检查点传输以及各种任务。由于LLM的巨大尺寸，节省和加载检查点通常会引起无法忍受的分钟档位，从而大大降低了训练效率。此外，当跨任务传输检查点时，通常根据特定任务的特征和资源配额，将检查点重新定义为将检查点定义为与用于保存的检查点不同的并行配置 ...

0 0 0 0 2025/06/22 arXiv:2407.20143v4 兔子的斐波那契

A Neural Dirichlet Process Mixture Model for Task-Free Continual Learning

尽管对持续学习的兴趣日益增加，但在一个相当有限的设置中，已经研究了大多数当代作品，在这个设置中，任务明显区分，并且在培训期间已知任务边界。但是，如果我们的目标是开发一种像人类一样学习的算法，那么这种设置远非现实，并且必须开发以无任务方式工作的方法。同时，在持续学习的几个分支中，基于扩展的方法具有消除灾难性遗忘的优势，通过分配新资源来学习新数据 ...

0 0 0 0 2025/06/22 arXiv:2001.00689v2 hanju

Few-Shot Lifelong Learning

许多现实世界的分类问题通常会有很少的标签培训样本的课程。此外，所有可能的课程最初可能无法用于培训，并且可以逐步给出。深度学习模型需要处理这个两倍的问题，以便在现实生活中表现良好 ...

0 0 0 0 2025/06/22 arXiv:2103.00991v1 hanju

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

无人驾驶飞机（UAV）正在发展为语言相互作用的平台，从而实现了更直观的人类无人机相互作用。尽管先前的工作主要集中在高级计划和长途导航上，但我们将注意力转移到了语言引导的细粒轨迹控制上，在该控制中，无人机对语言指令进行短期短程，反应性飞行行为。我们将这个问题形式化为“流”任务（流）任务，并将无人机模仿学习作为一种有效的方法 ...

0 0 1 3 2025/06/22 arXiv:2505.15725v2 mencius

TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis

时间序列分析在众多应用中发挥着关键作用，支持预测、分类、异常检测和插补等任务。在这项工作中，我们提出了时间序列模式机（TSPM），该模型旨在通过强大的表示和模式提取功能在广泛的时间序列任务中表现出色。传统的时间序列模型通常难以捕捉通用模式，从而限制了它们在不同任务中的有效性 ...

0 0 0 0 2025/06/22 arXiv:2410.16032v5 nnstake

AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture

VLM的成功通常取决于动态的高分辨率模式，该模式将输入图像适应到多种农作物，以便可以保留图像的细节。但是，这种方法导致大量冗余的视觉 Token ，从而显着降低了VLM的效率。为了提高VLMS的效率而不引入额外的培训成本，提出了许多研究工作，以通过过滤无信息的视觉 Token 或汇总其信息来减少视觉 Token ...

0 0 0 0 2025/06/22 arXiv:2501.09532v2 18811558339

Mr. DETR: Instructive Multi-Route Training for Detection Transformers

现有方法通过合并辅助一对多的分配来增强检测 Transformer 的训练。在这项工作中，我们将模型视为一个多任务框架，同时执行一对一和一对一的预测。我们研究了在这两个训练目标中，每个组件在 Transformer 解码器中的作用，包括自我注意力，交叉注意力和前馈网络 ...

0 0 0 0 2025/06/22 arXiv:2412.10028v3 userpasf

Test-Time Domain Generalization via Universe Learning: A Multi-Graph Matching Approach for Medical Image Segmentation

尽管域的概括（DG）已经显着解决了由域移动引起的预训练模型的性能降低，但它通常在现实世界的部署中不足。使用未标记的测试数据调整了学习模型的测试时间适应（TTA）提出了有希望的解决方案。但是，大多数现有的TTA方法都难以在医学图像细分中实现强大的性能，这主要是因为它们忽略了医学图像固有的至关重要的先验知识 ...

0 0 0 0 2025/06/22 arXiv:2503.13012v1 userpasf

Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation

大型语言模型（LLM）越来越需要生成在各种开放式应用程序中既准确又多样的文本。但是，当前的随机解码方法努力平衡此类目标。我们介绍了动态焦点解码（DFD），这是一种新颖的插件随机方法，可以解决这种权衡，而无需其他数据，知识或模型 ...

0 0 0 0 2025/06/22 arXiv:2503.08057v2 gfsadasaf