arxiv的文档

arxiv 南京

个性签名 ...

Unified Vision-Language-Action Model

视觉语言动作模型（VLAS）因其在推进机器人操作方面的潜力而引起了极大的关注。但是，以前的方法主要依赖视觉模型（VLM）的一般理解能力来生成动作信号，通常忽略了嵌入在视觉观察中的丰富时间和因果结构。在本文中，我们提出了Univla，这是一种统一的和天然的多模式VLA模型，可自动重新调查将视觉，语言和动作信号作为离散 Token 序列建模 ...

0 0 0 0 2025/06/27 arXiv:2506.19850v1 蔡明方

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

视觉语言动作（VLA）模型通过整合用于机器人操作的动作产生模块来扩展视觉模型（VLM）。 VLA模型利用VLM在视觉感知和教学理解中的优势，在各种操纵任务中表现出有希望的概括。但是，需要高精度和准确性的应用程序揭示了性能差距而没有进一步适应 ...

0 0 0 0 2025/06/27 arXiv:2506.20966v1 蔡明方

WorldVLA: Towards Autoregressive Action World Model

我们提出WorldVla，这是一种自回归的行动世界模型，它统一了行动，图像理解和产生。我们的WorldVLA将视觉语言动作（VLA）模型和世界模型与一个单一框架相互融合。世界模型通过利用动作和图像理解来预测未来的图像，以学习环境的潜在物理学以改善动作的产生 ...

0 0 0 0 2025/06/27 arXiv:2506.21539v1 蔡明方

M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance

我们提出了M2-omni，这是一种尖端的开源Omni-Mllm，可实现GPT-4O的竞争性能。 M2-OMNI采用统一的多模式序列建模框架，该框架授权大型语言模型（LLMS）获得综合的跨模式理解和发电能力。具体而言，M2-OMNI可以处理音频，视频，图像和文本模式的任意组合，作为输入，生成与音频，图像或文本输出相互交织的多模式序列，从而启用高级和交互式的实时体验 ...

0 0 0 0 2025/06/27 arXiv:2502.18778v3 alex666

Contrastive language and vision learning of general fashion concepts

在线购物的稳定上升与日益复杂的ML和NLP模型的发展息息相关。虽然大多数用例都是作为专门监督的学习问题而施放的，但我们认为从业者将从更可转移的产品表示中受益匪浅。在这项工作中，我们基于对比型学习的最新发展，以培训FashionClip，这是一种类似于时装行业的剪辑模型 ...

0 0 1 2 2025/06/27 arXiv:2204.03972v4 jeft

UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning

配备了外部工具的大型语言模型（LLM）代理已经变得越来越强大，例如网络购物，自动化电子邮件答复和财务交易。但是，这些进步扩大了对抗攻击的风险，尤其是当代理可以访问敏感的外部功能时。然而，操纵LLM代理执行有针对性的恶意行动或调用特定工具仍然具有挑战性，因为这些代理在执行最终措施之前广泛地推理或计划 ...

0 0 0 0 2025/06/27 arXiv:2503.01908v2 hhhhh

Contrastive Learning for Cold-Start Recommendation

推荐冷启动物品是推荐系统中的长期且根本的挑战。没有关于冷启动项目的任何历史互动，CF方案无法使用协作信号来推断这些项目的用户偏好。为了解决这个问题，已经进行了广泛的研究，以将侧面信息纳入CF方案 ...

0 0 0 0 2025/06/27 arXiv:2107.05315v3 llsun

BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance

Bird's-eye-View（BEV）表示在自主驾驶任务中起着至关重要的作用。尽管BEV生成的最新进展，但固有的噪声（源于传感器局限性和学习过程）在很大程度上仍未得到解决，从而导致次优的BEV表示，从而对下游任务的性能产生不利影响。为了解决这个问题，我们提出了Bevdiffuser，这是一个新型扩散模型，可以使用地面真实对象布局作为指导有效地确定BEV特征图 ...

0 0 0 0 2025/06/27 arXiv:2502.19694v2 dz

On Inductive Biases for Heterogeneous Treatment Effect Estimation

我们研究了如何在不同处理下利用个人潜在结果（POS）的结构相似性，以更好地估计有限样品中有条件的平均治疗效应。尤其是当尚不清楚治疗是否完全作用时，自然可以假设POS是相似的 - 然而，一些现有的治疗效果策略采用正则化方案，即使不存在并且无法完全利用共享结构，这些方案即使它也暗中鼓励异质性。在本文中，我们调查并比较了三种端到端的学习策略来克服这个问题 - 基于正则化，重新配置和灵活的多任务架构 - 每个编码诱导性偏见都有偏向于POS的共享行为 ...

0 0 0 0 2025/06/27 arXiv:2106.03765v2 zhr

Triton-distributed: Programming Overlapping Kernels on Distributed AI Systems with the Triton Compiler

在本报告中，我们提出了现有Triton编译器的扩展的Triton-Distribed，以克服分布式AI系统中的编程挑战。 Triton-Distribed是第一个支持分布式AI工作负载的本机重叠优化的编译器，从而很好地覆盖了来自不同框架的现有优化。首先，我们将符合OpenSHMEM标准的通信原始功率集成到编译器中 ...

0 0 0 0 2025/06/27 arXiv:2504.19442v3 lee_e