arxiv的文档

arxiv 南京

个性签名 ...

VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior

近年来，视频扩散模型（VDM）已取得了显着发展，从而能够产生高度现实的视频，并吸引社区作为世界模拟器的潜力。然而，尽管具有功能，VDMS通常由于对物理学的理解缺乏固有的理解，因此通常无法产生身体上合理的视频，从而导致了不正确的动态和事件序列。为了解决这一限制，我们提出了一个新颖的两阶段图像到视频生成框架，该框架将物理学与视觉和语言知情的物理事先合并 ...

0 0 0 0 2025/07/23 arXiv:2503.23368v3 陆三七

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos

用于模仿学习的真正机器人数据收集导致机器人操纵方面取得了重大进步。但是，在该过程中对机器人硬件的需求从根本上限制了数据的规模。在本文中，我们使用以自我为中心的人类视频探索培训视觉语言动作（VLA）模型 ...

0 0 0 0 2025/07/23 arXiv:2507.12440v3 陆三七

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

长篇文化功能与视觉理解的集成解锁了视觉语言模型（VLM）前所未有的潜力。但是，在填充阶段的二次注意复杂性仍然是现实部署的重要障碍。为了克服这一限制，我们引入了mminference（多模式性百万个 Token 推断），这是一种动态稀疏注意方法，可加速长篇文化多模式输入的预填充阶段 ...

0 0 0 0 2025/07/22 arXiv:2504.16083v2 sxxzjm

APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

上下文增强的生成（CAG）技术（包括抹布和ICL）需要有效组合多个上下文，以生成对用户查询的响应。直接输入这些上下文作为序列，通过重新编码每个请求的上下文选择，引入了相当大的计算负担。为了解决这个问题，我们探讨了并行编码以独立预发和缓存每个上下文的KV状态的有希望的潜力 ...

0 0 0 0 2025/07/22 arXiv:2502.05431v2 sxxzjm

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

本技术报告介绍了 Prithvi-EO-2.0，这是一种新的地理空间基础模型，与其前身 Prithvi-EO-1.0 相比具有显着改进 ...

0 0 0 0 2025/07/22 arXiv:2412.02732v2 godsallen

DeServe: Towards Affordable Offline LLM Inference via Decentralization

生成AI及其在日常工作流程中的迅速增长已大大增加了对大语言模型（LLM）推理服务的需求。尽管专有模型仍然很受欢迎，但开源LLM的最新进步将它们定位为强有力的竞争者。但是，部署这些模型通常受到GPU资源的高成本和有限的可用性的限制 ...

0 0 0 0 2025/07/22 arXiv:2501.14784v1 sxxzjm

Inference-Time Hyper-Scaling with KV Cache Compression

推理时间缩放量的效率通过产生更长或更高的并行序列来提高推理精度。但是，在 Transformer LLMS中，生成成本是由键值（KV）缓存的大小而不是生成的 Token 数量的瓶颈。因此，我们探讨了推理时间超级缩放：通过压缩KV缓存，我们可以在相同的计算预算内生成更多的 Token ，并进一步提高缩放推理的准确性 ...

0 0 0 0 2025/07/22 arXiv:2506.05345v1 sxxzjm

DashChat: Interactive Authoring of Industrial Dashboard Design Prototypes through Conversation with LLM-Powered Agents

企业和政府等组织通常部署的工业仪表板在各个领域的数据通信和决策支持方面越来越重要。设计工业仪表板原型由于其视觉复杂性特别具有挑战性，其中可能包括数据可视化，布局配置，点缀和动画。此外，在现实世界中，设计师经常遇到许多限制 ...

0 0 0 0 2025/07/22 arXiv:2504.12865v1 Whatsup888

CE-QArg: Counterfactual Explanations for Quantitative Bipolar Argumentation Frameworks (Technical Report)

对理解论证在定量双极论证框架（QBAFS）中的强度的兴趣越来越大。大多数现有的研究都集中在基于归因的方法上，这些方法通过将重要性得分分配给其他参数来解释论点的强度，但无法解释如何将当前强度更改为所需的强度。为了解决这个问题，我们介绍了QBAF的反事实解释 ...

0 0 0 0 2025/07/22 arXiv:2407.08497v2 带苯环的烃

Aesthetics is Cheap, Show me the Text: An Empirical Evaluation of State-of-the-Art Generative Models for OCR

文本图像是一种独特而至关重要的信息媒介，可在现代电子社会中整合视觉美学和语言语义。由于它们的微妙和复杂性，文本图像的产生代表了图像生成领域中具有挑战性且不断发展的前沿。最近的专业图像发生器的激增（\ emph {e ...

0 0 0 0 2025/07/22 arXiv:2507.15085v1 fclong