arxiv的文档

arxiv 南京

个性签名 ...

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech

这项研究的目的是从无声说话的面部视频中产生高质量的演讲，这是一项被称为视频到语音综合的任务。视频到语音综合的一个重大挑战在于无声视频和多方面的语音之间的巨大方式差距。在本文中，我们提出了一个新颖的视频到语音系统，该系统有效地弥合了这种方式差距，从而大大提高了综合语音的质量 ...

0 0 0 0 2025/07/22 arXiv:2503.16956v1 高一辰

Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization

视觉语言动作（VLA）模型在对其视觉和语言组件的丰富知识驱动的驱动下，显示出了显着的成就。然而，实现通才机器人的剂需要精确的接地，尤其是在接触良好的场景中，精细颗粒力控制至关重要。我们将VLAS的隐式知识推向了确定要做什么，而是指导如何与现实世界进行物理互动 ...

0 0 0 0 2025/07/22 arXiv:2507.09160v1 odenkkk

System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective

基于语言模型的大型系统（LLM系统）是信息和查询处理系统，使用LLMS从天然语言提示计划操作，并将每个连续步骤的输出输出进入LLM，以计划下一个。这种结构会产生强大的工具，可以从各种来源处理复杂的信息，但引起了关键的安全问题。 LLM可以处理任何来源的恶意信息，并可能损害查询处理，从而导致几乎任意的不当行为 ...

0 0 0 0 2025/07/22 arXiv:2409.19091v2 hhhhh

SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning

从自然语言中综合SQL查询是一个长期存在的开放问题，最近引起了人们的兴趣。为了解决问题，事实上的方法是采用序列到序列式模型。这种方法必定需要序列化SQL查询 ...

0 0 0 0 2025/07/22 arXiv:1711.04436v1 18615265796

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions

现有的视频框架插值（VFI）模型在接受非均匀运动的视频（例如加速，减速和变化的方向）进行训练时，往往会遭受时间表的歧义，这通常会产生模糊的插值框架。在本文中，我们提出了（i）新型运动描述图，双向运动场（BIM），以有效地描述非均匀运动；（ii）带有内容感知到的UPS采样网络（CAUN）的BIM引导流净（BIMFN），以进行精确的光流估计；（iii）以VFI为中心的流量监督（KDVCF）的知识蒸馏，以使用以VFI为中心的教师流进行监督VFI模型的运动估计。提出的VFI称为双向运动场引导VFI（BIM-VFI）模型 ...

0 0 0 0 2025/07/22 arXiv:2412.11365v4 walterfdh

FlashSpeech: Efficient Zero-Shot Speech Synthesis

语言模型和扩散模型极大地推进了大规模零样本语音合成的最新进展。然而，这两种方法的生成过程都很慢并且计算量大。使用较低的计算预算实现高效的语音合成以达到与以前的工作相当的质量仍然是一个重大挑战 ...

0 0 0 0 2025/07/22 arXiv:2404.14700v4 高一辰

PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection

视觉 Transformer （VIT）在各种视觉任务上取得了巨大的成功，但是它们对数据分布变化和固有的电感偏见的稳健性仍然没有得到充实。为了增强VIT模型的鲁棒性，用于图像分布（OOD）检测，我们引入了一个新颖的通用框架，名为“先验视觉 Transformer ”（PVIT）。作为输入，我们从验证的模型中列出了先前的类逻辑，我们将pvit训练以预测类逻辑 ...

0 0 0 0 2025/07/22 arXiv:2410.20631v2 zfk666

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

Triton是一种高级Python的语言，旨在建造有效的GPU内核，由于其可移植性，灵活性和可访问性，在深度学习框架中被广泛采用。但是，编程和并行优化仍需要特里顿开发人员的大量试用和错误。尽管传统代码生成的大语言模型（LLMS）的进步，但这些模型仍在努力生成准确，性能优化的Triton代码，因为它们缺乏对其规格及其GPU编程的复杂性的认识 ...

0 0 0 0 2025/07/22 arXiv:2502.14752v1 ck0123

PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving

大型语言模型（LLM）在各种应用程序中广泛使用，但是它们的实质性计算要求构成了重大挑战，尤其是在HBM带宽瓶颈和设备间通信开销方面。在本文中，我们提出了一个新颖的预取框架，旨在通过与集体通信操作重叠的模型权重和KV-CACHE重叠的内存读取来优化LLM推断。通过对商业AI加速器进行的广泛实验，我们证明了多达1个 ...

0 0 0 0 2025/07/22 arXiv:2501.08192v2 lhcezx

MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution

由于短暂和微妙的微表达（ME）作用，面部微表达识别（MER）是一个具有挑战性的问题。大多数现有方法取决于手工制作的功能，诸如发作，顶点和偏移框架（偏移框架）或深层网络限制了小型和低多样性数据集的深网。在本文中，我们提出了一个端到端微动作感知的深度学习框架，具有 Transformer ，图形卷积和香草卷积的优势 ...

0 0 0 0 2025/07/22 arXiv:2506.14511v1 APlayBoy