arxiv的文档

arxiv 南京

个性签名 ...

Untrained Graph Neural Networks for Denoising

信号处理中的一个基本问题是降低信号。尽管有许多表现出色的方法来定义在常规支持上定义的信号，例如在像素的二维网格上定义的图像，但在不规则的域（例如图形）上定义了许多重要的信号类别。本文介绍了两个未经训练的图形神经网络体系结构，用于图形信号denoising，在简单的设置中为其降解功能提供了理论保证，并在更一般的场景中验证了理论结果 ...

0 0 0 0 2025/08/04 arXiv:2109.11700v2 xixiaixixi

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

从静态图像中产生表现力的面部动画是一项艰巨的任务。依靠显式几何先验的先前方法（例如 ...

0 0 0 0 2025/08/04 arXiv:2507.12956v1 yanghedada

PointCFormer: a Relation-based Progressive Feature Extraction Network for Point Cloud Completion

点云完成旨在从不完整的点云中重建完整的3D形状，对于3D对象检测和分段等任务至关重要。尽管在点云分析技术中取得了持续的进步，但特征提取方法仍面临明显的局限性。点云的稀疏采样（在大多数方法中用作输入）通常会导致全球结构信息的一定丢失 ...

0 0 0 0 2025/08/04 arXiv:2412.08421v2 liushibo

FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation

跨不同应用程序的语言模型（LMS）的快速采用引起了人们对其事实的担忧，即它们与现实世界事实的一致性 ...

0 0 0 0 2025/08/04 arXiv:2410.22257v2 yang99

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

多模式的大语言模型（MLLM）取得了显着的进步，这在很大程度上是由于它们处理越来越长和复杂的上下文的能力，例如高分辨率图像，扩展的视频序列和冗长的音频输入。尽管这种能力显着增强了MLLM功能，但它引入了实质性的计算挑战，这主要是由于具有大量输入 Token 的自我发挥机制的二次复杂性。为了减轻这些瓶颈， Token 压缩已成为一种吉祥和关键的方法，从而有效地减少了训练和推理期间的 Token 数量 ...

0 0 0 0 2025/08/04 arXiv:2507.20198v3 13366395289

Query-Level Uncertainty in Large Language Models

对于大型语言模型来说，重要的是要了解其知识的边界，即识别已知和未知查询的机制。这种类型的意识可以帮助模型执行自适应推断，例如援引抹布，进行缓慢和深刻的思考或采用弃用机制，这有助于开发有效且值得信赖的AI。在这项工作中，我们提出了一种通过查询级别的不确定性来检测知识边界的方法，该方法旨在确定模型是否能够在不生成任何 Token 的情况下解决给定查询 ...

0 0 0 0 2025/08/04 arXiv:2506.09669v1 mingyu

GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset

GPT-4O等大型多模型模型的最新进展为高保真，指导引导的图像编辑设定了新的标准。但是，这些模型及其培训数据的专有性为开源研究带来了重大障碍。为了弥合这一差距，我们介绍了GPT-Image-Edit-1 ...

0 0 0 0 2025/08/04 arXiv:2507.21033v1 S.X.K

LearnLM: Improving Gemini for Learning

当今的生成AI系统被调整为默认情况下提供信息，而不是像人类导师那样吸引用户来学习学习。为了解决这些系统的广泛的潜在教育用例，我们将注入教学行为作为\ textit {教学指令之一}的挑战进行了挑战，其中培训和评估示例包括描述在后续模型中描述当前或所需的特定特定教学属性的系统级指令。该框架避免将我们的模型定为对教学法的任何特定定义，而允许教师或开发人员指定所需的模型行为 ...

0 0 0 0 2025/08/04 arXiv:2412.16429v2 yaron1123

CycleDistill: Bootstrapping Machine Translation using LLMs with Cyclical Distillation

大型语言模型（LLMS）尽管能够执行几次射击机器翻译（MT），但通常落后于专用的MT系统，该系统接受了并行语料库培训的，这对于高质量的机器翻译（MT）至关重要。但是，对于低资源语言，平行语料库通常很少或不存在。在本文中，我们提出了CycleDistill，这是利用LLM的自举方法，几乎没有射击翻译以获得高质量的MT系统 ...

0 0 0 0 2025/08/04 arXiv:2506.19952v1 NeverSettle

GFlow: Recovering 4D World from Monocular Video

从单眼视频中恢复4D世界是一项至关重要但又具有挑战性的任务。传统方法通常依赖于多视图视频，已知相机参数或静态场景的假设。在本文中，我们放松所有这些约束，并应对一项高度雄心勃勃但实用的任务：只有一个没有相机参数的单眼视频，我们旨在与相机摆姿势恢复动态的3D世界 ...

0 0 0 0 2025/08/04 arXiv:2405.18426v2 小小卡拉米