arxiv的文档

arxiv 南京

个性签名 ...

POEM: Precise Object-level Editing via MLLM control

扩散模型已显着改善了文本形象的生成，从文本描述中产生了高质量的现实图像。除了产生外，对象级图像编辑仍然是一个具有挑战性的问题，需要精确的修改，同时保持视觉连贯性。现有的基于文本的教学编辑方法与本地化形状和布局转换相努力，通常会引入意想不到的全球变化 ...

0 0 0 0 2025/07/22 arXiv:2504.08111v1 anjianxiang001

Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research

仿真是以安全且具有成本效益的方式开发和基准自动驾驶汽车规划软件的重要工具。但是，现实的仿真需要精确建模细微且复杂的多代理交互行为。为了应对这些挑战，我们介绍了Waymax，这是一种新的数据驱动模拟器，用于在多代理场景中自动驾驶，设计用于大规模的模拟和测试 ...

0 0 0 0 2025/07/22 arXiv:2310.08710v1 zhlstone

nnFormer: Interleaved Transformer for Volumetric Segmentation

Transformer是自然语言处理的首选模型，引起了医学成像社区的关注。鉴于能够利用长期依赖性的能力， Transformer 有望帮助非典型的卷积神经网络克服其空间归纳偏见的固有缺点。但是，最近提出的基于 Transformer 的大多数分割方法简单地将 Transformer 视为辅助模块，以帮助将全局上下文编码为卷积表示 ...

0 0 0 0 2025/07/22 arXiv:2109.03201v6 尼斯湖

Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping

将网页设计转换为功能性 UI 代码是构建网站的关键步骤，这可能既费力又耗时。为了自动化这种从设计到代码的转换过程，人们提出了使用基于学习的网络和多模态大语言模型（MLLM）的各种自动化方法。然而，这些研究仅在小范围的静态网页上进行评估，忽略了动态交互元素，使得它们对于现实世界的网站部署不太实用 ...

0 1 0 0 2025/07/22 arXiv:2411.03292v2 15966829631

Enhancing Document-level Relation Extraction by Entity Knowledge Injection

文档级关系提取（RE）旨在确定整个文档中实体之间的关系。它需要复杂的推理技能来综合各种知识，例如核心和常识。大规模知识图（kgs）包含大量现实世界事实，可以为文档级别提供宝贵的知识 ...

0 0 0 0 2025/07/22 arXiv:2207.11433v1 DUNK_911

Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model

大型语言模型（LLMS）具有可以处理与语言相关的多种任务的包含功能。但是，LLMS上的填充将降低这种一般技能，并且持续的填充将进一步导致累积知识的严重降解。最近，出现了大型语言模型（LLM）的持续学习（CL），旨在不断地适应LLM，同时保持先前学习的知识和继承一般技能 ...

0 0 1 1 2025/07/22 arXiv:2503.13575v2 aaabbbcccddd

Single Conversation Methodology: A Human-Centered Protocol for AI-Assisted Software Development

我们提出了单一的对话方法（SCM），这是一种使用大语言模型（LLM）的新颖而务实的软件开发方法。与与生成AI的临时相互作用相反，SCM强调了结构化和持久的发展对话，在该对话中，项目的所有阶段（从需求到架构和实施）都在单个长篇文化的对话中展开。该方法基于认知清晰度，可追溯性，模块化和文档的原则 ...

0 1 0 0 2025/07/22 arXiv:2507.12665v1 clancyz

TorchDriveEnv: A Reinforcement Learning Benchmark for Autonomous Driving with Reactive, Realistic, and Diverse Non-Playable Characters

自动驾驶汽车的培训，测试和部署需要现实有效的模拟器。此外，由于不同自主系统中不同问题之间存在很高的可变性，因此这些模拟器需要易于使用，并且易于修改。为了解决这些问题，我们介绍了Torchdriveim及其基准扩展TorchdriveEnv ...

0 0 0 0 2025/07/22 arXiv:2405.04491v1 zhlstone

Detecting Deepfake Talking Heads from Facial Biometric Anomalies

高度逼真的语音克隆以及视觉上引人入胜的头像，面部折扣或Lip-sync DeepFake视频的结合，使创建任何人说话的视频相对容易。如今，这种深层模仿通常被用来为欺诈，骗局和政治虚假信息提供动力。我们提出了一种新颖的法医学学习技术，用于检测深击视频模仿，该视频模仿利用面部生物识别技术中的不自然模式 ...

0 0 0 0 2025/07/22 arXiv:2507.08917v1 13080420360

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

专有巨头越来越多地以不断发展的语言模型来主导种族。开源，较小的型号能否在各种任务中保持竞争力？在本文中，我们介绍了复仇者联盟 - 一种简单的食谱，利用这些较小模型的集体智能。复仇者联盟以四个轻量级操作为基础：（i）嵌入：使用文本嵌入模型编码查询；（ii）聚类：基于其语义相似性的组查询；（iii）评分：在每个集群中分数每个模型的性能；（iv）投票：通过反复的抽样和投票提高产出 ...

0 0 0 0 2025/07/22 arXiv:2505.19797v3 tianji