arxiv的文档

arxiv 南京

个性签名 ...

InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems

在现代语音综合中，副语言信息（例如说话者的声音音色，情感状态和动态韵律）在传达细微差别超越语义之外的细微效果中起着关键作用。传统的文本对语音（TTS）系统依赖于固定样式标签或插入语音提示来控制这些线索，从而严重限制了灵活性。最近的尝试试图采用自然语言指令来调节副语言特征，从而大大改善了教学驱动的TTS模型的概括 ...

0 0 0 0 2025/06/23 arXiv:2506.16381v1 zhangqi33

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

思想链（COT）推理的进步显着增强了大语言模型（LLMS）和大型视觉模型（LVLMS）的能力。但是，视频婴儿床推理的严格评估框架仍然没有。当前的视频基准无法充分评估推理过程，并暴露出失败是否源于感知或推理能力的缺陷 ...

0 0 0 0 2025/06/23 arXiv:2504.07956v1 superkevin

Achieving Diversity in Counterfactual Explanations: a Review and Discussion

在可解释的人工智能（XAI）领域，反事实示例向用户解释了训练有素的决策模型的预测，通过指示对实例进行的修改以更改其相关的预测。这些反事实示例通常被定义为优化问题的解决方案，其成本函数结合了几个标准，可以量化Desiderata，以满足用户需求的良好解释。可以考虑各种适当的属性，因为用户需求通常未知，并且一个用户之间的不同之处；他们的选择和形式化很困难 ...

0 0 0 0 2025/06/23 arXiv:2305.05840v1 Rimez

Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic

任何时间多代理路径查找（MAPF）是多代理系统中可扩展路径优化的有前途的方法。 MAPF-LNS基于大型邻域搜索（LNS），是当前的最新方法，通过破坏和修复解决方案的选定路径，可以迭代地优化快速初始解决方案。当前的MAPF-LNS变体通常使用自适应选择机制在多种破坏启发式方法中进行选择 ...

0 0 0 0 2025/06/23 arXiv:2408.02960v2 user

AutoChemSchematic AI: A Closed-Loop, Physics-Aware Agentic Framework for Auto-Generating Chemical Process and Instrumentation Diagrams

生成AI的最新进展加速了新型化学物质和材料的发现。但是，将这些发现过渡到工业规模的生产仍然是一个关键的瓶颈，因为它需要开发全新的化学制造工艺。当前的AI方法在遵守工程限制的同时，尽管它们在缩放化学过程中的作用至关重要，但仍无法自动产生PFD或PID。我们为自动生成工业可行的PFD和PID提供了一个封闭的循环，物理意识框架 ...

0 0 0 0 2025/06/23 arXiv:2505.24584v2 jhwei

Explainable Reasoning over Knowledge Graphs for Recommendation

近年来，将知识图纳入推荐系统已引起人们的关注。通过探索知识图内的互链接，可以将用户和项目之间的连接作为路径发现，从而为用户项目交互提供丰富而互补的信息。这种连接不仅揭示了实体和关系的语义，而且有助于理解用户的兴趣 ...

0 0 0 0 2025/06/23 arXiv:1811.04540v1 yyyyy

DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates

尽管图像压缩是视觉数据处理的基础，并且启发了许多标准和学习的编解码器，但这些方法仍然以每个像素极低的位数遭受严重的质量降解。尽管最近基于扩散的模型在低比特率下提供了增强的生成性能，但由于多个脱氧步骤，它们仍然产生有限的感知质量和过度的解码潜伏期。在本文中，我们提出了图像压缩（DIFFO）的第一个单步扩散模型，该模型在超低比特率下提供了高感知质量和快速解码 ...

0 0 0 0 2025/06/23 arXiv:2506.16572v1 1150501302

TypeFly: Flying Drones with Large Language Model

使用大语言模型（LLMS）在机器人控制中的最新进展表现出了巨大的潜力，这主要是由于LLMS了解自然语言命令并以各种语言生成可执行计划的能力。但是，在涉及移动机器人（尤其是无人机）的实时和交互应用中，LLMS固有的顺序 Token 生成过程引入了大量延迟，即 ...

0 0 0 0 2025/06/23 arXiv:2312.14950v2 xsxsxsxsxs

HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation

DCE-MRI中的乳腺癌病变细分由于异质性肿瘤形态和模糊边界，仍然具有挑战性。为了应对这些挑战，本研究提出了一个新型的杂种网络HCMA-UNET，用于乳腺癌的病变分割。我们的网络由轻巧的CNN骨干和一个多视图轴向自我发作Mamba（Mism）模块组成 ...

0 0 0 0 2025/06/23 arXiv:2501.00751v2 zfk666

SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings

多模式大型语言模型（MLLM）具有严重的安全性，使用由文本和其他模式的数据组成的多模式数据集的HTTP URL安全对准可以有效地增强MLLM的安全性，构造这些数据集是昂贵的。现有的低资源安全对准方法（包括文本一致性）已被发现与其他模式相比的安全风险挣扎。为了解决这个问题，我们提出了合成嵌入增强安全对齐（SEA）的嵌入，该渐变更新优化了其他模态的嵌入，以扩展文本数据集 ...

0 0 0 0 2025/06/23 arXiv:2502.12562v3 crazy