arxiv的文档

arxiv 南京

个性签名 ...

S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

大型语言模型（LLM）的快速发展引起了人们对语音模型的极大关注，尤其是支持语音输入和输出的Speech2speech协议的最新进展。但是，现有基准采用自动基于文本的评估者来评估这些模型的能力以下能力的指导，在语音理解和发电中都缺乏对副语言信息的考虑。为了解决这些问题，我们介绍了S2S-Arena，这是一种新颖的竞技场风格的S2S基准，该基准在跨实际任务中评估了具有副语言信息的指导跟踪功能 ...

0 0 0 0 2025/08/01 arXiv:2503.05085v1 zhangqi33

Global-Local MAV Detection under Challenging Conditions based on Appearance and Motion

微型航空车（MAV）的目视检测近年来由于其在许多应用中的重要性而受到了越来越多的研究关注。但是，当背景复杂，MAV目标很小或计算资源有限时，基于MAV的外观或运动特征的现有方法仍然面临挑战。在本文中，我们提出了一个全局本地MAV检测器，该检测器可以在具有挑战性的条件下融合MAV检测的运动和外观特征 ...

0 0 0 0 2025/08/01 arXiv:2312.11008v1 qiufeiguye

Seedance 1.0: Exploring the Boundaries of Video Generation Models

扩散建模的显着突破已经推动了视频生成的快速改进，但是当前的基础模型仍然面临着同时平衡及时及时的关键挑战，运动的合理性和视觉质量。在本报告中，我们介绍了Seedance 1.0，这是一种高性能和推理高效的视频基础生成模型，该模型整合了几种核心技术改进：（i）多源数据策划增强，并具有精确和有意义的视频字幕，从而使各种场景的全面学习能够进行全面学习；（ii）具有拟议的培训范式的有效体系结构设计，可以在本地支持多拍的生成，并共同学习文本到视频和图像到视频任务 ...

0 0 0 0 2025/08/01 arXiv:2506.09113v2 ahui

Parallelized Autoregressive Visual Generation

自回归模型已成为视觉生成的强大方法，但由于其顺序逐一的预测过程，推理速度较慢。在本文中，我们提出了一种简单而有效的方法，用于并行回归视觉生成，以提高产生效率，同时保留自动回归建模的优势。我们的关键见解是，平行生成取决于视觉 Token 依赖的依赖性依赖性弱依赖性，而依赖性依赖性较弱，而很难共同产生强烈依赖的邻近 Token ，因为它们的独立采样可能会导致不一致 ...

0 0 0 0 2025/08/01 arXiv:2412.15119v3 hellogdc

BBBD: Bounding Box Based Detector for Occlusion Detection and Order Recovery

遮挡处理是对象检测和细分以及场景理解的挑战之一。因为当物体以不同的程度，角度和位置遮挡时，它们会出现不同。因此，确定对象与它们在场景中的顺序之间的遮挡是语义理解的基本要求 ...

0 0 0 0 2025/08/01 arXiv:2204.12841v1 wonglliam

AI Hiring with LLMs: A Context-Aware and Explainable Multi-Agent Framework for Resume Screening

恢复筛查是人才获取的关键但时间密集的过程，要求招聘人员分析大量的工作应用程序，同时保持客观，准确和公平。随着大语言模型（LLM）的进步，其推理能力和广泛的知识库展示了简化和自动化招聘工作流程的新机会。在这项工作中，我们提出了一个多代理框架，用于使用LLMS进行系统处理和评估简历的恢复筛查 ...

0 0 0 0 2025/08/01 arXiv:2504.02870v2 zzh3442

HTNet: Human Topology Aware Network for 3D Human Pose Estimation

3D人体姿势估计错误将沿着人体拓扑传播，并在四肢的末端积聚。受自动控制系统中的回溯机制的启发，我们设计了一个部分内部约束模块，该模块利用父节点作为在零件级别构建末端关节的拓扑约束的参考。进一步考虑人类拓扑的层次结构，分别通过图形卷积网络和自我依赖来捕获联合层面和身体级别的依赖性 ...

0 0 0 0 2025/08/01 arXiv:2302.09790v1 mll1101

AudioBench: A Universal Benchmark for Audio Large Language Models

我们介绍了AudioBench，这是一种通用基准测试，旨在评估音频大语模型（Audiollms）。它包括8个不同的任务和26个数据集，其中7个是新提出的数据集。评估针对三个主要方面：语音理解，音频场景理解和语音理解（副语言） ...

0 0 0 0 2025/08/01 arXiv:2406.16020v5 abala

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference

大型语言模型（LLM）的计算需求不断增长，使得有效的推论和激活策略越来越关键。尽管最近的方法（MOE）采用了最新的方法，但仍利用选择性激活，但需要专门的培训，而无培训的稀疏激活方法则通过其插件设计提供了更广泛的适用性和卓越的资源效率。但是，许多现有方法仅依赖于隐藏状态的大小来确定激活，从而导致高近似误差和次优的推理精度 ...

0 0 0 0 2025/08/01 arXiv:2505.19427v1 yunfeng

When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection

抑郁症是全球心理健康的关键问题，促使人们对基于AI的检测方法进行了广泛的研究。在各种AI技术中，大型语言模型（LLMS）在心理保健应用中的多功能性脱颖而出。但是，它们的主要局限性源于其对文本输入的独家依赖，这限制了它们的整体功能 ...

0 0 0 0 2025/08/01 arXiv:2402.13276v2 abala