大多数野外图像都以低动态范围(LDR)形式存储,作为对高动态范围(HDR)视觉世界的部分观察。尽管动态范围有限,但这些LDR图像通常被不同的暴露捕获,隐含地包含有关基础HDR图像分布的信息。受到这项直觉的启发,在这项工作中,我们呈现出了最好的知识,是从野外LDR图像收集中学习HDR图像的生成模型的第一种方法,以完全无监督的方式 ...
0 0 0 2025/07/28 arXiv:2211.12352v2 jennylove
目前,使用端到端神经模型对高质量转录语音数据进行训练的文本到语音(TTS)系统可以产生可理解,自然且与人类言语相似的语音。这些型号经过相对较大的单扬声器专业录制的音频培训,通常从有声读物中提取。同时,由于这种自由使用的语音语料库的稀缺性,阿拉伯语TTS的研发中存在较大的差距 ...
0 0 0 2025/07/28 arXiv:2303.00069v1 x50048765
子图匹配是找到与查询的子图同构的,是从表示为图的数据中检索信息的关键。为了避免数据中的冗余探索,现有方法通过提取可能构成同构亚图的候选顶点和候选边缘来限制搜索空间。但是,它仍然需要昂贵的计算,因为候选顶点会引起许多不构成查询的子图 ...
0 0 0 2025/07/28 arXiv:2306.06557v1 但为君故
在这项工作中,我们考虑了共同估计与紧密间隔麦克风相对应的一组房间冲动响应(RIR)的问题。 RIR的准确估计在声音应用中至关重要,例如语音增强,消除噪声和听觉化。然而,现实世界中的约束,例如短期激发信号,低信噪比和频谱激发较差,通常会导致估计问题不足 ...
0 0 0 2025/07/28 arXiv:2503.14207v1 wenwen
最近提出的广义时域速度向量(GTVV)是球形谐波(又名Ambisonic)域中相对室内脉冲响应的概括,该域允许对早期回声参数的盲目估计:单个反射的方向和相对延迟。但是,GTVV的衍生闭合形式表达要求持有的假设很少,最重要的是,参考信号的脉冲响应需要是最小相滤波器。实际上,参考是通过空间滤波向源的到达方向而获得的,并且上述条件受所应用的横梁形式的性能(因此,由Ambisonic阵列顺序)界定 ...
0 0 0 2025/07/28 arXiv:2305.03558v3 wenwen
用于评估视频语言模型的时空理解和推理能力的现有基准,由于存在基于浅表视觉或文本提示的快捷方式解决方案,因此很容易得分通货膨胀。本文通过引入最小视频对(MVP)基准来准确评估模型性能的挑战,这是一种简单的快捷方式视频QA QA基准,用于评估对视频语言模型的物理理解。该基准由55k高质量的多项选择视频质量质量质量质量检查示例组成,该质量质量质量质量质量质量质量质量质量质量质量质量质量质量质量标准示例着 ...
0 0 0 2025/07/28 arXiv:2506.09987v1 orangelcx
运动预测和计划的任务分别估算交通代理和自我车辆的轨迹,以确保在动态变化的环境中自动驾驶系统的安全性和效率。最新的方法通常采用单质子 - 孔径范式,其中每个查询对应于预测多模式轨迹的唯一轨迹。尽管这种范式可以产生各种运动意图,但在建模轨迹的复杂时空演化方面通常跌幅很短,这可能导致碰撞或次优结果 ...
0 0 0 2025/07/28 arXiv:2507.17342v1 布朗瓶
最近,基础模型在多模式学习方面取得了显着进步。这些模型配备了数百万(或数十亿)参数,通常需要大量的数据以进行填充。但是,由于独特的隐私法规,从不同部门收集和集中培训数据变得具有挑战性 ...
0 0 0 2025/07/28 arXiv:2308.12305v1 IQ_QI

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)