皮肤和皮下疾病在全球非致命疾病负担的主要贡献者中排名很高,从而影响了大部分人群。尽管如此,皮肤科诊断领域仍面临三个重大障碍。首先,缺乏无法诊断患者的皮肤科医生,尤其是在农村地区 ...
0 0 0 2025/09/11 arXiv:2304.10691v2 xxkaras
先进视频生成方法生成的视频质量不断提高,带来了新的安全挑战,而相关研究工作却很少:1)没有用于生成视频检测的开源数据集,2)尚未提出生成视频检测方法迄今为止。为此,我们首次提出了一个开源数据集和生成视频的检测方法。首先,我们提出了一个由 964 个提示组成的可扩展数据集,涵盖各种伪造目标、场景、行为和动作,以及具有不同架构和生成方法的各种生成模型,包括 OpenAI 的 Sora 和 Google ...
0 0 0 2025/09/11 arXiv:2402.02085v8 Hollowyuk
医学大视力语言模型(MED-LVLMS)在医疗保健中表现出巨大的潜力,但是它们对一般医学数据和粗粒的全球视觉理解的依赖将它们限制在智能眼科诊断中。目前,智能眼科诊断面临三个主要挑战:(i)数据。缺乏深入注释,高质量的多模式眼科视觉教学数据; (ii)基准 ...
0 0 0 2025/09/11 arXiv:2504.13650v1 xxkaras
最近的语言模型 (LM) 进步展示了令人印象深刻的零样本语音转换 (VC) 性能。然而,现有的基于LM的VC模型通常采用从源语义到声学特征的离线转换,要求完整的源语音并限制其部署到实时应用程序。在本文中,我们介绍了 StreamVoice,这是一种新颖的基于流式 LM 的零样本 VC 模型,可在给定任意说话者提示和源语音的情况下促进实时转换 ...
0 0 0 2025/09/11 arXiv:2401.11053v5 ckz
卷积和转置卷积是广泛用于神经网络的基本操作员。但是,转置卷积(又名 ...
0 0 0 2025/09/11 arXiv:2508.09824v2 neisakutou
音乐流媒体服务在很大程度上依靠推荐系统来帮助他们浏览大型音乐目录并发现新歌,专辑或艺术家,以改善用户的体验。但是,向新用户推荐相关和个性化内容,与目录很少与目录相互作用,这是具有挑战性的。这通常称为用户冷启动问题 ...
0 0 0 2025/09/11 arXiv:2106.03819v1 huangxinan545
威胁性眼部疾病的普遍性是全球重大负担,许多病例仍未被诊断或诊断为有效治疗。大型视力语言模型(LVLM)有可能帮助理解解剖学信息,诊断眼病,起草解释和后续计划,从而减少临床医生的负担并改善眼部护理的机会。但是,有限的基准可用于评估LVLM在眼科特定应用中的性能 ...
0 0 0 2025/09/11 arXiv:2410.01620v5 xxkaras
代码生成模型对小扰动并不强大,这通常会导致不正确的世代,并显着降低这些模型的性能。尽管改善代码生成模型的鲁棒性对于增强现实世界应用中的用户体验至关重要,但现有的研究工作并未解决此问题。为了填补这一空白,我们提出了Codefort,这是一个框架,以提高代码生成模型的鲁棒性,推广大量代码扰动以丰富培训数据并实现各种强大的培训策略,混合数据增强,增强批次增强,对抗性逻辑配对以及匹配性学习,所有这些都精心 ...
0 0 0 2025/09/11 arXiv:2405.01567v2 Yieww

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)