最近,自我监督的神经网络已显示出出色的图像降级性能。但是,当前的无数据集方法要么是计算昂贵的,需要噪声模型,要么需要不充分的图像质量。在这项工作中,我们表明,一个简单的2层网络,没有任何噪声分布的训练数据或知识,可以使高质量的图像以低计算成本降低 ...
0 0 0 2025/04/01 arXiv:2303.11253v3 Urleaves
时间序列预测是许多领域的一个重要问题,包括太阳能发电厂能源输出、电力消耗和交通拥堵情况的预测。在本文中,我们建议使用 Transformer [1]来解决此类预测问题。尽管我们的初步研究对其性能印象深刻,但我们发现了它的两个主要弱点:(:(:局部性不可知论:规范 Transformer 架构中的逐点点积自注意力对局部上下文不敏感,这可能使模型容易出现问题时间序列中的异常;(2)内存瓶颈:规范tra ...
0 0 0 2025/04/01 arXiv:1907.00235v3 Dorothy
大语言模型(LLM)的扩散彻底改变了自然语言处理,并显着影响了代码生成任务,从而提高了软件开发效率和生产力。值得注意的是,像GPT-4这样的LLM在文本到编码生成任务方面表现出非常熟练的熟练程度。但是,对LLM对代码生成的日益依赖需要对与其产出相关的安全含义进行批判性检查 ...
0 0 0 2025/04/01 arXiv:2503.17953v1 caomuxin
当前的GUI代理在GUI元素接地方面取得了出色的性能。但是,计划仍然是高度挑战,尤其是由于对环境初始状态的敏感性。具体而言,初始状态之类的略有差异是因为目标软件没有打开,或者界面不在其默认状态通常会导致计划错误 ...
0 0 0 2025/04/01 arXiv:2502.08047v2 ycliu
我们介绍了海桶,一种更简单,更高效和精确的筏,用于光流。与木筏相比,海生受到新损失(拉普拉斯混合物)的训练。它直接回归初始流程,以使其在迭代改进中更快地收敛,并引入刚性预训练以改善概括 ...
0 0 0 2025/04/01 arXiv:2405.14793v1 npu_liuyi
诸如剪辑之类的大规模视觉模型已经显示出令人印象深刻的图像级任务的开放式摄影功能,在认识到存在的物体方面表现出色。但是,他们在像素级识别任务(例如语义细分)之类的工作中挣扎,这些任务还需要了解对象的位置。在这项工作中,我们提出了一种新颖的方法PixelClip,以通过指导模型来适应像素级的理解,以适用于何处的模型,该模型是使用来自Sam和Dino等视觉基础模型产生的未标记的图像和掩模来实现的 ...
0 0 0 2025/04/01 arXiv:2409.19846v1 JackWang
生成AI技术的最新进展使音频深击变得更加现实。虽然当前对反欺骗系统的研究主要侧重于评估给定音频样本是假的还是真实的,但人们对识别创建音频深击的特定技术的关注有限。在音频深层生成中常用的算法,例如文本到语音(TTS)和语音转换(VC),经历了不同的阶段,包括输入处理,声学建模和波形生成 ...
0 0 0 2025/04/01 arXiv:2407.08016v1 pyl67
最近的DeepSeek-R1通过加强学习(RL)和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上,我们是第一个探索基于规则的RL如何增强图形用户界面(GUI)操作预测任务的多模式大语言模型(MLLM)的推理功能。为此,我们策划了136个具有挑战性的任务的小型但高质量的数据集,其中包括移动设备上的五种常见动作类型 ...
0 0 0 2025/04/01 arXiv:2503.21620v2 ycliu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)