删除对象不仅需要消除目标对象,还需要消除其效果,例如阴影和反射。然而,基于扩散的授予方法通常会产生文物,幻觉,改变背景以及难以准确删除对象效应。为了应对这一挑战,我们引入了一个新的数据集,用于删除对象效应,该数据集名为Ober,该数据集提供了有或没有对象效应的配对图像,以及对象及其相关的视觉伪像的精确掩码 ...
随着基于 Transformer 的模型的大小不断增长,对这些新任务的这些大规模预处理的视觉模型进行了微调已变得越来越大。已经开发了参数效率学习,以减少微调参数的数量。尽管这些方法显示出令人鼓舞的结果,但与完整的微调相比,仍然存在显着的性能差距 ...
将恶意脚本注入Web服务器的Webshell攻击是一个主要的网络安全威胁。传统的机器学习和深度学习方法受到了诸如需要广泛培训数据,灾难性遗忘和概括不佳的问题等问题的阻碍。最近,大型语言模型(LLMS)引起了与代码相关的任务的关注,但是它们在Webshell检测中的潜力仍然没有被忽略 ...
公共云提供商寻求满足严格的性能要求和低硬件成本。性能和成本的关键驱动力是主要内存。记忆池有望改善DRAM利用率,从而降低成本 ...
神经网络通常对输入和体重扰动高度敏感。这种敏感性与病理学有关,例如易受对抗性例子,分歧训练和过度拟合的脆弱性。为了解决这些问题,过去的研究已经从Lipschitz组件中构建了神经网络 ...
大型音频语言模型(LALM)的当前方法通常依赖封闭的数据源或专有模型,从而限制了它们的概括和可访问性。本文介绍了Midashenglm,这是一种新颖的开放音频语言模型,旨在通过使用我们的新型Acavcaps培训数据集使用通用音频字幕,旨在通过使用通用音频字幕进行高效,全面的音频理解。 Midashenglm专门依赖于公开可用的预处理和监督微调(SFT)数据集,从而确保了完全透明度和可重复性 ...
将图像量化为离散表示已是统一生成建模的基本问题。主要的方法通过从预测分布中抽样来选择最佳匹配 Token 或以随机方式来学习离散表示形式。但是,确定性的量化遭受了严重的代码书崩溃和推理阶段的未对准,而随机量化却遭受了低密码手册的利用率和扰动的重建目标 ...
虽然多模式的大语言模型(MLLM)在静态图像上表现出了显着的功能,但它们通常在理解动态,信息密集的短形式视频方面缺乏,这是当今数字景观中的主要媒介。为了弥合这一差距,我们介绍了\ textbf {kwai keye-vl},这是一个80亿参数的多模式基础模型,该模型设计为用于短视频理解的领先性能,同时保持强大的通用通用视觉语言能力。 Kee-VL的开发依赖于两个核心支柱:一个超过6000亿 Token 的大量,高质量的数据集,并非常重视视频,以及创新的培训食谱 ...
随着缩放语言模型(LMS)接近人类水平的推理能力,自我完善是作为综合高质量数据语料库的解决方案而出现的。尽管以前的研究已经确定模型崩溃是自我完善的风险,而模型输出变得越来越确定性,但我们发现了一个更根本的挑战:肤浅的自我改善的推理者现象。特别是,我们的分析表明,即使LMS显示出改善的(ID)推理精度,它们实际上会损害由于记忆而不是真实的,而不是真实的,它们在室外(OOD)任务上的广义推理能力也损害了其广义推理能力 ...
我们基于CMB温度和镜头电位功率谱的Planck测量结果提出了第一个结果。标准的空间灯泡六参数LCDM宇宙学很好地描述了高多物的Planck光谱。在此模型中,Planck数据将宇宙学参数确定为高精度 ...