与传统方法相比,深度学习技术在合成孔径雷达(SAR)图像目标识别领域的性能显着提高。但是,深度学习模型的固有``黑匣子''属性导致决策过程中缺乏透明度,这使得它们难以在实践中广泛应用。要解决此问题,这项研究提出了一个基于MicroWave传播的物理过程设计的复杂价值SAR识别的物理可解释的框架 ...
大型语言模型(LLMS)在多种语言任务上实现了最新的表现,但是可以规避其安全护栏,从而导致有害的世代。鉴于此,对安全机制的最新研究已经出现,表明当安全表示或组件被抑制时,LLMS的安全能力就会受到损害。但是,现有的研究倾向于忽视多头注意机制的安全性影响,尽管它们在各种模型功能中都至关重要 ...
当前的图像字幕工作通常集中于以自回归方式生成描述。但是,有限的作品专注于非压力的描述,这带来了更多的解码多样性。受扩散模型成功生成自然图像的成功的启发,我们提出了一种新颖的方法扩散,以在图像字幕上应用连续扩散 ...
高性能实时立体声匹配方法总是依赖于成本量的3D正则化,这对移动设备不友好。基于2D正则化的方法在不属于地区的地区挣扎。在本文中,我们提出了一个适合部署的4D成本汇总网络DBSTEREO,该网络基于纯2D卷积 ...
从单个图像或视频中估算场景照明仍然是计算机视觉和图形中的长期挑战。基于学习的方法受到基础真相HDR环境图的稀缺性的限制,这些环境图的捕获价格昂贵,并且多样性限制。尽管最近的生成模型为图像合成提供了强大的先验,但由于依赖间接视觉提示,推断全局(非本地)上下文以及恢复高动力范围输出的需要,照明估计仍然很困难 ...
检索增强的生成(RAG)通过整合最新的外部知识来增强大型语言模型(LLM),但现实世界中的Web环境带来了独特的挑战。这些局限性表现为两个关键挑战:在网络环境中普遍存在的错误信息,它引入了不可靠或误导性的内容,可以降低检索准确性,而对网络工具的充分利用不足,如果有效地使用,这些工具可以增强查询精确度并有助于缓解这种噪音,最终改善RAG系统中的检索结果。为了解决这些问题,我们提出了WebFilt ...
在某些情况下, Transformer 可以推广到在培训期间可能遇到的组成部分的新型问题实例,但其组成却没有。这种组成概括的能力是哪些机制?通过重新将多头注意力重新提高为超网络,我们揭示了一个可综合的,低维的潜在代码指定特定于键的特定操作。我们从经验上发现,该潜在代码可以预测网络在看不见的任务组成上执行的子任务,这表明在培训期间获得的潜在代码被重复使用以解决看不见的问题实例 ...
本文介绍了自动对焦,这是一种有效的基于学习对象检测器的多尺度推理算法。 Autocus没有处理整个图像金字塔,而是采用一种粗略的方法,并且仅处理可能在更细的尺度上包含小物体的区域。这是通过预测在称为Focus像素的小对象的小物体的类别不可知分段图来实现的 ...
 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                