近年来,基础模型席卷了计算机视觉领域,促进了不同模式下各种任务的开发。然而,如何设计红外基础模型仍然是一个悬而未决的问题。在本文中,我们提出了 InfMAE,这是红外模态的基础模型 ...
大型语言模型 (LLM) 已证明能够解决多智能体系统中的各种实际任务。然而,现有的人工设计的多智能体框架通常仅限于一小组预定义的场景,而当前的自动化设计方法也受到一些限制,例如缺乏工具集成、依赖外部训练数据以及僵化的通信结构。在本文中,我们提出了 MetaAgent,一种基于有限状态机的框架,可以自动生成多代理系统 ...
当前的搜索代理从根本上缺乏同时对多跳检索进行深度推理和大规模信息收集的能力,这对于综合市场分析和业务开发等实际应用来说是一个关键缺陷。为了弥补这一差距,我们引入了 DeepWideSearch,这是第一个明确设计用于评估智能体在信息搜索中整合深度和宽度的基准。在 DeepWideSearch 中,代理必须处理大量数据,每个数据都需要对多跳检索路径进行深度推理 ...
Large language models (LLMs) exhibit remarkable problem-solving abilities, but struggle with complex tasks due to static internal knowledge.检索增强的生成(RAG)增强了对外部信息的访问,但由于严格的工作流程,多跳的推理和战略搜索仍然有限。 Recent advancements in agentic deep research empower LLMs to autonomously reason, search, and synthesize information. ...
来自扩散模型的大量合成视频对信息安全和真实性构成威胁,导致对生成内容检测的需求不断增加。然而,现有的视频级检测算法主要集中于检测面部伪造,通常无法识别具有多种语义的扩散生成的内容。为了推动视频取证领域的发展,我们提出了一种名为多模态检测(MM-Det)的创新算法,用于检测扩散生成的视频 ...
生成推荐器(通常是基于 Transformer 的自回归模型)从用户的交互历史记录中预测下一个项目或操作。它们的有效性取决于模型如何表示交互事件在序列中发生的位置(离散索引)以及它在挂钟时间中发生的时间。流行的方法通过学习嵌入或相对注意偏差来注入时间 ...
使用扩散 Transformer (DiT)生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余,输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计,其精度-效率权衡受到块大小的限制 ...
3D高斯裂(3DGS)是3D重建的强大且在计算上有效的表示。尽管具有优势,但3DGS通常会产生浮动伪像,这些伪影是从实际的几何形状脱离的错误结构,并显着降低了视觉保真度。尚未完全探索引起这些伪像的基本机制,特别是在低质量初始化方案中 ...
过去几年,语音转换在录音室质量的测试场景下,在语音质量和说话人相似度方面取得了长足的进步。然而,在实际应用中,来自源说话人或目标说话人的测试语音可能会被各种环境噪声破坏,从而严重降低语音质量和说话人相似度。在本文中,我们提出了一种基于编码器-解码器的噪声鲁棒语音转换框架,该框架由说话者编码器、内容编码器、解码器和两个域对抗神经网络组成 ...
自动作文评分 (AES) 在评估语言学习者的写作质量、减少评分工作量和提供实时反馈方面发挥着至关重要的作用。缺乏带注释的论文数据集阻碍了阿拉伯语 AES 系统的发展。本文利用大型语言模型 (LLM) 和 Transformer 模型来生成 AES 的合成阿拉伯语论文 ...