深度学习模型通过实现自动化表型分析、监测和产量估算正在改变农业应用。然而,它们的有效性在很大程度上取决于大量带注释的训练数据,这可能是劳动力和时间密集型的。开放集对象检测的最新进展,特别是像 Grounding-DINO 这样的模型,为基于文本提示输入检测感兴趣区域提供了潜在的解决方案。最初的零样本实验揭示了制作有效文本提示的挑战,特别是对于复杂的对象,如单个叶子和视觉上相似的类。为了解决这些限制,我们提出了一种有效的小样本适应方法,通过删除文本编码器模块(BERT)并引入随机初始化的可训练文本嵌入来简化 Grounding-DINO 架构。该方法在多个农业数据集上实现了卓越的性能,包括植物杂草检测、植物计数、昆虫识别、水果计数和遥感任务。具体来说,它在农业数据集上表现出比完全微调的 YOLO 模型高 $\sim24\%$ 的 mAP,并且在少样本学习条件下,在遥感方面比以前最先进的方法高出 $\sim10\%$。我们的方法为自动化注释和加速专业农业人工智能解决方案的开发提供了一个有前途的解决方案 ...

0 0 0 0 2026/01/25 arXiv:2504.07252v1 per

真实的对象交互对于创建沉浸式虚拟体验至关重要,但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同,动作条件动力学需要感知对象的物理材料属性,并将 3D 运动预测建立在这些属性(例如对象刚度)的基础上。然而,由于缺乏材料的真实数据,估计物理材料属性是一个悬而未决的问题,因为测量真实物体的这些属性非常困难。我们提出了 PhysDreamer,这是一种基于物理的方法,通过利用视频生成模型学习到的对象动力学先验,为静态 3D 对象赋予交互式动力学。通过提炼这些先验知识,PhysDreamer 能够合成现实对象对新颖交互的响应,例如外力或代理操作。我们在弹性物体的不同示例上展示了我们的方法,并通过用户研究评估了合成交互的真实性。 PhysDreamer 使静态 3D 对象能够以物理上合理的方式动态响应交互式刺激,从而向更具吸引力和更真实的虚拟体验迈出了一步。请通过此 https URL 查看我们的项目页面 ...

0 0 0 0 2026/01/25 arXiv:2404.13026v2 wonglliam

现有的基于扩散的文本到 3D 生成方法主要侧重于生成视觉上逼真的形状和外观,通常忽略下游任务所需的物理约束。当放置在基于物理的模拟或 3D 打印中时,生成的模型经常无法保持平衡。这种平衡对于满足交互式游戏、嵌入式人工智能和机器人技术中的用户设计意图至关重要,这些领域需要稳定的模型来实现可靠的交互。此外,稳定的模型可确保 3D 打印的物体(例如用于家居装饰的雕像)可以独立站立,而不需要额外的支撑。为了填补这一空白,我们引入了 Atlas3D,这是一种自动且易于实施的方法,可增强现有的基于分数蒸馏采样 (SDS) 的文本转 3D 工具。 Atlas3D 确保生成自支撑 3D 模型,这些模型遵循重力、接触和摩擦下的稳定性物理定律。我们的方法将新颖的基于可微分模拟的损失函数与受物理启发的正则化相结合,充当现有框架的细化或后处理模块。我们通过广泛的生成任务验证 Atlas3D 的功效,并在模拟和现实环境中验证生成的 3D 模型 ...

0 0 0 0 2026/01/25 arXiv:2405.18515v2 wonglliam

近年来,3D生成模型迅速发展,为模拟3D物体的动态运动和定制其行为等应用开辟了新的可能性。然而,当前的 3D 生成模型往往只关注颜色和形状等表面特征,而忽略了控制现实世界中对象行为的固有物理属性。为了准确地模拟符合物理的动力学,必须预测材料的物理特性并将其纳入行为预测过程。尽管如此,由于物理属性的复杂性,预测现实世界物体的多种材料仍然具有挑战性。在本文中,我们提出了 \textbf{Physics3D},这是一种通过视频扩散模型学习 3D 对象的各种物理属性的新方法。我们的方法涉及设计一个基于粘弹性材料模型的高度通用的物理模拟系统,这使我们能够模拟具有高保真能力的各种材料。此外,我们从视频扩散模型中提取了物理先验,该模型包含对现实对象材料的更多理解。大量的实验证明了我们的方法对于弹性和塑性材料的有效性。 Physics3D 在弥合物理世界和虚拟神经空间之间的差距方面显示出巨大的潜力,可以在虚拟环境中更好地集成和应用现实物理原理。项目页面:此 https URL ...

0 0 0 0 2026/01/25 arXiv:2406.04338v3 wonglliam

最近的努力通过外部资源(例如互联网)或内部控制流(例如提示链)增强了大型语言模型(LLM),以完成需要基础或推理的任务,从而产生了一类新的语言代理。虽然这些智能体取得了实质性的成功,但我们缺乏一个系统的框架来组织现有的智能体并规划未来的发展。在本文中,我们利用认知科学和符号人工智能的丰富历史,提出了语言代理认知架构(CoALA)。 CoALA 描述了一种具有模块化记忆组件的语言代理、与内部记忆和外部环境交互的结构化动作空间以及选择动作的通用决策过程。我们使用 CoALA 来回顾性调查和组织近期的大量工作,并前瞻性地确定针对更有能力的代理的可行方向。总而言之,CoALA 将当今的语言代理置于更广泛的人工智能历史中,并概述了一条通往基于语言的通用智能的道路 ...

0 0 0 0 2026/01/25 arXiv:2309.02427v3 nonohony

使用 3D 高斯基元的场景表示在静态和动态 3D 场景的外观建模中产生了出色的结果。然而,许多图形应用程序需要能够操纵对象的外观和物理属性。我们引入了Feature Splatting,这是一种将基于物理的动态场景合成与来自以自然语言为基础的视觉语言基础模型的丰富语义相结合的方法。我们的第一个贡献是一种将高质量、以对象为中心的视觉语言特征提炼为 3D 高斯函数的方法,从而可以使用文本查询进行半自动场景分解。我们的第二个贡献是一种使用基于粒子的模拟器从静态场景合成基于物理的动力学的方法,其中通过文本查询自动分配材料属性。我们消除了该流程中使用的关键技术,以说明使用承载特征的 3D 高斯作为基于自然语言的外观、几何、材料属性和语义的统一格式所面临的挑战和机遇。项目网站:这个https URL ...

0 0 0 0 2026/01/25 arXiv:2404.01223v1 wonglliam

基于语言模型的大型多代理系统由于专家的协作而在各种任务中显示出很大的能力,每个人都集中在特定领域。但是,笨拙甚至恶意药物的影响,即 ...

0 0 1 14 2026/01/25 arXiv:2408.00989v4 蛙isme

最近的研究表明,协作多个大型语言模型(LLM)驱动的代理是解决任务的一种有前途的方法。然而,当前的方法受到使用固定数量的代理和静态通信结构的限制。在这项工作中,我们建议自动从候选人中选择一个代理团队,以便在动态通信结构中针对不同的任务和领域进行协作。具体来说,我们构建了一个名为 Dynamic LLM-Powered Agent Network ($\textbf{DyLAN}$) 的框架,用于 LLM 支持的代理协作,运行两阶段范例:(1) 团队优化和 (2) 任务解决。在第一阶段,我们利用 $\textit{智能体选择}$ 算法,基于名为 $\textit{智能体重要性得分}$ 的无监督指标,能够根据其在初步试验中的贡献选择最佳智能体,面向给定的任务。然后,在第二阶段,选定的代理根据查询动态协作。根据经验,我们证明 DyLAN 在代码生成、决策、一般推理和算术推理任务方面优于强大的基线,且计算成本适中。对于 MMLU 中的特定主题,在团队优化阶段选择代理团队可将 DyLAN 中的准确率提高高达 25.0% ...

0 0 1 2 2026/01/25 arXiv:2310.02170v2 蛙isme

场景文本编辑的任务是在图像上修改或添加文本,同时保持新生成的文本和与背景的视觉连贯性的保真度。基于潜在扩散模型(LDM)的最新作品显示出改进的文本编辑结果,但仍然面临挑战,并且通常会产生不准确或无法识别的字符,尤其是对于非拉丁蛋白(\ eg,中文),它们具有复杂的字形结构。为了解决这些问题,我们提出了Flux-Text,这是一个基于Flux-Fill的简单而高级的多语言场景文本编辑框架 ...

0 0 0 0 2026/01/25 arXiv:2505.03329v4 zikotone

我们提出了 LT3SD,一种用于大规模 3D 场景生成的新型潜在扩散模型。扩散模型的最新进展在 3D 对象生成方面显示出令人印象深刻的结果,但在扩展到 3D 场景时在空间范围和质量方面受到限制。为了生成复杂多样的 3D 场景结构,我们引入了潜在树表示,以从粗到细的层次结构有效地编码低频几何图形和高频细节。然后,我们可以在这个潜在 3D 场景空间中学习生成扩散过程,对每个分辨率级别的场景的潜在组件进行建模。为了合成不同大小的大型场景,我们在场景补丁上训练扩散模型,并通过跨多个场景补丁的共享扩散生成来合成任意大小的输出 3D 场景。通过大量实验,我们展示了 LT3SD 在大规模、高质量无条件 3D 场景生成以及部分场景观察的概率完成方面的功效和优势 ...

0 0 0 0 2026/01/25 arXiv:2409.08215v2 happy