本文提出了一种学习新型4D体现世界模型的有效方法,该方法预测了3D场景随时间的动态演变,以响应体现的代理的动作,从而提供了空间和时间的一致性。我们建议通过对RGB-DN(RGB,DEPTH和正常)视频进行培训来学习4D世界模型。这不仅通过将详细的形状,配置和时间更改纳入其预测中,超过了传统的2D模型,而且还使我们能够有效地学习具有体现的代理的准确的逆动力学模型 ...
通过提供嵌入到传递给大语言模型 (LLM) 的提示中的上下文信息来一致地生成高质量答案取决于信息检索的质量。随着上下文信息语料库的增长,基于检索增强生成 (RAG) 的问答 (QA) 系统的答案/推理质量会下降。这项工作通过将经典文本分类与大语言模型(LLM)相结合来解决这个问题,从而能够从向量存储中快速检索信息并确保检索信息的相关性 ...
基础模型通过在大规模数据集上提供了强大的多功能体系结构来彻底改变人工智能。但是,将这些庞大的模型适应特定的下游任务需要微调,这在计算资源中可能非常昂贵。参数有效的微调(PEFT)方法仅通过选择性更新一小部分参数来应对这一挑战 ...
实时语义的可用性大大提高了SLAM系统的核心几何功能,从而实现了许多机器人和AR/VR应用。我们提出了一种从RGB-D序列实时语义映射的新方法,该方法将2D神经网络和一个基于具有3D占用映射的SLAM系统的3D网络结合在一起。分割新帧时,我们会根据可区分渲染从以前的帧中执行潜在的特征重新投影 ...
当前可用于强大自动语音识别(ASR)的前端包括掩盖和基于映射的深度学习方法来增强语音。最近提出的深度学习方法TOA PRIRESNR估计(称为DeepXi)能够以比目前基于掩盖的方法和基于映射的方法更高的质量和清晰度来产生增强的语音。在此激励的情况下,我们研究了Deep XI作为强大ASR的前端 ...
在过去的几年中,联邦学习(FL)已成为一种新兴的机器学习技术,可以通过协作培训应对数据隐私挑战。在联合学习算法中,客户端提交了经过本地训练的模型,服务器将这些参数汇总到收敛。尽管在计算机视觉,音频和自然语言处理等领域做出了巨大的努力,但使用多模式数据流的FL应用程序仍未得到探索 ...
为了完成情报任务,语义沟通仅传输与任务相关的信息,从而对传统通信产生显着的性能。为了确保用户对不同类型任务的要求,我们在本文中执行多单元“多任务网络”中的语义感知资源分配。具体而言,首先开发了语义熵的大概度量,以量化不同任务的语义信息,这是基于新型体验质量(QOE)模型的 ...
几何深度学习技术已成为计算机辅助设计(CAD)领域的一种变革力量,并有可能革新设计师和工程师如何接近并增强设计过程。通过利用基于机器学习的方法的力量,CAD设计师可以优化其工作流程,节省时间和精力,同时做出更好的明智明智的决策,并创建既创新又实用的设计。处理以几何数据代表的CAD设计并分析其编码功能的能力,可以识别各种CAD模型之间的相似性,替代设计和增强功能的命题,甚至可以生成新颖的设计替代品 ...