开放式视频代表场景图生成(OV-SGG)通过将视觉关系表示与开放式唱机的文本表示形式对齐来克服封闭设置假设的局限性。这可以识别新型的视觉关系,使其适用于具有不同关系的现实情况。但是,现有的OV-SGG方法受固定文本表示的约束,限制了图像文本对齐的多样性和准确性 ...
DeepSeek-V3和DeepSeek-R1是用于通用任务和推理的领先开源大型语言模型(LLMS),可与OpenAI和Anthropic公司等公司的最先进的封闭式模型相媲美,同时仅需要一小部分培训费用。了解DeepSeek成功背后的关键创新技术对于推进LLM研究至关重要。 In this paper, we review the core techniques driving the remar ...
向量量化(VQ)技术广泛用于相似性搜索数据压缩,快速度量计算等。最初是为欧几里得距离设计的,现有VQ技术(例如, ...
随着大型语言模型,视觉模型和其他一般基础模型的最新兴起,多模式,多任务机器人技术的潜力越来越大,可以在自然语言输入的情况下在不同的环境中运行。一种这样的应用程序是使用自然语言说明的室内导航。但是,尽管最近进展了,但由于需要3D空间推理和语义理解,因此这个问题仍然具有挑战性 ...
现有的3D人姿势估计(HPE)方法具有很高的精度,但计算开销和缓慢的推理却遭受了较高的损失,而知识蒸馏方法无法解决关节和时间相关性之间的空间关系。在本文中,我们提出了稀疏的相关性和关节蒸馏(SCJD),这是一个新颖的框架,可以平衡3D HPE的效率和准确性。 SCJD引入了稀疏的相关输入序列下采样,以减少学生网络输入中的冗余,同时保留框架间的相关性 ...
最大的内部产品搜索(MIPS)是机器学习应用程序(例如推荐系统)中无处不在的任务。鉴于查询矢量和$ n $ datom vectors在$ d $维空间中,MIP的目标是找到具有查询矢量最高内部产品的原子。现有的MIPS算法量表至少为$ O(\ sqrt {d})$,在高维设置中在计算上变得过于敏感 ...
相机和激光雷达是准确,强大的自动驾驶系统的信息传感器。但是,这些传感器经常表现出异质性本性,从而产生分布方式差距,从而面临着融合的重大挑战。为了解决这个问题,强大的融合技术至关重要,特别是对于增强3D对象检测的问题 ...
高能核碰撞产生夸克和胶子的非平衡等离子体,这些等离子体可热化和表现出流体动力流动。目前尚无可用的框架,可以将经典场模拟中的早期颗粒产生与随后的流体动力学进化联系起来。我们使用在QCD动力学理论中计算出的非平衡绿色功能构建这样的框架,以传播到水动力相的初始能量量张量 ...