我们介绍了多个实体生成(MIG)任务,该任务的重点是在单个图像中生成多个实例,每个实例都准确地放置在具有类别,颜色和形状等属性的预定位置,严格遵循用户规格。 MIG面临三个主要挑战:避免实例之间的属性泄漏,支持各种实例描述并保持迭代生成的一致性。为了解决属性泄漏,我们提出了多个现实生成控制器(MIGC) ...
我们提出了一种基于互动3D布局控制的基于扩散的文本对图像(T2I)生成的方法。已经广泛研究了布局控制,以减轻T2I扩散模型在理解对象的位置和文本描述中关系中的缺点。但是,现有的布局控制方法仅限于2D布局,要求用户事先提供静态布局,并且在布局更改下未能保留生成的图像 ...
大型语言模型(LLMS)凭借推理能力的进步而在复杂的任务上表现出色。但是,现有方法忽略了推理效率和计算效率之间的权衡,通常会鼓励不必要的长期推理链和浪费 Token 。为了解决这个问题,我们建议学习思考(L2T),这是一个信息理论增强型LLMS的微调框架,使模型以较少的 Token 实现最佳推理 ...
我们提出了第一个可以查询以查找数据集中最接近的邻居的sublinear内存草图。我们的在线素描算法将n元素数据集压缩到$ o(n^b \ log^3 n)$ o(n^{(b+1)} \ log^3 n)$ time中的大小$ o(n^b \ log^3 n)$的草图。该草图可以正确地报告满足由$ b $参数的稳定性条件的任何查询的最近的邻居 ...
大型语言模型在扩展参数时表现出了有希望的功能。但是,为大型语言模型提供大规模的计算和记忆运动成本。已采用量化方法来降低服务成本和延迟 ...
语言模型预训练已被证明可以捕获大量的世界知识,这对于问答等nlp任务至关重要。然而,这些知识隐式存储在神经网络的参数中,需要更大的网络来覆盖更多事实。,我们使用潜在知识检索器来增强语言模型预训练,该检索器允许模型检索和关注维基百科等大型语料库中的文档,这些文档在预训练、精细训练期间使用。调整和推理 ... ...
关于大语言模型(LLM)推理能力的最新研究表明,通过利用冗长的思维过程和推断期间的其他计算资源,主要是在涉及数学推理的任务(Muennighighoff等人,2025年)。但是,仍然不确定较长的推理链是否固有地提高了事实准确性,尤其是在数学环境之外 ...
语义场景的理解对于机器人和计算机视觉应用至关重要。在自动驾驶中,3D语义分割在实现安全导航方面起着重要作用。尽管该领域取得了重大进展,但收集和注释3D数据的复杂性是这一发展的瓶颈 ...