使用体积表示(例如签名距离函数(SDF))生成高分辨率的3D形状,提出了实质性的计算和内存挑战。我们介绍了Direct3D-S2,这是一个基于稀疏量的可扩展3D生成框架,可通过大幅降低培训成本,从而达到较高的输出质量。我们的关键创新是空间稀疏注意(SSA)机制,它极大地提高了扩散 Transformer (DIT)计算稀疏数据的效率 ...
SQL(NL2SQL)的自然语言通过将自然语言查询转换为结构化的SQL语句,从而可以与数据库进行直观的交互。尽管最近在增强数据库应用程序中的人类计算机互动方面取得了进步,但重大挑战仍然存在,尤其是在涉及多桌子连接和嵌套查询的复杂场景中的推理性能方面。当前的方法论主要利用监督的微调(SFT)来训练NL2SQL模型,这可能会限制新环境中的适应性和可解释性(e ...
矢量量化的变异自动编码器(VQ-VAE)旨在压缩连续输入到离散的潜在空间,并以最小的失真重建它。它们通过维护一组向量(通常称为代码簿)来运行,并将每个编码器输出量化为代码簿中最近的向量。但是,由于矢量量化是不可差异的,因此编码器的梯度围绕矢量量化层流动,而不是通过直接近似值通过它 ...
基于视觉的远程操作提供了赋予机器人人类水平的智能以与环境进行物理交互的可能性,同时只需要低成本的相机传感器。然而,当前基于视觉的远程操作系统是针对特定的机器人模型和部署环境进行设计和工程的,随着机器人模型池的扩大和操作环境多样性的增加,其扩展性很差。在本文中,我们提出了 ...
开发基于LLM的实时复合诊断医学AI接口的目标,并进行了临床试验,该试验比较了基于美国医疗许可检查(USMLE)的常见内科病例的该界面和医生,步骤2临床技能(CS)样式考试。方法于2024年8月20日进行了非随机临床试验。我们招募了一名普通医师,两名内科居民(第二年和第三年)和五名模拟患者 ...
准确地理解情绪对于人类计算机互动等领域至关重要。由于情绪的复杂性及其多模式的性质(例如 ...
教机器人灵巧的操纵技巧(例如使用工具)提出了重大挑战。当前的方法可以大致分为两种策略:人类近距离(用于模仿学习)和SIM到现实的强化学习。第一种方法很难,因为人类很难在没有触摸反馈的情况下在不同的实施例上产生安全有灵活的运动 ...
基于大型语言模型(LLM)的冷启动推荐系统在数十亿级的情况下继续面临重大的计算挑战,因为它们遵循“文本对判断”范式。此方法处理用户项目的内容对作为输入,并迭代评估每对。为了维持效率,现有方法依赖于对用户项目对的小候选池进行过滤 ...