狭窄的位数据格式是降低现代深度学习应用程序的计算和存储成本的关键。本文评估了显微镜(MX)数据格式,该格式将每个块缩放系数与狭窄的浮点和整数类型相结合,以适合各个元素。 MX格式平衡了硬件效率,模型准确性和用户摩擦的竞争需求 ...
单渠道语音增强的多帧算法能够利用语音信号中的短期相关性。提出了深滤波(DF),以直接估计频域中的复杂过滤器,以利用这些相关性。在这项工作中,我们使用DeepFilternet提出了实时演讲增强演示 ...
在自主驾驶中实现高水平的安全性和可靠性仍然是一个至关重要的挑战,尤其是由于阻塞和独立系统中的感知范围有限。车辆之间的合作感提供了一个有希望的解决方案,但现有的研究受到数量有限的代理商的数据集的阻碍。扩大合作代理的数量是非平凡的,并且引入了以前的工作中尚未解决的重大计算和技术障碍 ...
大型语言模型(LLM)的快速发展已解锁了其在数学解决问题,代码生成和法律分析等高级推理任务中的能力。这一进展的核心是推理时间推理算法,这些算法通过探索多个解决方案路径来完善输出,而成本增加了计算需求和响应潜伏期。现有的服务系统无法适应这些算法的缩放行为或查询的不同难度,从而导致资源使用效率低下和未满足的延迟目标 ...
深度估计对于解释复杂环境至关重要,尤其是在自动驾驶汽车导航和机器人技术等领域。尽管如此,从事件相机数据中获得准确的深度读数仍然是一个巨大的挑战。事件摄像机的操作与传统数码相机的操作不同,不断捕获数据并生成异步的二进制尖峰,这些尖峰编码时间,位置和光强度 ...
文档视觉问题回答(DOCVQA)是指从文档图像中回答问题的任务。现有在DOCVQA上仅考虑单页文档。但是,在实际场景中,文档主要由多个页面组成,应完全处理 ...
大语言模型(LLM)和相关技术的最新进展,例如检索型生成(RAG)和思想图(DOT),使得创建了能够执行集群诊断和故障排除的自动智能系统。通过将这些技术与自我播放方法相结合,我们开发了一个旨在自主诊断和解决AI集群中问题的LLM代理系统。我们的创新包括针对集群诊断的知识库,增强的LLM算法,针对代理的实用部署策略以及专门设计用于评估该域中LLM功能的基准 ...
经过思考链(COT)推理已成为改善多模式大语言模型(MLLMS)中复杂解决问题能力的有力框架。但是,文本推理的详细性质引入了重要的低效率。在这项工作中,我们提出了$ \ textbf {heima} $(作为隐藏的骆驼),这是一个有效的推理框架,它利用隐藏的潜在空间来利用cots的推理 ...
测试时间缩放是一种有希望的语言建模方法,它使用额外的测试时间计算来提高性能。最近,OpenAI的O1模型显示了这种能力,但没有公开共享其方法,从而导致了许多复制工作。我们寻求最简单的方法来实现测试时间缩放和强大的推理性能 ...
我们研究了有效地使大语言模型(LLM)与预算预算在线反馈的人类偏好的方法。我们首先在上下文对决匪徒的框架内提出LLM对准问题。这种表述,包括在线RLHF和在线DPO等最新范例,固有地寻求包含在线活动探索的样品效率算法 ...