将语言模型 (LM) 调用链接为可组合模块正在催生一种新的编程方式,但确保 LM 遵守重要约束需要启发式“即时工程”。我们引入了 LM 断言,这是一种编程结构,用于表达 LM 应满足的计算约束。我们将我们的构造集成到最新的 LM DSPy 编程模型中,并提出新的策略,允许 DSPy 将带有 LM 断言的程序编译成更可靠和准确的系统 ...
一些 NLP 任务可以通过提供带有自然语言“任务描述”的预训练语言模型以完全无监督的方式解决(例如 Radford 等人) ...
拥有一个可以在不同环境中操纵任意物体的机器人的宏伟目标与机器人数据集的缺乏是不一致的。由于人工工作、运营成本和安全挑战,获取和增长此类数据集非常艰巨。通往这种通用代理的道路需要一个能够广泛泛化但在合理的数据预算内进行训练的结构化框架 ...
半监督学习(SSL)是计算机视觉领域的一个实际挑战。伪标签(PL)方法,例如 ...
时间序列数据的研究对于理解一段时间内的趋势和异常至关重要,从而能够在各个领域提供预测性见解。另一方面,时空数据对于分析空间和时间上的现象至关重要,为复杂系统交互提供动态视角。近年来,扩散模型在时间序列和时空数据挖掘中得到了广泛的应用 ...
触摸是人类重要的感知方式,但尚未被纳入多模态生成语言模型中。这部分是由于获得触觉数据的自然语言标签的困难以及将触觉读数与视觉观察和语言描述对齐的复杂性。作为弥补这一差距的一步,这项工作引入了一个包含 44K 个野外视觉-触摸对的新数据集,其中包含由人类注释的英语标签 (10%) 和来自 GPT-4V 的文本伪标签 (90%) ...
各种医疗应用的卓越表现给人工智能带来了巨大的挑战,需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。 Gemini 模型在多模式和长上下文推理方面具有强大的通用能力,为医学领域提供了令人兴奋的可能性。基于 Gemini 的这些核心优势,我们推出了 Med-Gemini,这是一个功能强大的多模式模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模式进 ...
将激活、权重和梯度量化为 4 位有望加速神经网络训练。然而,现有的 4 位训练方法需要自定义数字格式,而现代硬件不支持这种格式。在这项工作中,我们提出了一种使用 INT4 算法实现所有矩阵乘法的 Transformer 训练方法 ...