最近调查回顾了通过推理技能和使用工具的能力增强语言模型(LM)的工作。之前被定义为将可能复杂的任务划分为更简单的子任务,而晚上则包括调用外部模块(例如代码解释)语言模型可以单独利用这些增强功能,也可以通过启发式方法组合利用这些增强功能,或者通过练习来学习如何实现这一点... ...
人类反馈强化学习 (RLHF) 已成为使大型语言模型与人类偏好保持一致的关键方法,通过近端策略优化 (PPO)、直接偏好优化 (DPO)、REINFORCE 留一法等方法见证了算法的快速演变(RLOO)、ReMax 和组相对策略优化 (GRPO)。我们提出了 REINFORCE++,这是经典 REINFORCE 算法的增强变体,它结合了 PPO 的关键优化技术,同时消除了对批评网络的需要。 REI ...
二分图像分割(DIS)最近出现了,用于从高分辨率自然图像中进行高精度对象分割。在设计有效的DIS模型时,主要挑战是如何平衡小感受野中高分辨率目标的语义分散和大感受野中高精度细节的损失。现有方法依赖于繁琐的多个编码器-解码器流和阶段来逐步完成全局定位和局部细化 ...
预训练语言模型的功能为探索新的应用领域提供了机会,但涉及人机交互的应用程序受到以下事实的限制:大多数数据出于隐私原因而受到保护,不得公开发布。实际应用中解决问题的人类对话可能比现有的 Wizard-of-Oz 集合复杂得多,从而阻碍了成功的域转移。为了支持私人呼叫中心数据集的信息提取(IE),我们引入了一种能够合成真实对话的人机对话生成框架 ...
世界各地的监管机构正在加紧努力,通过欧盟的《不公平商业行为指令》(UCPD) 或《联邦贸易委员会法》第 5 条等手段,确保社交媒体上影响者营销的透明度。然而,由于影响者市场的规模庞大,事实证明,履行这些义务存在很大问题。自动检测赞助内容的任务旨在大规模监控和执行此类法规 ...
本研究考察了 \emph{计算机视觉和模式识别会议} (CVPR) 研究与 Rich Sutton 提出的“惨痛教训”原则的一致性。我们使用大型语言模型 (LLM) 分析了二十年的 CVPR 摘要和标题,以评估该领域对这些原则的接受程度。我们的方法利用最先进的自然语言处理技术来系统地评估计算机视觉研究方法的演变 ...
时空图(STG)数据具有动态、不稳定和非平稳的特点,导致时空图学习面临持续的挑战。在过去的几年里,人们提出了各种基于 GNN 的方法,简单于修正 STG 网络的方法节点个体之间的关系,而忽略了对 STG 系统随时间分割的内在特征进行建模的重要性。相比之下,现代分配状态空间模型(SSSM)提出了一种将 STG 网络视为一个系统的新方法,并仔细探索STG系统跨时间维度的动态状态具备... ...
自发布以来,神经辐射场(NERF)已重塑了3D场景表示。 NERF可以有效地从2D图像中重建复杂的3D场景,从而推进不同的字段和应用程序,例如场景理解,3D内容生成和机器人技术。尽管进行了重大的研究进展,但仍缺乏对最近的创新,应用和挑战的彻底回顾 ...