近年来,机器人的操纵取得了巨大的进步,模仿学习政策可以成功地执行灵巧和难以模仿的任务。同时,扩展数据和模型大小导致了能力强大的语言和视觉基础模型的发展,激发了大规模创建通用机器人基础模型的大规模努力。尽管这些模型获得了巨大的热情和投资,但对现实世界绩效的有意义评估仍然是一个挑战,限制了发展的步伐并抑制了对当前能力的细微理解 ...
变形金刚以长序列面临二次复杂性和内存问题,促使使用固定尺寸的隐藏状态促使线性注意机制采用。但是,线性模型通常会遭受召回性能有限,从而导致混合体系结构结合了线性和全部注意力层。尽管进行了广泛的混合体系结构研究,但尚未深入探索线性注意组件的选择 ...
联合学习(FL)是一种新颖的方法,可以通过利用在分散设备上培训的模型来保留数据隐私的同时进行协作的机器学习。但是,由于跨客户的不均匀分布(非IID)数据,FL面临着挑战,这会影响模型性能及其泛化功能。为了解决非IID问题,最近的努力利用了全球模型作为当地模型的教学机制 ...
由大语言模型(LLM)提供动力的多机构系统(MAS)正在成为解决复杂,多方面问题的强大范式。但是,这些系统的潜力通常受到普遍的计划和执行框架的限制,该框架受到关键限制:严格的计划执行,静态代理能力和效率低下的通信。这些弱点阻碍了它们在动态环境中的适应性和鲁棒性 ...
大型语言模型(LLM)已成为一种变革性的AI范式,通过其特殊的语言理解和上下文生成能力深远影响日常生活。尽管其表现出色,但LLM面临着一个关键的挑战:由于其基于学习的本质的固有局限性,产生不可靠的产出的倾向。另一方面,形式方法(FMS)是一个完善的计算范式,可提供数学上严格的技术来建模,指定和验证系统的正确性 ...
基于LOGIT的LLM水印轨迹并通过保持绿色和红色 Token 列表并增加一代中绿色 Token 的可能性来验证AI生成的内容。但是,它在低渗透方案中失败了,可以预测的输出使绿色 Token 选择变得困难而不会破坏自然文本流动。现有方法通过假设访问原始LLM来计算熵并有选择地水印高凝聚 Token 来解决这一问题 ...
文本对图像的生成越来越多地要求访问特定于域的,细粒度和快速发展的知识,即预算的模型无法完全捕获。现有的检索增强生成(RAG)方法试图通过检索全球相关图像来解决此问题,但是当没有单个图像包含复杂用户查询中的所有所需元素时,它们都会失败。我们提出了跨模式抹布,这是一个新颖的框架,将查询和图像分解为子方面的组件,从而实现了次级感知的检索和产生 ...
在增强现实(AR)指导的手术导航中,术前器官模型被叠加到患者的术中解剖结构上,以可视化临界结构,例如血管和肿瘤。准确的变形模型对于通过确保术前模型和动态变化的解剖结构之间的对齐方式来保持AR叠加的可靠性至关重要。尽管有限元方法(FEM)提供了物理上合理的建模,但其高计算成本限制了术中适用性 ...