大型语言模型(LLMS)的独特功能,例如自然语言文本生成能力,将其定位为提供建议的强大候选人。但是,尽管LLM的规模大小,但大多数现有的模型都在可靠地产生零拍的解释。为了解决这个问题,我们提出了一个称为逻辑划分的框架,该框架结合了基于方面的解释和思想链的想法,促使通过中间推理步骤生成解释 ...
0 0 0 2025/02/19 arXiv:2312.14345v2 luxiaoti
来自动物和人类的知识激发了机器人的创新。通过经典的控制器或增强学习方法,已经做出了许多努力,以实现四倍体机器人的敏捷运动。这些方法通常依靠物理模型或手工奖励来准确描述特定系统,而不是像动物一样广泛的理解 ...
0 0 0 2025/02/19 arXiv:2308.15143v2 小胖猴
本文通过利用预先训练的文本对图像扩散模型来探讨高保真性个性化图像生成的进步。虽然先前的方法在基于文本描述和一些输入图像生成多功能场景方面取得了长足的进步,但挑战仍然在生成的图像中保持主题保真度。在这项工作中,我们介绍了一种名为HIFI调谐器的创新算法,以增强个性化图像生成期间对象的外观保存 ...
0 0 0 2025/02/19 arXiv:2312.00079v1 yisinoya
从文档图像中提取的关键信息在Office自动化中至关重要。常规模板匹配的方法无法很好地概括地记录看不见的模板的图像,并且对文本识别错误并不强大。在本文中,我们提出了一个端到端的空间双模式图理论方法(SDMG-R),以从非结构化文档图像中提取关键信息 ...
0 0 0 2025/02/19 arXiv:2103.14470v1 木子123
基于大型语言模型构建的角色扮演聊天机器人引起了人们的兴趣,但需要更好的技术来模仿特定的虚构角色。我们提出了一种算法,通过改进的提示和从脚本中提取的字符的记忆来Chatharuhi,一个涵盖32个中文/英文电视/动漫角色和超过54K模拟对话的数据集... ...
0 0 0 2025/02/19 arXiv:2308.09597v1 tgc
多模态实体链接 (MEL) 是一项关键任务,旨在将多模态上下文中的模糊提及与多模态知识库(例如维基百科)中的引用实体链接起来。现有方法主要侧重于使用复杂的机制和广泛的模型调整方法来对特定数据集上的多模态交互进行建模。然而,这些方法使 MEL 任务过于复杂,并且忽略了视觉语义信息,这使得它们成本高昂且难以扩展 ...
0 0 0 2025/02/19 arXiv:2407.16160v2 weijin4
最先进的文本对图像生成模型(例如成像剂和稳定的扩散模型)在合成以人类文本提示为指导的高质量,高分辨率的高质量,高分辨率的图像中取得了显着进步。由于图像内容的某些特征\ emph {例如 ...
0 0 0 2025/02/19 arXiv:2211.11337v4 yisinoya
在拥挤的室内环境中部署自主机器人通常需要它们具有准确的动态障碍感。尽管自动驾驶领域的许多以前的作品都研究了3D对象检测问题,但是从重型检测和范围(LIDAR)传感器(LIDAR)传感器及其用于学习基于学习的数据处理的高计算成本的用法使这些方法不可能使这些方法不是适用于小型机器人,例如带有小型板载计算机的基于视觉的无人机。为了解决这个问题,我们建议使用基于RGB-D摄像机的轻量级3D动态障碍物检测和 ...
0 0 0 2025/02/19 arXiv:2303.00132v4 qiufeiguye

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)