利用大型语言模型(llm)的大量知识,最新的机器学习模型在计算机视觉和机器人等不同领域的通用任务解决方面取得了显着的成功。然而,仍然存在几个重大挑战:(i)大多数模型依赖2d图像,但3d输入能力有限;(ii)这些模型很少探索3d世界中固有定义的任务,例如... ...
通过在多个数据集上的培训或结合多个模型,对问题回答(QA)数据集和模型的最新爆炸(QA)数据集和模型提高了对模型的概括的兴趣。尽管多数据集模型的结果有希望的结果,但某些域或QA格式可能需要特定的体系结构,因此这些模型的适应性可能受到限制。此外,当前的模型相结合的方法无视诸如问答兼容性之类的线索 ...
人工智能的开创性进步,尤其是在Genai中,已经为内容创建提供了很大的可能性,但也导致了广泛的错误信息和错误的内容。深层摄影的复杂性和现实主义日益增长的是对隐私入侵,身份盗窃的关注,并具有社会业务影响,包括声誉损失和财务损失。已经开发了许多DeepFake探测器来解决此问题 ...
华为一直致力于探索历史研究中的AI应用。作为抽象性摘要的一种专业形式,传记一代在历史研究中起着至关重要的作用,但面临现有大型语言模型(LLMS)努力解决的独特挑战。这些挑战包括维持对历史写作惯例的遵守,确保事实忠诚度以及在多个文档中处理零散的信息 ...
由于成本效益和可重复性的优势,用户模拟已成为以用户为中心的信息检索系统评估的有希望的解决方案。但是,准确地模拟用户搜索行为一直是一个挑战,因为用户在搜索中的动作非常复杂,并且受到复杂的认知过程(例如学习,推理和计划)的驱动。最近,大型语言模型(LLMS)表现出了模拟人类智能的评论潜力,并已用于为各种任务构建自主代理 ...
在不完整的信息下,自主代理人和人类合作伙伴之间的战略协调可以建模为基于回合的合作游戏。我们在不完整的信息(共享控制游戏)下扩展了一个基于转弯的游戏,以允许玩家每回合采取多个动作,而不是一个动作。该扩展功能可以使用多步图,我们假设这将提高长途任务中的性能 ...
尽管代理互动和个性化都是大语模型研究(LLM)研究中充满活力的主题,但对语言互动对角色条件的LLM代理行为的影响的关注量有限。这样的努力对于确保代理人与其指定的特征保持一致,但能够进行开放的自然对话很重要。在我们的实验中,我们调节GPT-3 ...
稳定扩散和Dalle-3等文本对图像模型仍在多转图像编辑方面难度。我们将这些任务分解为工具使用的代理工作流(路径),该任务通过AI的成本工具来解决一系列子任务。常规的搜索算法需要昂贵的探索才能找到工具路径 ...