视觉问题回答(VQA)是给出图像的任务,并询问有关图像的一系列问题。为了构建有效的VQA算法,需要大量的QA数据,这非常昂贵。基于模板生成合成QA对是获取数据的实际方法 ...
0 0 0 2025/03/25 arXiv:2401.06400v3 zl1994
大型语言模型(LLM)的最新进展展示了令人印象深刻的代码生成功能,主要通过语言对代码基准进行评估。但是,这些基准可能无法完全捕获模型的代码理解能力。我们介绍了CodeJudge-eval(CJ-Eval),这是一种新颖的基准测试,旨在从代码判断而不是代码生成的角度评估LLMS的代码理解能力 ...
0 0 0 2025/03/25 arXiv:2408.10718v2 15966829631
思想链 (CoT) 提示已成为处理大语言和多模式模型的广泛使用的策略。虽然 CoT 已被证明可以提高许多任务的性能,但确定 CoT 有效的设置仍然是一项持续的工作。特别是,在什么设置下 CoT 会系统地降低模型性能仍然是一个悬而未决的问题 ...
0 0 0 2025/03/25 arXiv:2410.21333v3 zhaozijian
由于传统游戏引擎的预定内容,现代游戏开发在创造力和成本方面面临重大挑战。视频生成模型的最新突破,能够综合现实和互动的虚拟环境,为革新游戏创作提供了机会。在该职位论文中,我们提出了交互式生成视频(IGV)作为生成游戏引擎(GGE)的基础,从而在下一代游戏中实现了无限的新颖内容 ...
0 0 0 2025/03/25 arXiv:2503.17359v1 qiuyan
尽管在文本到SQL任务上已经取得了重大进展,但最新的解决方案反复为每个问题编码相同的数据库架构,从而导致不必要的高推理成本,并且通常忽略了重要的数据库知识。为了解决这些问题,我们建议您仅阅读一次(Yoro),这是一种新颖的范式,将数据库知识直接将培训过程中文本到SQL模型的参数知识内化为参数知识,并消除了推断期间对模式编码的需求。 Yoro将输入 Token 长度显着减少66%-98% ...
0 0 0 2025/03/25 arXiv:2409.12172v1 15966829631
最近,已证明增强学习(RL)可极大地增强大语言模型(LLMS)的推理能力,并且基于RL的方法已逐渐应用于视觉多模式任务。但是,在这些发展中,音频方式在很大程度上被忽略了。因此,我们在音频理解和推理方面进行了一系列RL探索,特别关注音频问题答案(AQA)任务 ...
0 0 0 2025/03/25 arXiv:2503.11197v3 swaydy
这项工作是由深层神经网络的最新发展激发的,尤其是诸如CHATGPT之类的 Transformer 体系结构,以及对移动设备进行推断的需求。专注于新兴的 Transformer (特别是具有计算高效的Swin样体系结构的 Transformer )和大型模型(例如 ...
0 0 0 2025/03/25 arXiv:2404.13528v1 赵旭阳
GPT-4o 是一种全模态模型,可以实现具有不同情感和语气的语音对话,标志着全模态基础模型的一个里程碑。然而,在开源社区中,使大型语言模型能够利用公开数据端到端地感知和生成图像、文本和语音仍然具有挑战性。现有的视觉语言模型依赖于外部工具进行语音处理,而语音语言模型仍然受到有限甚至没有视觉理解能力的影响 ...
0 0 0 2025/03/25 arXiv:2409.18042v4 zhoufangru

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)