场景文本编辑旨在修改场景图像中的文本内容,同时保持样式一致性。传统方法通过将样式和内容从源图像中明确解开,然后将样式与目标内容融合,同时使用预训练的识别模型确保内容一致性。尽管取得了显着的进展,但这些方法仍具有复杂的管道,导致在复杂方案中的次优性能 ...
0 0 0 2025/03/24 arXiv:2503.08387v2 不爱看论文
大型语言模型(LLMS)在代码生成中表现出令人印象深刻的内在学习能力(ICL)。 LLMS采用由要求代码示例和新要求作为输入和输出新程序组成的提示。现有的研究发现,ICL高度受示例主导,因此在选择中进行了研究 ...
0 0 0 2025/03/24 arXiv:2310.09748v1 heyi
代码生成旨在自动从输入要求中生成代码,从而显着提高开发效率。最近的大型语言模型(LLMS)方法显示出有希望的结果并彻底改变了代码生成任务。尽管表现出色,但LLMS通常会产生具有幻觉的内容,尤其是对于需要在实际开发过程中处理复杂上下文依赖性的代码生成方案 ...
0 0 0 2025/03/24 arXiv:2409.20550v2 heyi
现有的大型视觉模型(LVLM)主要将视觉编码器的图像特征与大语言模型(LLMS)相结合,以利用其出色的文本生成功能。但是,视觉编码器和语言模型之间的规模差异可能导致LLMS假设在多模式理解中起主要作用。 LVLMS中的这种不平衡可能导致幻觉 ...
0 0 0 2025/03/24 arXiv:2407.21771v1 Rainbow
多模式大型语言模型(MLLM)在各种任务中脱颖而出,但仍在幻觉中挣扎。虽然最近的无培训缓解方法主要通过回顾策略和对比解码引入额外的推理开销,但我们提出了注意重新分配(attnreal)以减轻幻觉,并以几乎为零的额外成本为零。我们的方法是由MLLM不合理的注意力分布导致特征由历史输出 Token 主导的主要观察的动机,这进一步导致了幻觉的响应,因为不同的 Token 类型之间的分布差距 ...
0 0 0 2025/03/24 arXiv:2503.08342v2 Rainbow
尽管在各种多模式任务中取得了巨大的成功,但大型视觉模型(LVLM)经常遇到对象幻觉,而生成的文本响应与图像中的实际对象不一致。我们检查了不同的LVLM,并确定对象幻觉的根本原因是对判别图像特征的关注不足。具体而言,LVLM通常主要参加迅速的全球功能,而不是迅速相关的本地功能,破坏了其视觉接地能力并导致对象幻觉 ...
0 0 0 2025/03/24 arXiv:2406.12718v3 Rainbow
推理大型语言模型正在跨各个领域迅速发展。但是,它们在处理复杂财务任务的能力仍然需要深入探索。在本文中,我们介绍了Fin-R1,这是一种专门为金融领域设计的大型语言模型 ...
0 0 0 2025/03/24 arXiv:2503.16252v1 ymx
检索增强的生成(RAG)通过使用外部知识来改善大语言模型(LLM),但它会在精确的实体信息检索中挣扎。在本文中,我们提出了Mes-rag框架,该框架可以增强特定于实体的查询处理,并提供准确,安全和一致的响应。 Mes-rag引入了主动的安全措施,通过在数据访问之前应用保护来确保系统完整性 ...
0 0 0 2025/03/23 arXiv:2503.13563v1 ymx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)