分层和复杂的数学表达识别(MER)由于对公式的多种可能解释而使解析和评估复杂化。在本文中,我们介绍了以分层细节为中心的识别数据集(HDR),这是第一个专门旨在解决这些问题的数据集。它由大型培训套件,HDR-100M组成,提供了前所未有的规模和多样性,并提供了1亿个培训实例 ...
0 0 0 2025/05/06 arXiv:2409.11677v2 15800552430
手写数学表达式识别(HMER)在自动评分和办公自动化方面有着广泛的应用。然而,现有的基于序列的解码方法直接预测$\LaTeX$序列,难以理解和建模$\LaTeX$固有的树结构,并且常常无法确保解码结果的语法正确性。为了应对这些挑战,我们提出了一种名为 TAMER(Tree-Aware Transformer)的新颖模型,用于手写数学表达式识别 ...
0 0 0 2025/05/06 arXiv:2408.08578v2 15800552430
由于数学表达式的结构复杂且符号多样,公式识别面临重大挑战。尽管公式识别模型不断进步,但这些模型采用的评估指标(例如 BLEU 和编辑距离)仍然表现出明显的局限性。他们忽视了同一个公式具有不同的表示形式,并且对训练数据的分布高度敏感,从而导致公式识别评估的不公平性 ...
0 0 0 2025/05/06 arXiv:2409.03643v2 15800552430
公式识别是文档智能中的重要任务。它涉及将数学表达式从文档图像转换为计算机可以轻松使用的结构化符号格式。乳胶是用于此目的的最常见格式 ...
0 0 0 2025/05/06 arXiv:2503.18382v1 15800552430
基于监督对象检测器的语义映射对图像分布敏感。在现实环境中,对象检测和分割性能可能会导致大幅下降,从而阻碍了语义映射在更广泛的领域中的使用。另一方面,视觉语言基础模型的开发展示了跨数据分布的强大的零样本可迁移性 ...
0 0 0 2025/05/06 arXiv:2402.04555v2 康康23
进行操作的学习需要使用能够访问丰富感官信息(例如点云或RGB图像)的策略。点云有效捕获几何结构,使其对于模仿学习中的操纵任务至关重要。相反,RGB图像提供了丰富的纹理和语义信息,对于某些任务至关重要 ...
0 0 0 2025/05/06 arXiv:2502.12320v2 康康23
统一的多模式大语模型(MLLM)旨在通过一个框架整合多模式的理解和发电能力。尽管它们具有多功能性,但现有的开源统一模型仍针对特定领域的体系结构表现出性能差距。为了弥合这一差距,我们提出了Nexus-Gen,这是一个统一的模型,它通过扩散模型的图像合成能力协同LLM的语言推理能力 ...
0 0 0 2025/05/06 arXiv:2504.21356v1 X.K
图像脱毛是图像恢复领域的关键任务,旨在消除模糊的伪影。但是,解决不均匀的模糊的挑战导致了一个不适的问题,这限制了现有脱蓝色模型的概括性能。为了解决问题,我们提出了一个框架SAM-DEBLUR,将任何模型(SAM)的先验知识首次集成到了DeBlurring任务中 ...
0 0 0 2025/05/06 arXiv:2309.02270v2 cwd

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)