文档图像增强(DIE)是文档AI系统中的关键组件,其性能基本决定了下游任务的有效性。为了解决局限于单一降低恢复或灰度图像处理的现有方法的局限性,我们使用局部参数生成增强网络(GL-PGENET)呈现全球,这是一种新型体系结构,设计用于多衰减的彩色文档图像,确保在现实世界中的效率和鲁棒性。我们的解决方案结合了三个关键创新:首先,是一个分层增强框架,将全球外观校正与本地改进相结合,从而可以改进粗到精细 ...
随着大型语言模型(LLM)的不断发展,确保他们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是\ textIt {工具融合},其中AI系统在优化给定的目标时,开发出意想不到的中间目标,覆盖了最终目标并偏离人类意义的目标。这个问题在强化学习(RL)培训的模型中尤其重要,该模型可以产生创造性但意外的策略以最大程度地提高奖励 ...
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
大型视觉模型(LVLMS)已大大提高,从而相互交织的视觉识别和语言理解,以生成不仅相干而且在上下文上的内容。尽管它们成功了,但LVLM仍然遭受了对象幻觉问题的困扰,在该问题中,模型产生了可行的,但不正确的输出,其中包括图像中不存在的对象。为了减轻此问题,我们引入了视觉对比度解码(VCD),这是一种简单且无训练的方法,它与来自原始和扭曲的视觉输入得出的输出分布对比 ...
我们提出了GO-N3RDET,这是一种场景几何优化的多视图3D对象检测器,可通过神经辐射场增强。精确3D对象检测的关键是有效体素表示。但是,由于阻塞和缺乏3D信息,从多视图2D图像中构建3D功能是具有挑战性的 ...
3D AI生成的内容(AIGC)是一个充满激情的领域,它显着加速了游戏,电影和设计中的3D模型。尽管开发了几种彻底改变3D代的开创性模型,但由于收集,处理和培训3D模型所涉及的复杂性,该领域仍然可以在研究人员,开发人员和设计师方面取得很大的访问。为了应对这些挑战,我们介绍了Hunyuan3d 2 ...
在每个卷积层中学习一个静态卷积内核是现代卷积神经网络(CNN)的常见训练范式。取而代之的是,动态卷积的最新研究表明,学习$ n $卷积内核与输入依赖性注意力的线性组合可以显着提高轻重量CNN的准确性,同时保持有效的推断。但是,我们观察到,现有的作品endow卷积内核具有通过一个维度(关于卷积内核编号)的动态属性的内核空间,但是其他三个维度(关于每个卷积内核的空间大小,输入通道号和输出通道号) .. ...
建议的问题(SQS)为用户提供了有效的初始接口,以便在AI驱动的阅读应用程序中与其文档互动。在实践阅读会议中,用户具有不同的背景和阅读目标,但是当前的SQ功能通常忽略了此类用户信息,从而导致均质或无效的问题。我们介绍了一条管道,该管道通过将读取器概况(专业和阅读目标)结合起来,并以两种方式演示其实用性:1)作为改进的SQ生成管道,与当前的基准相比,与当前的基准相比,产生更高的质量和更多样化的问题, ...
检索增强的一代(RAG)对于大规模代码生成至关重要,基于外部代码语料库的预测以改善现实性。但是,抹布管道的一个关键但毫无疑问的方面是块 - 将文档分为可检索的单元的过程。现有的基于线的块启发式方法通常会破坏语义结构,分裂功能或合并无关的代码,从而降低发电质量 ...