尽管数据综合和蒸馏是增强小语言模型的有希望的策略,但当前的方法在很大程度上依赖大型语言模型(LLMS),这些模型(LLMS)遭受了高度计算成本,环境效率低下以及从整体体系结构继承的潜在偏见。相比之下,较小的LLM更容易访问和可持续,但是它们的个人能力通常在产生高质量,多样化和可靠的数据方面缺乏。受人类协作过程的启发(e ...
使用多层 Transformer 解码器以迭代的对象查询的基于DITR的方法在3D室内对象检测中显示出有希望的性能。但是, Transformer 解码器中的场景点特征保持固定,从而导致后来的解码器层的贡献最少,从而限制了性能的改善。最近,通过系统状态和输入之间的迭代相互作用,状态空间模型(SSM)显示了有效的上下文建模能力具有线性复杂性 ...
我们报告了一项直接数字模拟研究,该研究对剪切雷诺数的Quasi-Keplerian制度中的Taylor-Couette流量最高为$ \ MATHCAL {O}(10^5)$。数十年来,已研究了准胜地旋转流,作为一种简化的模型系统,以研究未完全了解的吸积盘中湍流的起源。这项研究的流量是轴向周期性的,因此避免了实验末端壁对流动稳定性的影响 ...
推理模型的测试时间扩展的最新趋势(例如Openai O1,DeepSeek R1)导致人们普遍认为,使用“ wait”或“让我重新思考”等提示来扩展思维痕迹可以提高性能 ...
我们提出了DITFLOF,这是一种将参考视频运动转移到新合成的方法的方法,该方法是专门为扩散 Transformer (DIT)设计的。我们首先使用预先训练的DIT处理参考视频,以分析跨框架注意图,并提取称为注意运动流(AMF)的斑块运动信号。我们通过通过AMF损失优化潜在的潜在,以基于优化的无训练方式指导潜在的denoising过程,以生成引用运动运动的运动的视频 ...
文档图像增强(DIE)是文档AI系统中的关键组件,其性能基本决定了下游任务的有效性。为了解决局限于单一降低恢复或灰度图像处理的现有方法的局限性,我们使用局部参数生成增强网络(GL-PGENET)呈现全球,这是一种新型体系结构,设计用于多衰减的彩色文档图像,确保在现实世界中的效率和鲁棒性。我们的解决方案结合了三个关键创新:首先,是一个分层增强框架,将全球外观校正与本地改进相结合,从而可以改进粗到精细 ...
随着大型语言模型(LLM)的不断发展,确保他们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是\ textIt {工具融合},其中AI系统在优化给定的目标时,开发出意想不到的中间目标,覆盖了最终目标并偏离人类意义的目标。这个问题在强化学习(RL)培训的模型中尤其重要,该模型可以产生创造性但意外的策略以最大程度地提高奖励 ...
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
大型视觉模型(LVLMS)已大大提高,从而相互交织的视觉识别和语言理解,以生成不仅相干而且在上下文上的内容。尽管它们成功了,但LVLM仍然遭受了对象幻觉问题的困扰,在该问题中,模型产生了可行的,但不正确的输出,其中包括图像中不存在的对象。为了减轻此问题,我们引入了视觉对比度解码(VCD),这是一种简单且无训练的方法,它与来自原始和扭曲的视觉输入得出的输出分布对比 ...