本文介绍了Typhoon 2,这是针对泰语优化的一系列文本和多模式的大型语言模型。该系列包括文本,视觉和音频的模型。 Typhoon2-Text建立在最先进的开放模型的基础上,例如Llama 3和Qwen2,我们对英语和泰语数据的混合物进行了持续的预训练 ...
点云分段对于理解3D环境至关重要。但是,当前的3D点云分割方法通常在场景边界上的性能较差,从而使整体分割性能退化。在本文中,我们专注于场景边界的细分 ...
大型多模型模型(LMM)在人工智能研究和工业社区中引起了广泛的关注和兴趣,因为它们在多模式理解,推理,推理和秘密学习等方面具有出色的能力。尽管LMM在解决图像字幕,视觉问题答案和视觉接地等多模式任务方面表现出了令人鼓舞的结果,但与专家探测器相比,LMMS的对象检测功能具有显着的差距。为了弥合差距,我们偏离了将重型探测器与LMM集成的常规方法,并提出了LMM-DET,这是一种简单而有效的方法,它利用大型的多模式模型用于香草对象检测,而无需依赖专门的检测模块 ...
伪装的对象检测(COD)由于伪装物体及其周围环境之间的强烈相似性而具有挑战性,这使识别复杂化。现有方法主要依赖于空间局部特征,未能捕获全局信息,而变形金刚则增加了计算成本。为了解决这个问题,提出了频率辅助的类似Mamba的线性注意网络(FMNET),该网络利用频域学习有效地捕获全局特征并减轻对象和背景之间的歧义 ...
扩散模型已经彻底改变了图像编辑,但通常会产生违反物理定律的图像,尤其是对象在场景中的影响,例如遮挡,阴影和反射 ...
公路交通代理商的运动预测既提出了一个重大挑战,也是确保自动驾驶系统安全的重要必要性。与直接预测未来轨迹的大多数现有数据驱动的方法相反,我们从计划的角度重新考虑了这项任务,主张“首先推理,然后预测”策略,该策略将行为意图明确地纳入了轨迹预测的空间指导。为了实现这一目标,我们引入了一个以新颖的以查询为中心的逆增强学习(IRL)方案为基础的可解释的,奖励驱动的意图推理者 ...
虽然端到端的自主驾驶模型显示出令人鼓舞的结果,但它们的实际部署通常受到大型尺寸的阻碍,依赖昂贵的激光雷达传感器和计算密集的BEV功能表示。这限制了它们的可扩展性,尤其是对于仅配备相机的大众市场车辆。为了应对这些挑战,我们提出了Prix(来自RAW PIXELS的计划) ...
语音基础模型通过提供出色的表示功能,已经大大提高了与语音相关的各种任务。但是,它们的高维输出功能通常会与下游任务模型创建不匹配,该模型通常需要较低维度的输入。一个常见的解决方案是应用降低层(DR)层,但是这种方法增加了参数开销,计算成本以及丢失有价值信息的风险 ...
在术前设置中,使用了数字重建的X光片(DRR)来解决诸如切片到体积注册和3D重建之类的反问题。在术中成像中,DRR的实用性受到实时生成它们以及支持依赖重复DRR合成的优化程序的挑战的限制。尽管通过算法改进和GPU实现加速了DRR的生成,但基于DRR的优化仍然很慢,因为大多数DRR发电机都没有提供有关成像参数的梯度的直接方法 ...
3D高斯脱落(3DG)的最新进步在新型视图综合任务中表现出了巨大的潜力。分裂和诱饵范式已实现了大规模的现场重建,但是在场景分区,优化和合并过程中仍然存在重大挑战。本文介绍了Blockgoussian,这是一个新颖的框架,结合了内容感知的场景分区策略和可见性 - 吸引块优化,以实现高效且高质量的大规模场景重建 ...