由于其在视频游戏,电影业和AR/VR等各种应用中的潜力,自动3D内容创建最近引起了人们的关注。鉴于单个RGB图像,扩散模型和多模型模型的最新进展显着提高了3D对象产生的质量和效率。但是,与人类创建的资产相比,即使是最先进的方法生成的3D对象仍然不令人满意 ...
基于物理的渲染(PBR)已成为现代计算机图形的基石,从而在3D场景中实现了现实的材料表示和照明相互作用。在本文中,我们提出了MaterialMVP,这是一种新型的端到端模型,用于从3D网格和图像提示中生成PBR纹理,从而解决了多视图材料合成中的关键挑战。我们的方法利用参考注意从输入参考图像中提取和编码信息潜在,从而实现直观且可控的纹理生成 ...
本文提出了一种新颖的风险敏感贸易代理,结合了加强学习和大型语言模型(LLMS)。我们通过添加风险评估和交易推荐信号来扩展有条件的风险近端政策优化(CPPO)算法。使用FNSPID数据集中的财务新闻数据和DeepSeek V3,QWEN 2,我们在NASDAQ-100指数基准测试中进行了重测测试 ...
使用大型语言模型(LLMS)提供动力的代理商的社会,在解决问题的自动化问题中取得了重大进展。在金融中,努力主要集中在单独的系统上处理特定任务或独立收集数据的多代理框架。但是,多代理系统复制现实世界贸易公司的协作动态的潜力仍然没有得到充实 ...
已经证明,深度神经网络(DNN)架构使用RGBD数据胜过对象分割和姿势估算的传统管道,但是这些DNN管道的性能直接与训练数据的真实数据的代表性直接相关。因此,在实践中采用这些方法的关键要求是为您的特定机器人操纵任务提供大量标记的数据,这一要求通常不受现有数据集的满足。在本文中,我们开发了一条管道来快速生成具有PixelWise标签和对象姿势的高质量RGBD数据 ...
文档图像解析由于其复杂的交织元素(例如文本段落,图形,公式和表格)而具有挑战性。当前的方法要么组装专业的专家模型,要么直接生成页面级内容自动审核,尽管其性能不错,但仍面向集成开销,效率瓶颈和布局结构退化。 To address these limitations, we present \textit{Dolphin} (\textit{\textbf{Do}cument Image \textb ...
动态环境的准确感知是自动驾驶和机器人系统的基本任务。本文介绍了 Let Occ Flow,这是第一个仅使用摄像机输入进行联合 3D 占用和占用流量预测的自监督工作,无需 3D 注释。利用 TPV 进行统一场景表示和可变形注意层进行特征聚合,我们的方法结合了后向时间注意模块来捕获动态对象依赖性,然后是用于精细获得体积表示的 3D 细化模块 ...
尽管神经网络在各种应用程序中取得了非常成功的成功,但在资源受限的硬件中实施它们仍然是深入研究的领域。通过用量化的神经网络的权重取代(例如 ...