一译 —— 文档和论文翻译、对照阅读、讨论和社区

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

有效的推理仍然是金融领域中大型语言模型（LLM）的核心挑战，在该领域中，任务通常需要特定于领域的知识，精确的数值计算以及严格遵守合规规则。我们提出了Dianjin-R1，这是一个具有推理增强的框架，旨在通过推理的监督和强化学习来应对这些挑战。我们方法的核心是Dianjin-R1-Data，这是一种由CFLUE，FINQA和专有合规性语料库（中国合规性检查，CCC）构建的高质量数据集，将各种财务推理 ...

0 0 0 2025/05/08 arXiv:2504.15716v1 the_highflyer

R2LIVE: A Robust, Real-time, LiDAR-Inertial-Visual tightly-coupled state Estimator and mapping

在这封信中，我们提出了一个健壮的实时紧密耦合多传感器融合框架，该框架融合了LIDAR，惯性传感器和视觉摄像机的测量，以实现强大而准确的状态估计。我们提出的框架由两个部分组成：基于滤波器的进程和因子图优化。为了确保实时性能，我们估算了误解迭代的Kalman-Filter框架内的状态，并通过我们的因子图优化进一步提高了整体精度 ...

0 0 0 2025/05/08 arXiv:2102.12400v1 FanWang1007

GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction

视频场景中多种观点的引入不可避免地增加了存储和传输所需的比特率。为了降低比特率，研究人员开发了在压缩和交付过程中跳过中间观点的方法，并最终使用侧面信息（SI）重建它们。通常，深度图用于构造SI ...

0 0 0 2025/05/08 arXiv:2205.03599v2 muyu

R3LIVE: A Robust, Real-time, RGB-colored, LiDAR-Inertial-Visual tightly-coupled state Estimation and mapping package

在这封信中，我们提出了一种新型的LIDAR惯性传感器融合框架，称为R3Live，该框架利用了LIDAR，惯性和视觉传感器的测量，以实现强大而准确的状态估计。 R3LIVE包含两个子系统，即激光惯性探针（LIO）和视觉惯性探测器（VIO）。 LIO子系统（Fast-Lio）利用了LiDAR和惯性传感器的测量，并构建了几何结构（i ...

0 0 0 2025/05/08 arXiv:2109.07982v1 FanWang1007

CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving

驾驶视频生成的最新进展通过提供可扩展和可控的培训数据来显示出增强自动驾驶系统的巨大潜力。尽管预算是最新的一代模型，但在2D布局条件下进行指导（例如 ...

0 0 0 2025/05/08 arXiv:2503.22231v2 muyu

A Decade's Battle on Dataset Bias: Are We There Yet?

我们重新提出了托拉尔巴和埃夫罗斯十年前提出的“数据集分类”实验，在新时代，数据集具有大规模、听力、希望偏差减弱的数据集以及功能更强大的神经网络架构。 令人惊讶的是，我们对来自哪个数据集方面的分类图像中的现代神经网络的观察可以实现出色的准确性：例如... ...

0 0 0 2025/05/08 arXiv:2403.08632v2 HiYellowC

Multi-modal Dense Video Captioning

密集的视频字幕是从未修剪视频中本地化有趣事件的任务，并为每个本地化事件制作文本描述（字幕）。密集的视频字幕上的大多数作品仅基于视觉信息，并且完全忽略了音轨。但是，尤其是音频和言语是人类观察者在理解环境方面的重要提示 ...

0 0 0 2025/05/08 arXiv:2003.07758v2 argbunint256

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

尽管多模式任务取得了希望的进展，但当前的大型多模型模型（LMM）倾向于相对于相关图像和人类指令幻觉不一致的描述。本文通过引入第一个大型而多样的视觉教学调谐数据集来解决此问题，该数据集被称为大规模稳健视觉（LRV） - 指导。我们的数据集包括由GPT4生成的400K视觉说明，涵盖了16个具有开放式指示和答案的视觉和语言任务 ...

0 0 0 2025/05/08 arXiv:2306.14565v4 woods

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）