一译 —— 文档和论文翻译、对照阅读、讨论和社区

DexPilot: Vision Based Teleoperation of Dexterous Robotic Hand-Arm System

Teeleperation提供了具有精致的推理技能，直觉和创造力以执行任务的机器人系统的可能性。但是，当前用于高级致命程度（DOA）的远程操作解决方案，多指的机器人通常是成本良好的，而低成本产品通常提供降低的控制程度。此处是一种基于低成本的，基于视觉的远程操作系统Dexpilot，它是通过仅观察裸露的人手来完全控制完整23 DOA机器人系统的 ...

0 0 0 2025/06/06 arXiv:1910.03135v2 wchiyu98

SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation

全双工多模式大型语言模型（LLMS）提供了一个统一的框架，用于解决多样化的语音理解和发电任务，从而实现了更自然和无缝的人机对话。与传统的模块化对话AI系统不同，该系统将语音识别，理解和语音到语音生成分为不同的组件不同，多模式LLMS作为单端到端模型运行。这种简化的设计消除了跨组件的错误传播，并充分利用了嵌入在输入语音信号中的丰富的非语言信息 ...

0 0 0 2025/06/06 arXiv:2411.18138v1 rosyclouds

LP-DETR: Layer-wise Progressive Relations for Object Detection

本文介绍了LP-DRE（层次渐进式DETR），这是一种新颖的方法，可通过多尺度关系建模增强基于DETR的对象检测。我们的方法通过一种自我注意的机制引入了对象查询之间的可学习空间关系，该机制可以自适应地学习在解码器层之间平衡不同关系（本地，中等和全局）的不同规模。这种渐进设计使该模型能够在整个检测管道中有效捕获不断发展的空间依赖性 ...

0 0 0 2025/06/06 arXiv:2502.05147v3 YuanyangCao

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

多模式大语言模型（MLLM）的显着进步吸引了越来越多的关注，以扩展到腿部机器人等物理实体。这通常需要MLLM不仅要掌握多模式理解能力，还需要整合视觉空间推理和物理互动功能。然而，由于本文本文的基础，现有方法很难统一这些能力，因此我们介绍了视觉体现的大脑（Vebrain），这是现实世界中的感知，推理和控制的统一框架 ...

0 0 0 2025/06/06 arXiv:2506.00123v1 WuYP

CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

基于 Transformer 的方法在低级视觉任务（例如图像超分辨率（SR））中表现出了令人印象深刻的性能。但是，其计算复杂性随空间分辨率而倍增。一系列作品试图通过将低分辨率图像分为本地窗户，轴向条纹或扩张的窗户来减轻此问题 ...

0 0 0 2025/06/06 arXiv:2503.06896v1 A心

Can Large Reasoning Models Self-Train?

扩展大语模型（LLM）的性能越来越取决于减少对人类监督的依赖的方法。从自动验证中学习的强化学习提供了替代方案，但由于对人类设计的验证者的依赖而造成的可伸缩性限制。自我训练（在模型自身提供监督信号的情况下）提出了令人信服的方向 ...

0 0 0 2025/06/06 arXiv:2505.21444v1 zhangxinhao

MVPainter: Accurate and Detailed 3D Texture Generation via Multi-View Diffusion with Geometric Control

最近，在3D对象生成中已经取得了重大进展。在生成的几何形状的基础上，当前的管道通常采用图像扩散模型来生成多视图RGB图像，然后通过纹理烘烤进行紫外线纹理重建。尽管在多个开源框架的支持下，3D几何产生有了显着改善，但3D纹理生成仍未得到充分震惊 ...

0 0 0 2025/06/06 arXiv:2505.12635v1 zhifeiji

Large Language Model Adaptation for Financial Sentiment Analysis

自然语言处理（NLP）最近通过对公司和市场的财务文件提供了高度宝贵的见解，从而在金融机构中获得了相关性。但是，由于文本的复杂性和特定术语的使用，金融领域的景观给NLP带来了额外的挑战。通才的语言模型往往在专门针对金融的任务中脱颖而出，即使使用具有良好自然语言理解和生成能力的大型语言模型（LLM） ...

0 0 0 2025/06/06 arXiv:2401.14777v1 Tulip

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）