一译 —— 文档和论文翻译、对照阅读、讨论和社区

FFA-Net: Feature Fusion Attention Network for Single Image Dehazing

在本文中，我们提出了一个端到端的特征融合式接触网络（FFA-NET），以直接恢复无雾图图像。 FFA-NET体系结构由三个关键组成部分组成：1）新型功能关注（FA）模块将通道的注意力与像素注意机制结合在一起，考虑到不同的频道特征包含完全不同的加权信息，而雾兹分布在不同的图像像素上不均匀。 FA不平等地处理不同的功能和像素，这为处理不同类型的信息提供了额外的灵活性，从而扩大了CNN的表示能力 ...

0 0 0 2025/04/17 arXiv:1911.07559v2 17662529688

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

这项工作重新审视了用于培训大型视力语言模型（LVLMS）的主导监督微调（SFT），然后加固学习（RL）范式，并揭示了一个关键发现：SFT可以通过``伪造推理路径''的IMIT IMIT of Expert Models'IMIT IMIT诱导随后的RL。尽管这些路径可能类似于RL模型的本地推理路径，但它们通常涉及延长，犹豫，信息较少的步骤和不正确的推理。为了系统地研究这种效果，我们引入了VLAA- ...

0 0 0 2025/04/17 arXiv:2504.11468v1 Leonliu022

LLM4Tag: Automatic Tagging System for Information Retrieval via Large Language Models

标记系统在各种信息检索应用中起着至关重要的作用，例如搜索引擎和推荐系统。最近，由于其广泛的世界知识，语义理解和推理能力，大型语言模型（LLM）已应用于标记系统。尽管表现出色，但现有方法仍然存在局限性，包括在全面检索相关候选标签方面的困难，适应新兴领域特定知识的挑战，以及缺乏可靠的标签置信度量化 ...

0 0 0 2025/04/17 arXiv:2502.13481v1 firefly2024

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

增强学习的最新进展显着提高了多模式大型语言模型（MLLM）的推理能力。尽管诸如小组相对政策优化（GRPO）和基于规则的奖励机制之类的方法在文本和图像域中证明了有希望，但它们在视频理解中的应用仍然有限。本文介绍了对视频MLLM的GRPO进行加固微调（RFT）的系统探索，旨在增强时空感知，同时保持一般能力 ...

0 0 0 2025/04/17 arXiv:2504.06958v3 sunjiaheng

KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference

本文介绍了基于语义相似性的多用户键值（KV）缓存共享技术的KVShare，旨在提高大语言模型（LLMS）和多模式大语言模型（MLLMS）的推理效率。 KVShare解决了现有前缀缓存（严格的文本前缀匹配）和语义缓存（响应多样性的丧失）的局限性，通过语义对齐算法和差分编辑操作，KVShare实现了细粒度的KV缓存重复使用。现实世界中用户对话数据集的实验表明，KVShare将KV Cache HIT率 ...

0 0 0 2025/04/17 arXiv:2503.16525v1 yli

Low-rank constrained multichannel signal denoising considering channel-dependent sensitivity inspired by self-supervised learning for optical fiber sensing

光纤传感是一项技术，使用光纤检测到音频，振动和温度。尤其是音频/振动感知的传感称为分布式声传感（DAS）。在DAS中，由于光学噪声或安装方法，观察到的数据由多通道数据组成，遭受了严重的噪声水平。在用于降级DAS数据的常规方法中，已经研究了信号处理或深神经网络（DNN）模型 ...

0 0 0 2025/04/17 arXiv:2312.08660v2 YONG

BitNet b1.58 2B4T Technical Report

我们以200亿个参数量表介绍了B1.58 2B4T，这是第一个开源的，本机1位大语言模型（LLM）。该模型受过4万亿 Token 的语料库的培训，对涵盖语言理解，数学推理，编码能力和对话能力的基准进行了严格评估 ...

0 0 0 2025/04/17 arXiv:2504.12285v1 felixslu

Robust Visual Tracking by Segmentation

估计目标范围在视觉对象跟踪中构成了基本挑战。通常，跟踪器以箱子为中心，并且完全依靠一个边界框来定义场景中的目标。实际上，对象通常具有复杂的形状，并且与图像轴不符 ...

0 0 0 2025/04/17 arXiv:2203.11191v2 Eve_Any

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）