一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA

随着大型语言模型（LLM）已变得越来越多地计算和记忆密集型，参数有效的微调（PEFT）方法现在是微调LLM的常见策略。流行的PEFT方法是低级适配器（LORA），它为选定的层增添了可训练的低级“适配器”。每个适配器由低级矩阵乘积组成，乘以等级依赖性因子 ...

0 0 0 2025/04/18 arXiv:2312.03732v1 Ethan_Liu

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

尽管使用更快、更深的卷积神经网络在单图像超分辨率的准确性和速度方面取得了突破，但一个核心问题在很大程度上仍未解决：当我们以大的放大因子进行超分辨率时，如何恢复更精细的纹理细节？基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差。由此产生的估计具有较高的峰值信噪比，但它们通常缺乏高频细节，并且在感知上不令人满意，因为它们无法匹配更高分辨率下预期的保真度... ...

0 0 0 2025/04/18 arXiv:1609.04802v5 xx

The Evolving Landscape of LLM- and VLM-Integrated Reinforcement Learning

强化学习（RL）在顺序决策任务中显示出令人印象深刻的结果。同时，出现了大型语言模型（LLM）和视觉模型（VLM），在多模式理解和推理方面表现出了令人印象深刻的能力。这些进步导致了将LLM和VLMS整合到RL的研究激增 ...

0 0 0 2025/04/18 arXiv:2502.15214v1 213

Diffusion Models for Robotic Manipulation: A Survey

扩散生成模型在图像和视频生成等视觉域中表现出了很大的成功。他们最近还成为机器人技术中的一种有前途的方法，尤其是在机器人操作中。扩散模型利用了一个概率框架，他们以对高维输入和输出空间进行建模多模式分布以及鲁棒性的能力而脱颖而出 ...

0 0 0 2025/04/18 arXiv:2504.08438v1 odenkkk

When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework

为了最大程度地减少面部识别年龄变化的影响，先前的工作要么通过最大程度地减少身份和年龄相关特征之间的相关性来提取与身份相关的歧视性特征，称为年龄不变的面部识别（AIFR），或者通过将不同年龄组的面部转化为同一年龄组，称为面部年龄段（称为面部年龄范围），称为年龄变化，称为面部年龄段，称为面部年龄段（fas）（fas）（fas）；但是，前者缺乏模型解释的视觉结果，而后者则遭受了损害下游识别的伪影。因此， ...

0 0 0 2025/04/18 arXiv:2103.01520v2 Jiangzeren

StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows

使用大型语言模型（LLM）来处理复杂的任务是一个显着的趋势，例如需要一系列操作以及与工具和外部环境进行动态交互的任务 ...

0 0 0 2025/04/18 arXiv:2403.11322v5 jueli

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

多模式大语言模型（MLLMS）实现了出色的性能，以实现细粒度的像素级理解任务。但是，所有作品都在很大程度上依赖于额外的组件，例如视觉编码器（剪辑），分割专家，导致高系统复杂性和限制模型缩放。在这项工作中，我们的目标是在不引入额外组件的情况下探索高度简化的MLLM ...

0 0 0 2025/04/18 arXiv:2504.10465v1 Archer

Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics

近年来，无监督的单眼深度和自我运动估计引起了广泛的研究关注。尽管当前的方法达到了高度最高的准确性，但由于使用单眼序列训练固有的规模歧义，它们通常无法学习真实规模的指标。在这项工作中，我们解决了这个问题，并提出了Dynadepth，这是一个新颖的量表感知框架，该框架整合了视觉和IMU运动动态的信息 ...

0 0 0 2025/04/18 arXiv:2207.04680v3 xdd

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）