一译 —— 文档和论文翻译、对照阅读、讨论和社区

It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation

多媒体建议，其中包含各种方式（例如图像，文本等） ...

0 0 0 2025/03/11 arXiv:2406.08270v2 pengfeiyu

Improving Visual Storytelling with Multimodal Large Language Models

视觉讲故事是一个新兴领域，结合了图像和叙述，创造了引人入胜且上下文丰富的故事。尽管具有潜力，但由于对齐视觉和文本信息的复杂性，产生连贯和情感共鸣的视觉故事仍然具有挑战性。本文提出了一种新的方法，利用大型语言模型（LLM）和大型视觉模型（LVLM）与指导调整相结合以应对这些挑战 ...

0 0 0 2025/03/11 arXiv:2407.02586v1 球楼

On the Continuity of Rotation Representations in Neural Networks

在神经网络中，通常希望使用同一空间的各种表示。例如，3D旋转可以用四个旋转或欧拉角表示。在本文中，我们推进了连续表示的定义，这可能有助于培训深层神经网络 ...

0 0 0 2025/03/11 arXiv:1812.07035v4 parsifalster

Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework

大语言模型的最新进展证明了它们从高级提示中自动生成硬件说明语言（HDL）代码的潜力。研究人员已经利用微调来增强这些大语言模型（LLM）在芯片设计领域的能力。但是，缺乏Verilog数据阻碍了LLMS Verilog生成质量的进一步改善 ...

0 0 0 2025/03/11 arXiv:2403.11202v2 kwonggingwan

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

受过对比损失训练的视觉语言模型（VLM）在各种视觉和语言任务中取得了重大进步。但是，对比损失的全球性质使VLM主要集中在前景对象上，忽略了图像中的其他关键信息，这限制了它们在下游任务中的有效性。为了应对这些挑战，我们提出了Cosmos：跨模式的自我介绍，以进行视觉预训练，将新颖的文本作品策略和跨意思模块整合到一个自我监督的学习框架中 ...

0 0 0 2025/03/11 arXiv:2412.01814v1 Arlix

A Dataset of Relighted 3D Interacting Hands

双手互动是由于自相似性，复杂的表达和手的遮挡而进行分析的最具挑战性信号之一。尽管已经提出了几个数据集用于双手交互分析，但所有数据集并未实现1）不同和现实的图像外观以及2）同时构成了多样化和大规模的地面图（GT）3D。在这项工作中，我们提出了RE：Destreathand，这是一个实现两个目标的重新互动相互作用的手的数据集 ...

0 0 0 2025/03/11 arXiv:2310.17768v1 蔡明方

SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning

当前的分割方法需要许多培训图像和精确的面具，而异常图像不足，阻碍了它们在工业场景中的应用。为了解决这一问题，我们探索产生各种异常和准确的像素注释。通过观察真实的生产线，我们发现异常在形状和外观上随机变化，而产品具有局部变化的全球一致模式 ...

0 0 1 2025/03/11 arXiv:2410.14987v1 长空

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

语义同时定位和映射（SLAM）系统难以在近距离绘制语义上相似的对象，尤其是在混乱的室内环境中。我们介绍了对象SLAM（SEO-SLAM）的语义增强，这是一个新型的SLAM系统，该系统利用视觉语言模型（VLM）和多模式大语言模型（MLLMS）来增强此类环境中的对象级语义映射。 SEO-SLAM通过（1）使用MLLM产生更具体和描述性的开放式摄制对象标签，（2）同时纠正导致错误的地标的因子，以及（3） ...

0 0 0 2025/03/11 arXiv:2411.06752v1 duhuan0419

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）