一译 —— 文档和论文翻译、对照阅读、讨论和社区

EdgeFusion: On-Device Text-to-Image Generation

稳定扩散的密集计算负担（SD）用于文本到图像生成为其实际应用带来了重大障碍。为了应对这一挑战，最近的研究重点是减少采样步骤（例如潜在一致性模型（LCM））的方法，以及采用建筑优化（包括修剪和知识蒸馏）的方法。与现有方法不同，我们独特地从紧凑的SD变体BK-SDM开始 ...

0 0 0 2025/03/18 arXiv:2404.11925v1 37220222203774

VRsketch2Gaussian: 3D VR Sketch Guided 3D Object Generation with Gaussian Splatting

我们提出了VRSKetch2Gaussian，这是第一个VR草图引导，多模式的本机3D对象生成框架，其中包含3D高斯分裂表示。作为我们工作的一部分，我们介绍了VRSS，这是第一个包含VR草图，文本，图像和3DG的大规模配对数据集，在基于多模式VR草图的一代中弥合了差距。我们的方法具有以下关键创新：1）Sketch-CLIP功能对齐 ...

0 0 0 2025/03/18 arXiv:2503.12383v1 liushibo

AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science

大型语言模型（LLMS）的快速进步，尤其是在其推理能力中，具有解决大气科学中复杂挑战的变革潜力。但是，在该领域有效利用LLM需要强大而全面的评估基准。为了满足这一需求，我们提出了Atmossci-Bench，这是一种新型的基准测试，旨在系统地评估大气科学问题五个核心类别的LLM性能：水文，大气动力学，大气物理学，地球物理学和物理海洋学 ...

0 0 0 2025/03/18 arXiv:2502.01159v1 lunarcloud

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving

端到端的自主驾驶（E2E-AD）已成为自动驾驶领域的一种趋势，有望采用数据驱动的，可扩展的系统设计方法。但是，现有的E2E-AD方法通常采用感知预测计划的顺序范式，从而导致累积错误和训练不稳定性。任务的手动排序还限制了系统在任务之间利用协同作用的能力（例如，计划意识感知和游戏理论互动预测和计划） ...

0 0 0 2025/03/18 arXiv:2503.07656v1 15602329257

Dynamic Large Language Models on Blockchains

培训和部署大型语言模型需要大量的计算资源，因为语言模型包含数十亿个参数，并且文本具有数千个 Token 。另一个问题是大语言模型是静态的。它们在训练过程后是固定的 ...

0 0 0 2025/03/18 arXiv:2307.10549v1 lpfgss

Imagen Video: High Definition Video Generation with Diffusion Models

我们提出了成像视频，这是一种基于级联视频扩散模型的文本条件视频生成系统。给定文本提示，成像视频使用基本视频生成模型和一系列交错的空间和时间视频超分辨率模型生成高清视频。我们描述了如何将系统扩展为高清文本到视频模型，包括设计决策，例如在某些分辨率下选择全卷积时间和空间超分辨率模型，以及扩散的 ...

0 0 0 2025/03/18 arXiv:2210.02303v1 fujiachen2005

Vim4Path: Self-Supervised Vision Mamba for Histopathology Images

由于组织结构的复杂性质和标记数据的稀缺性，从Gigapixel全部幻灯片图像（WSI）中学习对计算病理学构成了重大挑战。多企业学习方法已经解决了这一挑战，利用自我监督的学习（SSL）方法利用图像贴片来对幻灯片进行分类。 SSL和MIL方法的性能依赖于功能编码器的架构 ...

0 0 0 2025/03/18 arXiv:2404.13222v2 马斯伟

Make-A-Video: Text-to-Video Generation without Text-Video Data

我们提出了Make-A-Video-一种直接将文本形象（T2I）生成最新进展的方法直接转化为文本对视频（T2V）的方法。我们的直觉很简单：了解世界的外观以及如何从配对的文本图像数据中描述它，并了解世界如何从无监督的录像中移动。 Make-A-Video具有三个优点：（1）它加速了T2V模型的培训（它不需要从头开始学习视觉和多模式表示），（2）它不需要成对的文本视频数据，并且（3）生成的视频继承了广 ...

0 0 0 2025/03/18 arXiv:2209.14792v1 kevinson

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）