一译 —— 文档和论文翻译、对照阅读、讨论和社区

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

扩散技术的最新进步将图像和视频生成推向了前所未有的质量水平，从而大大加速了生成AI的部署和应用。但是，到目前为止，3D形状生成技术落后于3D数据量表的局限性，3D数据处理的复杂性以及3D域中先进技术的探索不足。在输出质量，概括能力和与输入条件的一致性方面，当前的3D形成生成方法面临着重大挑战 ...

0 0 0 2025/04/24 arXiv:2502.06608v3 wonglliam

SceneHGN: Hierarchical Graph Networks for 3D Indoor Scene Generation with Fine-Grained Geometry

3D室内场景被广泛用于计算机图形，其应用程序从室内设计到游戏到虚拟和增强现实不等。它们还包含丰富的信息，包括房间布局以及家具类型，几何和放置。高质量的3D室内场景高度要求，而它需要专业知识，并且需要手动设计高质量的3D室内场景 ...

0 0 0 2025/04/24 arXiv:2302.10237v1 wonglliam

Evaluation of computational and energy performance in matrix multiplication algorithms on CPU and GPU using MKL, cuBLAS and SYCL

矩阵乘法是用于训练深神经网络模型的返回传播算法的基础。像英特尔或NVIDIA的Cublas这样的图书馆实施了新的和优化的矩阵乘法技术，以提高性能并降低计算成本。这些技术也可以在CUDA和SYCL中实现，并使用AVX2和AVX512指令进行功能，这些说明具有较低的性能，但精度更好 ...

0 0 0 2025/04/24 arXiv:2405.17322v1 zasolla

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

大型语言模型（LLMS）的规模迅速增长，为在资源受限的硬件上有效部署带来了重大挑战。在本文中，我们引入了动态长度浮点（DFLOAT11），这是一个无损压缩框架，可将LLM大小降低30％，同时保留与原始模型相同的输出。 DFLOAT11是由LLMS的BFLOAT16重量表示中的低熵激励的，这揭示了现有的存储格式的效率显着效率 ...

0 0 0 2025/04/24 arXiv:2504.11651v1 ldm

CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion

大型语言模型（LLM）的快速发展带来了显着的生成能力，但也引起了人们对它们潜在滥用的担忧。尽管从人类反馈中进行的微调和强化学习等策略提高了其安全性，但这些方法主要集中于自然语言，这可能不会推广到其他领域。本文介绍了CodeAttack，该框架将自然语言输入转换为代码输入，并提出了一个新的环境，以测试LLMS的安全性概括 ...

0 0 0 2025/04/24 arXiv:2403.07865v5 dm616703

Vision and Language Reference Prompt into SAM for Few-shot Segmentation

细分任何模型（SAM）代表一个大规模的分割模型，该模型可以通过灵活的提示来实现强大的零击功能。虽然SAM可以将任何对象分割为零，但它需要为每个目标图像提供用户提供的提示，并且不会将任何标签信息附加到掩模。很少有射击分段模型通过将带注释的参考图像作为提示来解决这些问题，并可以在没有用户提供的提示的情况下将特定对象分割为特定对象 ...

0 0 0 2025/04/24 arXiv:2502.00719v1 Jht

QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition

大型语言模型（LLMS）在不同的应用中表现出色，但由于大规模而导致的效率低下。虽然量化降低了计算成本，但现有方法降低了中型LLM的精度（例如 ...

0 0 0 2025/04/24 arXiv:2503.19353v1 szfmsmdx

Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding

视觉大语模型（VLLM）在一般视觉任务中表现出令人印象深刻的功能，例如图像字幕和视觉问题回答。但是，它们在专业的，安全关键的领域（如自动驾驶）中的有效性在很大程度上尚未探索。自主驾驶系统需要在复杂的环境中进行复杂的场景理解，但现有的多模式基准主要集中在正常的驾驶条件上，无法充分评估VLLMS在安全至关重要的情况下的性能 ...

0 0 0 2025/04/24 arXiv:2504.14526v1 jayllia

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）