一译 —— 文档和论文翻译、对照阅读、讨论和社区

Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models

推理对于有效的沟通和决策至关重要。尽管LLM和MLLM的最新进展表明，合并显式推理可显着改善理解和概括，但LSMS中的推理仍处于新生的阶段。早期的努力试图将“以前的思维”范式从文本模型转移到语音 ...

0 0 0 2025/08/25 arXiv:2508.15827v1 zhangqi33

Studying Product Competition Using Representation Learning

在产品水平而不是品牌水平上研究竞争和市场结构可以为企业提供有关蚕丝化和产品线优化的见解。但是，在电子商务平台上分析数百万个产品的产品级竞争在计算上具有挑战性。我们介绍了基于表示算法Word2Vec的Product2VEC，以研究产品级竞争，当时产品级时 ...

0 0 0 2025/08/25 arXiv:2005.10402v1 yushun

CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

基于聊天的语言模型的快速发展导致复杂的任务解决方案取得了显着进步。但是，他们的成功在很大程度上取决于人类的意见来指导对话，这可能是充满挑战和耗时的。本文探讨了建筑可扩展技术的潜力，以促进交流代理之间的自主合作，并洞悉其“认知”过程 ...

0 0 0 2025/08/25 arXiv:2303.17760v2 LLL

Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning

多模式情感分析（MSA）是一个重要的研究领域，旨在通过多种方式理解和认识人类情感。与仅利用单一模态相比，多模式融合提供的互补信息可促进更好的情感分析。然而，在实际应用中，许多不可避免的因素可能导致不确定的方式缺失，从而阻碍了多模式建模的有效性并降低了模型的性能 ...

0 0 0 2025/08/25 arXiv:2411.02793v1 蛙isme

T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks

近年来，随着扩散模型的快速发展的推动，文本到视频（T2V）的生成模型取得了显着的进步，其中包括Pika，Luma，Kling和Open-Sora在内的显着示例。尽管这些模型表现出令人印象深刻的生成能力，但由于它们易受越狱攻击的影响，它们也暴露了严重的安全风险，在这种情况下，这些模型被操纵以产生不安全的内容，例如色情，暴力或歧视。诸如T2VSafetyBench之类的现有作品为安全评估提供了初步的基 ...

0 0 0 2025/08/25 arXiv:2505.06679v2 hhhhh

AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

4D内容一代的最新进展引起了人们的关注，但是由于建模时空分布的复杂性和4D训练数据的稀缺性，创建高质量的动画3D模型仍然具有挑战性。在本文中，我们介绍了AnimateAnymesh，这是第一个启用馈电框架，可实现有效的文本驱动动画的任意3D网格。我们的方法利用了一种新型的dymeshvae架构，该结构通过删除空间和时间特征来有效地压缩和重建动态网格序列，同时保留局部拓扑结构 ...

0 0 0 2025/08/25 arXiv:2506.09982v1 happy

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

大型模型的快速发展是由于它们通过大规模预培训在学习和概括方面的出色能力所驱动的，它重塑了人工智能的景观（AI）。这些模型现在是广泛应用的基础，包括对话AI，推荐系统，自动驾驶，内容产生，医学诊断和科学发现。但是，他们的广泛部署也使他们面临着重大的安全风险，从而引起了人们对鲁棒性，可靠性和道德影响的担忧 ...

0 0 0 2025/08/25 arXiv:2502.05206v5 maplechen

Scaling Vision Transformers to 22 Billion Parameters

变形金刚的缩放为语言模型带来了突破性的功能。目前，最大的大型语言模型（LLMS）包含100b以上参数。 Vision Transformers（VIT）将相同的架构引入了图像和视频建模，但这些架构尚未成功地缩放到几乎相同的程度。最大的密集vit包含4b参数（陈 ...

0 0 0 2025/08/25 arXiv:2302.05442v1 Dai_Junwei

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）