lichenbook的文档

SONAR: Sentence-Level Multimodal and Language-Agnostic Representations

我们引入了 SONAR，一种新的多语言和多模态固定大小句子嵌入空间。我们的单一文本编码器涵盖 200 种语言，在 xsim 和 xsim++ 多语言相似性搜索任务上大大优于现有的句子嵌入（例如 LASER3 和 LabSE）。可以使用在师生环境中针对语音转录数据进行训练的特定于语言的语音编码器将语音片段嵌入到相同的 SONAR 嵌入空间中。我们的编码器在相似性搜索任务上优于现有的语音编码器。我们还提供 200 种语言的文本解码器，使我们能够执行文本到文本和语音到文本的机器翻译，包括零样本语言和模态组合。尽管存在固定大小的瓶颈表示，但与最先进的 NLLB~1B 模型相比，我们的文本到文本结果具有竞争力。我们的零样本语音到文本翻译结果与 Whisper 等强监督基线相比毫不逊色 ...

0 0 0 0 2025/12/16 arXiv:2308.11466v2 lichenbook

TextlessRAG: End-to-End Visual Document RAG by Speech Without Text

文档图像封装了丰富的知识，而语音查询的可移植性则实现了更广泛、灵活的应用场景。然而，之前的工作还没有探索通过直接在语音中提供的查询来通过视觉文档图像进行知识库问答。我们提出了 TextlessRAG，这是第一个针对大规模文档图像进行基于语音的问答的端到端框架。与之前的方法不同，TextlessRAG 消除了 ASR、TTS 和 OCR，直接解释语音、检索相关视觉知识，并在完全无文本的管道中生成答案。为了进一步提高性能，我们集成了布局感知重排序机制来优化检索。实验证明效率和准确性都有显着提高。为了推进这一方向的研究，我们还发布了第一个双语语音文档 RAG 数据集，其中包含中文和英文语音查询以及多模态文档内容。数据集和我们的管道都将在存储库中提供：此 https URL ...

0 0 0 0 2025/12/10 arXiv:2509.07538v2 lichenbook

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

我们介绍 ChatGLM，这是我们一直在开发的一个不断发展的大型语言模型家族。本报告主要关注 GLM-4 语言系列，包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了我们最有能力的模型，这些模型接受了从前三代 ChatGLM 中获得的所有见解和经验教训 ...

0 0 0 0 2025/09/28 arXiv:2406.12793v2 lichenbook

Phoenix-VAD: Streaming Semantic Endpoint Detection for Full-Duplex Speech Interaction

口语对话模型具有明显高级的智能人\ TextEndandash计算机交互，但是它们缺乏插件\ TextendEndash，\ TextEndAsh播放完整\ TextEndEndash Duplex预测模块，用于语义端点检测，阻碍无缝的音频交互。在本文中，我们介绍了基于LLM \ TextEndEndash的模型Phoenix \ TextEndashvad，该模型可启用流式语义端点检测。具体而言，Phoenix \ TextEndash VAD利用LLM的语义理解能力和滑动窗口训练策略，以实现可靠的语义端点检测，同时支持流推断 ...

0 0 0 0 2025/09/26 arXiv:2509.20410v1 lichenbook

SONAR: Sentence-Level Multimodal and Language-Agnostic Representations

TextlessRAG: End-to-End Visual Document RAG by Speech Without Text

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Phoenix-VAD: Streaming Semantic Endpoint Detection for Full-Duplex Speech Interaction

Step-Audio 2 Technical Report

Recent Advances in Speech Language Models: A Survey

VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining

GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction

Robust Self-Supervised Audio-Visual Speech Recognition