一译 —— 文档和论文翻译、对照阅读、讨论和社区

MedConceptsQA: Open Source Medical Concepts QA Benchmark

我们提出MedConceptsqa，这是一个专门的开源基准，用于医疗概念问题。基准包括跨不同词汇的各种医学概念的问题：诊断，程序和药物。这些问题分为三个级别的难度：简单，中和硬 ...

0 0 0 2025/05/06 arXiv:2405.07348v2 lulu

Nonuniform-Tensor-Parallelism: Mitigating GPU failure impact for Scaled-up LLM Training

通过数据（DP）和模型平行（MP）执行的混合，将LLM训练缩放至10K GPU。对于实现效率至关重要的是GPU紧密耦合子集中的张量平行（TP； MP的形式）执行，称为扩展域，并且比例范围越大，性能越好。新的数据中心体系结构正在出现，可以将更多的GPU紧密耦合到扩展域，例如从8个GPU移动到通过NVLINK连接的72 GPU ...

0 1 0 2025/05/06 arXiv:2504.06095v1 elvin0505

Diabetica: Adapting Large Language Model to Enhance Multiple Medical Tasks in Diabetes Care and Management

糖尿病是一种慢性疾病，具有重大的全球健康负担，需要多方利益相关者的合作才能进行最佳管理。大型语言模型（LLM）在各种医疗保健方案中都表现出了希望，但是它们在各种糖尿病任务中的有效性仍然未经证实。我们的研究引入了培训和验证糖尿病特异性LLM的框架 ...

0 0 0 2025/05/06 arXiv:2409.13191v2 wei_good

Dynamic Early Exit in Reasoning Models

大型推理语言模型（LRLMS）的最新进展依赖于测试时间缩放，这扩展了长期的经营链（COT）生成以解决复杂的任务。但是，长期以来，长期以来的思考不仅会减慢解决问题的效率，而且由于非常详细或冗余的推理步骤而导致的准确性损失有风险。我们提出了一种简单而有效的方法，该方法允许LLMS通过生成期间的早期出口来自我截断COT序列 ...

0 0 0 2025/05/06 arXiv:2504.15895v1 zengzhiyun

Autonomous Exploration Development Environment and the Planning Algorithms

自主勘探开发环境是一个开放式存储库，可促进高级计划算法的开发和完整的自主导航系统的集成。存储库包含代表性的仿真环境模型，基本导航模块，例如 ...

0 0 0 2025/05/06 arXiv:2110.14573v1 大满贯

Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study

在这项工作中，我们系统地研究了语言模型家族中动态激活机制的功效。尽管动态激活方法的潜力是使用Relu激活函数降低模型中的计算和提高速度，但我们的经验发现已经发现了当前动态激活方案中的几个固有陷阱。通过各种动态激活策略的广泛实验，我们证明，与其RELU对应物相比，Llama模型通常表现不佳，尤其是在要求高稀疏性比的情况下 ...

0 0 0 2025/05/06 arXiv:2405.09274v1 libai

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning

尽管在各种任务中取得了大型语言模型（视频）的进步，但它们在诸如密集的视频字幕（DVC）之类的详细时间理解中挣扎。 DVC是描述视频中的所有事件的一项复杂的任务，同时还将其定位，该任务集成了多个细粒度的任务，包括视频细分，视频字幕和时间视频接地。以前的Videolms尝试单个步骤求解DVC，但未能利用其推理能力 ...

0 0 0 2025/05/06 arXiv:2501.06761v1 argbunint256

SAINT+: Integrating Temporal Features for EdNet Correctness Prediction

我们提出了SAINT+SAINT的继任者Saint+，它是一个基于 Transformer 的知识追踪模型，该模型分别处理练习信息和学生响应信息。遵循圣徒的结构，Saint+具有编码器折线结构，其中编码器将自发层应用于运动嵌入，而解码器交替地应用了自我注意力层，并且编码器 - 模块的注意层上的响应嵌入和编码器输出。此外，Saint+将两个时间功能嵌入到响应嵌入中：经过的时间，学生回答的时间以及滞后 ...

0 0 0 2025/05/06 arXiv:2010.12042v2 乐乐

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）