来源:AI Base
UCLA与Meta AI研究人员推出的d1框架通过强化学习显著提升了扩散式大语言模型(dLLMs)的推理能力。该框架结合监督微调和新算法diffu-GRPO,优化了模型的学习效果,尤其在生成长响应时展现出自我修正能力。d1框架为企业提供了加速与自动化的数字工作流程解决方案,适应不同的延迟和成本需求,展示了扩散式模型在质量、速度和成本上的优势。