标签
UnityShots 是一个基于记忆的多镜头音视频生成系统,通过固定大小的长期记忆槽和短期记忆槽,结合边界条件门控与离散切类型先验,在视频切换中保持主体外观和音频的一致性。该系统在跨镜头一致性指标上优于开源基线,并达到与闭源系统相当的水平。
本文介绍了一致性(coherence)这一几何约束,受大脑中网格细胞和头朝向细胞的启发。一致性确保特征响应数据流形上的几何连通区域,从而提升可解释性;作者提出了一个可微分的目标函数(Coh),并在合成数据、旋转MNIST和BERT词元嵌入上进行了验证。
本文探讨如何利用大语言模型(LLM)在基于规则的交互式叙事系统中预测状态变化,旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明,世界状态转换既能维持一致性,又能鼓励玩家进行创造性输入。
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
开发者报告称,像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型,相比稠密的 qwen3.5-27b,一致性更低、需要更多引导,很难直接塞进智能体工作流。