标签
本文认为,开源权重AI模型追赶闭源模型并非通过蒸馏技术,而是得益于AI堆栈的模块化——稳定的接口(Transformer架构、兼容OpenAI的推理API、智能体框架)使得创新能在整个生态系统中迅速扩散,在缩小能力差距的同时保持巨大的价格优势,最终可能导致前沿AI的商品化。
ModTGCN是一种模块化感知的图神经网络,通过联合优化交叉熵和基于模块化的辅助目标,利用文档图中的全局社区结构来改进文本分类,在五个基准测试上实现了持续的增益。
本文识别了物理信息神经网络(PINNs)中一种由容量引起的失效模式,其中过参数化网络发展出功能模块化,阻碍收敛,并提出模块稀疏同步(ModSync)框架,该框架惩罚任务专用连接以保持跨目标交互,并达到最先进的精度。
本文类比生物进化与技术进化,解释了模块化与有性生殖如何使种群提升信息获取速率。模拟实验表明,混合遗传物质能加速有益突变的传播,类似于技术在现有组件基础上的迭代构建方式。
LatentSkill将文本技能转换为存储在权值空间中的LoRA适配器,减少上下文开销,同时保持LLM智能体的模块化和可组合性,在ALFWorld和Search-QA基准测试上取得了显著改进。
本文提出了设计和优化实用智能体LLM系统的原则性方法,引入了一个包含伪工具和固定工作流的框架,以提高模块化、成本效益和跨多种任务的准确性。
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。