综合热度、重要程度与时效排序的热门资讯。
MacroLens 是一个用于上下文金融推理的新型多任务基准,它联合评估了价格历史、会计基本面、宏观经济体制以及文本数据,覆盖 4,416 只美国小盘股和微盘股。该基准包含七个任务、1,130 个宏观经济事件,并对 19 种方法进行了评估,旨在填补金融 AI 评估中的空白。
本文研究了在学习到的潜在世界模型中如何认证守恒定律,提出了有界时域,通过可测量的模型缺陷可提前保证轨迹在物理不变水平集上保持多少步。
本综述将面向LLM的工业持续学习重新定义为版本化生态系统中的闭环更新与发布问题,识别了关键挑战,并提出了五个生命周期设计原则,以实现可持续的模型演进。
本文呈现了数学领域中人类与AI共同发现的一个案例研究,AI协助将关于符号嵌入量子算法的直觉扩展为正式框架和证明,而人类判断则指导路线选择。
用户报告称,Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本,尽管其 token 生成速率更高,但实际速度提升微乎其微。
介绍了Tatoxa,一个用于鞑靼语文本去毒化的最先进系统,优于现有的大语言模型。引入了一个新数据集,并表明跨语言迁移的效果比使用原生数据差。
本文提出了一种模块化的端到端语音对话系统,适用于低资源的阿尔及利亚方言,集成了ASR、NLU、RAG和TTS,并使用了专用数据集和微调模型。
本文系统比较了微调的编码器分类器(ModernBERT系列)与基于解码器的安全评判器在LLM对抗评估中的表现,发现编码器可以在不显著损失性能的情况下,提供一种成本和延迟更低的替代方案。
介绍了一种结构化聚合框架SFL-MTSC,该框架利用LLM在语义框架级别的自一致性实现鲁棒的多意图口语理解,在MAC-SLU基准测试上显示出改进的槽位F1得分和整体准确性。
本文提出了一种针对大语言模型的红队测试框架,采用多角色架构系统性地揭示模型漏洞,尤其在忠实性方面。该框架在问答任务中实现了攻击成功率提升7.9%,并强调了架构选择对模型安全性的影响超过参数规模。
本文通过无监督发音探测进行案例研究,探讨自监督语音模型如何在普通话次方言中编码语音特征,发现唇音性等显著特征保持稳定,而更精细的频谱区别则表现出方言依赖的变化。
PolicyAlign 提出了一种框架,通过合成指令生成和在线策略自蒸馏,直接将大型语言模型与自然语言安全策略对齐,在不依赖昂贵监督数据的情况下提升安全性。
提出用于金融欺诈检测的多流欺诈Transformer(MSFT),该模型使用Transformer独立编码交易、登录和风险事件流,并通过时间感知位置编码和门控融合进行融合,在大型数据集上实现了0.9961的AUROC。
介绍了MEET,一种用于全原子肽设计的内存高效E(3)等变变压器,与VAE和潜在扩散管道集成,实现了线性内存缩放和改善的生成质量。
介绍了一个针对严重资源匮乏的Tangkhul-英语语言对的神经机器翻译系统,通过微调ByT5-large和mT5-small模型,在BLEU、chrF++、BERTScore和COMET评分上取得了优异成绩。
本文介绍了一种对话记忆类型的分类法和一个以用户为中心的评估框架,用于研究不同记忆角色如何影响基于RAG的对话代理的响应质量。