热门

#101

MacroLens：宏观经济场景下上下文金融推理的多任务基准

arXiv cs.LG ↗ · 8小时前缓存

MacroLens 是一个用于上下文金融推理的新型多任务基准，它联合评估了价格历史、会计基本面、宏观经济体制以及文本数据，覆盖 4,416 只美国小盘股和微盘股。该基准包含七个任务、1,130 个宏观经济事件，并对 19 种方法进行了评估，旨在填补金融 AI 评估中的空白。

0 人收藏 0 人点赞

#102

守恒定律何时能在学习到的表示中存续？潜在世界模型的可认证时域

arXiv cs.LG ↗ · 8小时前缓存

本文研究了在学习到的潜在世界模型中如何认证守恒定律，提出了有界时域，通过可测量的模型缺陷可提前保证轨迹在物理不变水平集上保持多少步。

0 人收藏 0 人点赞

#103

二元少样本分类的光谱相图：内在维度、几何饱和与表征诊断

arXiv cs.LG ↗ · 8小时前缓存

本文提出了一种二元少样本分类的光谱相图，通过分析内在维度和几何饱和进行表征诊断。

0 人收藏 0 人点赞

#104

产业规模生态系统中的LLM演进：持续学习的生命周期视角

arXiv cs.LG ↗ · 8小时前缓存

本综述将面向LLM的工业持续学习重新定义为版本化生态系统中的闭环更新与发布问题，识别了关键挑战，并提出了五个生命周期设计原则，以实现可持续的模型演进。

0 人收藏 0 人点赞

#105

从元理念到高级数学发现——人类与AI共同发现符号嵌入量子算法

arXiv cs.LG ↗ · 8小时前缓存

本文呈现了数学领域中人类与AI共同发现的一个案例研究，AI协助将关于符号嵌入量子算法的直觉扩展为正式框架和证明，而人类判断则指导路线选择。

0 人收藏 0 人点赞

#106

Anthropic指控阿里巴巴公然非法提取其AI能力的行为

Reddit r/LocalLLaMA ↗ · 9小时前

Anthropic指控阿里巴巴通过模型蒸馏非法提取其AI能力，凸显了AI知识产权方面的持续紧张局势。

0 人收藏 0 人点赞

#107

既然大语言模型编码这么厉害……

Reddit r/LocalLLaMA ↗ · 7小时前

讨论为何大语言模型未能帮助ROCm和英特尔的软件生态系统追上CUDA，并指出NVIDIA的高定价和真正市场竞争的必要性。

0 人收藏 0 人点赞

#108

MTP 下的质量较差 - Qwen 3.6, Gemma 4

Reddit r/LocalLLaMA ↗ · 5小时前

用户报告称，Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本，尽管其 token 生成速率更高，但实际速度提升微乎其微。

0 人收藏 0 人点赞

#109

面向低资源语言的文本去毒化系统Tatoxa：以鞑靼语为例

arXiv cs.CL ↗ · 8小时前缓存

介绍了Tatoxa，一个用于鞑靼语文本去毒化的最先进系统，优于现有的大语言模型。引入了一个新数据集，并表明跨语言迁移的效果比使用原生数据差。

0 人收藏 0 人点赞

#110

Dziri Voicebot：面向阿尔及利亚方言的端到端低资源语音对话系统

arXiv cs.CL ↗ · 8小时前缓存

本文提出了一种模块化的端到端语音对话系统，适用于低资源的阿尔及利亚方言，集成了ASR、NLU、RAG和TTS，并使用了专用数据集和微调模型。

0 人收藏 0 人点赞

#111

编码器足够吗？LLM对抗评估中编码器与解码器安全评判器的系统比较

arXiv cs.CL ↗ · 8小时前缓存

本文系统比较了微调的编码器分类器（ModernBERT系列）与基于解码器的安全评判器在LLM对抗评估中的表现，发现编码器可以在不显著损失性能的情况下，提供一种成本和延迟更低的替代方案。

0 人收藏 0 人点赞

#112

SFL-MTSC：利用语义框架级多任务自一致性实现鲁棒的多意图口语理解

arXiv cs.CL ↗ · 8小时前缓存

介绍了一种结构化聚合框架SFL-MTSC，该框架利用LLM在语义框架级别的自一致性实现鲁棒的多意图口语理解，在MAC-SLU基准测试上显示出改进的槽位F1得分和整体准确性。

0 人收藏 0 人点赞

#113

大语言模型红队测试框架：以忠实性评估为例

arXiv cs.CL ↗ · 8小时前缓存

本文提出了一种针对大语言模型的红队测试框架，采用多角色架构系统性地揭示模型漏洞，尤其在忠实性方面。该框架在问答任务中实现了攻击成功率提升7.9%，并强调了架构选择对模型安全性的影响超过参数规模。

0 人收藏 0 人点赞

#114

野外探测：无监督发音分析下自监督语音表示在普通话次方言中的案例研究

arXiv cs.CL ↗ · 8小时前缓存

本文通过无监督发音探测进行案例研究，探讨自监督语音模型如何在普通话次方言中编码语音特征，发现唇音性等显著特征保持稳定，而更精细的频谱区别则表现出方言依赖的变化。

0 人收藏 0 人点赞

#115

PolicyAlign: 基于直接策略的大型语言模型安全对齐

arXiv cs.CL ↗ · 8小时前缓存

PolicyAlign 提出了一种框架，通过合成指令生成和在线策略自蒸馏，直接将大型语言模型与自然语言安全策略对齐，在不依赖昂贵监督数据的情况下提升安全性。

0 人收藏 0 人点赞

#116

面向金融欺诈检测的多流时序融合

arXiv cs.LG ↗ · 8小时前缓存

提出用于金融欺诈检测的多流欺诈Transformer（MSFT），该模型使用Transformer独立编码交易、登录和风险事件流，并通过时间感知位置编码和门控融合进行融合，在大型数据集上实现了0.9961的AUROC。

0 人收藏 0 人点赞

#117

基于内存高效等变变压器的可扩展肽设计

arXiv cs.LG ↗ · 8小时前缓存

介绍了MEET，一种用于全原子肽设计的内存高效E(3)等变变压器，与VAE和潜在扩散管道集成，实现了线性内存缩放和改善的生成质量。

0 人收藏 0 人点赞

#118

三个佛教词汇：英语巴利经典中经、律、论三藏的计量文体学分析

arXiv cs.CL ↗ · 8小时前缓存

本文运用计量文体学方法，分析英语译本巴利经典中经藏、律藏和论藏之间的词汇差异。

0 人收藏 0 人点赞

#119

低资源Tangkhul-英语神经机器翻译

arXiv cs.CL ↗ · 8小时前缓存

介绍了一个针对严重资源匮乏的Tangkhul-英语语言对的神经机器翻译系统，通过微调ByT5-large和mT5-small模型，在BLEU、chrF++、BERTScore和COMET评分上取得了优异成绩。

0 人收藏 0 人点赞

#120

记忆造就差异：评估不同记忆角色如何塑造对话代理

arXiv cs.CL ↗ · 8小时前缓存

本文介绍了一种对话记忆类型的分类法和一个以用户为中心的评估框架，用于研究不同记忆角色如何影响基于RAG的对话代理的响应质量。

0 人收藏 0 人点赞

热门

提交意见反馈