multi-model-evaluation

标签

Cards List
#multi-model-evaluation

医疗中的联邦生存分析:跨机构异质性乳腺癌数据的多模型评估

arXiv cs.LG · 3天前 缓存

本文系统评估了联邦学习下三种生存模型(Cox、DeepSurv、RSF)在异质性乳腺癌数据上的表现,发现联邦学习优于本地训练,且RSF在各客户端间提供了最佳性能平衡。

0 人收藏 0 人点赞
#multi-model-evaluation

Knowledge Index of Noah's Ark

arXiv cs.AI · 2026-06-04 缓存

KINA(Knowledge Index of Noah's Ark)是一个包含899个项目的LLM基准测试,覆盖261个细粒度学科。该基准引入形式化保证来确保学科代表性、通过奖金锦标赛实现激励对齐的标注,以及基于自助法的排名稳定性报告。评估42个模型后,表现最好的包括Gemini-3.1-Pro-Preview(53.17%)、Claude-Opus-4.6(49.92%)和GPT-5.4(48.55%),揭示了分层的而非平滑的排行榜结构。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈