multi-model-evaluation

#multi-model-evaluation

医疗中的联邦生存分析：跨机构异质性乳腺癌数据的多模型评估

arXiv cs.LG ↗ · 3天前缓存

本文系统评估了联邦学习下三种生存模型（Cox、DeepSurv、RSF）在异质性乳腺癌数据上的表现，发现联邦学习优于本地训练，且RSF在各客户端间提供了最佳性能平衡。

0 人收藏 0 人点赞

#multi-model-evaluation

KINA（Knowledge Index of Noah's Ark）是一个包含899个项目的LLM基准测试，覆盖261个细粒度学科。该基准引入形式化保证来确保学科代表性、通过奖金锦标赛实现激励对齐的标注，以及基于自助法的排名稳定性报告。评估42个模型后，表现最好的包括Gemini-3.1-Pro-Preview（53.17%）、Claude-Opus-4.6（49.92%）和GPT-5.4（48.55%），揭示了分层的而非平滑的排行榜结构。

0 人收藏 0 人点赞

multi-model-evaluation

医疗中的联邦生存分析：跨机构异质性乳腺癌数据的多模型评估

Knowledge Index of Noah's Ark

提交意见反馈