标签
Google Gemma团队正在赞助Kaggle上的1天黑客松活动,提供奖金支持,鼓励社区使用Gemma 4构建轻量级工具或推动AI创新。
Unsloth 使得在Kaggle上免费微调31B参数的多模态模型成为可能,采用4位量化,本地运行仅需22-24GB VRAM。
Kaggle平台上使用Gemini的免费5天AI智能体课程,涵盖从入门到部署的主题。
LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试;实验表明,最佳模型仅能达到48%的准确率,且随着轮数增加准确率显著下降。
一名 Reddit 用户驳斥了 Seed IQ (AGX) 关于以满分解决 ARC-AGI-3 基准测试的声称,认为拒绝提交到允许闭源提交的 Kaggle 排行榜表明这是一个骗局。
Kaggle与谷歌合作举办为期5天的免费强化课程(6月15日至19日),教授构建AI智能体,最终以名为Kaggriculture的模拟挑战赛收官。
推广 mlcourse.ai,这是由 OpenDataScience 提供的一个开源机器学习课程,涵盖理论、实践以及 Kaggle 竞赛。
Google 和 Kaggle 将于 2026 年 6 月举办为期五天的免费 AI Agents Vibe Coding 课程,重点介绍如何利用自然语言工作流构建生产级智能体。
Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程