TalentCLEF 2026 概述:面向人力资本管理的技能与职位名称智能
摘要
本文概述了CLEF 2026上第二届TalentCLEF挑战赛,该挑战包含英语和西班牙语的职位-人员匹配与职位-技能匹配任务,吸引了超过400份提交。
arXiv:2606.31692v1 公告类型:新论文
摘要:本文概述了第二届TalentCLEF挑战赛,该挑战赛作为评估论坛会议与实验室(CLEF)2026的一部分组织举办。TalentCLEF是一项旨在推动人力资本管理中自然语言处理研究的倡议。第二届挑战赛包含两个任务:任务A——情境化职位-人员匹配,侧重于识别并排序最合适的候选人(以其简历为代表),以匹配特定职位空缺(英语和西班牙语)。任务B——职位-技能匹配与技能类型分类,解决为给定职位名称检索最相关技能(英语),并区分核心技能与情境技能。TalentCLEF吸引了113个注册团队,在两个任务中收到超过400份提交,反映了研究界对人力资本管理共享评估基准日益增长的兴趣。本文描述了挑战赛的动机和组织,总结了数据集和评估设置,并报告了参赛团队取得的主要结果。
查看缓存全文
缓存时间: 2026/07/01 05:35
# TalentCLEF 2026 概述:人力资源管理中的人才技能与职位智能 来源:https://arxiv.org/html/2606.31692 11institutetext:Avature Machine Learning, Spain 11email:machinelearning@avature\.net22institutetext:TechWolf, Belgium 33institutetext:NLP & IR Group at UNED, Madrid, Spain Hermenegildo Fabregat、Laura García‑Sardiña、Paula Estrella、Warre Veys、Casimiro Pío Carrino、Matthias De Lange、Daniel Deniz Cerpa、Álvaro Rodrigo、Jens‑Joris Decorte、Rabih Zbib ###### 摘要 本文概述了第二届 TalentCLEF 挑战赛,该挑战赛作为 2026 年评估论坛会议与实验室 (CLEF) 的一个实验室举办。TalentCLEF 是一项旨在推动自然语言处理在人力资本管理领域研究的倡议。本届挑战包含两个任务:任务 A——情境化人岗匹配,聚焦于识别并排序最适合给定职位空缺的候选人(由其简历代表),覆盖英语和西班牙语;任务 B——职位-技能匹配与技能类型分类,旨在检索与给定英文职位名称最相关的技能,并区分核心技能与情境技能。TalentCLEF 吸引了 113 个注册团队,两个任务共收到超过 400 份提交,反映了研究社区对人力资本管理共享评估基准日益增长的兴趣。本文描述了挑战的动机和组织,总结了数据集和评估设置,并报告了参赛团队取得的主要成果。 ## 1 引言 劳动力市场的变革正在改变组织描述工作、识别人才和支持职业发展的方式 [39 (https://arxiv.org/html/2606.31692#bib.bib3)]。在此背景下,人力资本管理 (HCM) 日益需要能够处理并连接工作、人员和技能信息的自然语言处理 (NLP) 系统。这类系统不仅对招聘和人才获取至关重要,还适用于更广泛的劳动力发展场景,包括职业指导、技能差距分析、内部流动、技能提升和技能重塑。 语言技术特别适合应对这些挑战,因为该领域中的大量相关信息都以文本形式表达。招聘广告、职位名称、专业简介、简历、学习资源以及技能或职业分类法都包含关于职业、技能、工作者和学习机会之间关系的宝贵信息。通过提取、标准化、匹配和链接这些信息,NLP 方法能够支持劳动力市场更结构化的表示,并支持职位与技能智能的下游应用。 近年来,NLP 在人力资本管理中的应用受到了越来越多的研究关注,这体现在专门的会议如 NLP4HR [28 (https://arxiv.org/html/2606.31692#bib.bib6)] 和 RecSys in HR [4 (https://arxiv.org/html/2606.31692#bib.bib7)] 上。这些举措通过汇集人力资源领域传统 NLP 任务的研究,如从招聘信息中提取技能 [70 (https://arxiv.org/html/2606.31692#bib.bib32),69 (https://arxiv.org/html/2606.31692#bib.bib33),45 (https://arxiv.org/html/2606.31692#bib.bib26),61 (https://arxiv.org/html/2606.31692#bib.bib29)]、将技能标准化到分类法 [10 (https://arxiv.org/html/2606.31692#bib.bib23),52 (https://arxiv.org/html/2606.31692#bib.bib12)]、匹配 [14 (https://arxiv.org/html/2606.31692#bib.bib25),36 (https://arxiv.org/html/2606.31692#bib.bib30),15 (https://arxiv.org/html/2606.31692#bib.bib11)]、职位推荐 [25 (https://arxiv.org/html/2606.31692#bib.bib35),13 (https://arxiv.org/html/2606.31692#bib.bib22),1 (https://arxiv.org/html/2606.31692#bib.bib27),18 (https://arxiv.org/html/2606.31692#bib.bib13)],以及新颖的任务如职业路径建模 [12 (https://arxiv.org/html/2606.31692#bib.bib24),54 (https://arxiv.org/html/2606.31692#bib.bib39)]、LLM 理解 [5 (https://arxiv.org/html/2606.31692#bib.bib15),64 (https://arxiv.org/html/2606.31692#bib.bib40)],或招聘相关系统中的公平性与偏见分析 [2 (https://arxiv.org/html/2606.31692#bib.bib28),19 (https://arxiv.org/html/2606.31692#bib.bib16),48 (https://arxiv.org/html/2606.31692#bib.bib37),56 (https://arxiv.org/html/2606.31692#bib.bib38)],从而帮助巩固了这个领域。 尽管该领域最近取得了进展,研究仍然零散。现有研究通常使用不同的数据集、语言、任务定义、标注方案和评估协议,使得系统之间的比较或进展的一致评估变得困难。这种零散性尤其成问题,因为这类系统可能影响现实世界的决策场景,包括招聘。因此,开发公共基准仍然是该领域的重要需求,可以帮助像此前在其他领域(如生物医学 NLP [44 (https://arxiv.org/html/2606.31692#bib.bib78)])的举措一样,结构化进展。 TalentCLEF 通过为人力资本管理 [23 (https://arxiv.org/html/2606.31692#bib.bib17),21 (https://arxiv.org/html/2606.31692#bib.bib18)] 中的 NLP 系统提供共享评估框架来解决这种零散性。该倡议围绕基于现实职位与技能智能场景的竞争性评估活动展开,旨在促进稳健、多语言和可复用语言技术的发展。同时,TalentCLEF 为研究社区提供高质量数据集、通用评估协议和公共基准,支持可重复研究和未来系统比较。 在本文中,我们呈现 TalentCLEF 2026 挑战赛的概述。我们描述挑战的动机,介绍提出的任务,并总结参赛系统取得的主要结果。挑战吸引了 113 个注册团队,两个任务共收到超过 400 份提交。我们还分析了提交系统中观察到的主要方法论趋势,包括混合检索、重新排序方法、生成式 AI 组件,以及使用结构化知识源(如技能和职业图)。每个任务的详细描述,包括数据集构建、标注过程和任务特定评估设置,在相应的任务概述文章 [17 (https://arxiv.org/html/2606.31692#bib.bib20),62 (https://arxiv.org/html/2606.31692#bib.bib21)] 中提供。 ## 2 任务概述 第二届 TalentCLEF 挑战赛 [22 (https://arxiv.org/html/2606.31692#bib.bib19)] 旨在促进人力资本管理中两个高度相关任务的系统开发与评估:任务 A——针对给定职位空缺的候选人搜索,以及任务 B——识别与特定职位相关的专业技能。 ### 2.1 任务 A —— 情境化人岗匹配 候选人匹配是人力资本管理的主要挑战之一。当手动执行时,此过程通常依赖于对简历的单独阅读、对职位描述的解释以及招聘人员的专业知识和判断。虽然这种方法允许将人类判断和情境知识纳入决策过程,但在当今劳动力市场中,一个职位空缺可能收到数百份候选人简介 [32 (https://arxiv.org/html/2606.31692#bib.bib41)],这使得规模化越来越困难。因此,在实践中,手动审查如此大量的申请通常不可行。 为应对这些限制,近年来开发了基于 NLP 和信息提取技术的自动匹配系统。这些系统通常侧重于识别和标准化职位空缺和候选人简介中的相关实体,如职位名称、技能、能力、教育背景和语言 [68 (https://arxiv.org/html/2606.31692#bib.bib8),20 (https://arxiv.org/html/2606.31692#bib.bib10)]。一旦提取了这些信息,系统会比较两种文档中存在的实体,以估计候选人与职位空缺之间的匹配程度。这是一种有效且广泛使用的方法。然而,大型语言模型 (LLM) 的近期出现为解决匹配问题提供了更丰富、更具情境性的新可能性。特别是,基于 LLM 的方法可以帮助在不需特定微调的情况下,将额外维度纳入匹配过程,例如资历水平、关键技能的专业证据、在现实环境中展现的经验以及推断隐含或相关技能等 [60 (https://arxiv.org/html/2606.31692#bib.bib42),24 (https://arxiv.org/html/2606.31692#bib.bib43),41 (https://arxiv.org/html/2606.31692#bib.bib44)]。这为开发更灵活且情境感知的候选人匹配系统创造了新机会。 在上一届 TalentCLEF 任务 A 中,问题仅集中于职位名称匹配。然而,如上所述,候选人匹配涉及许多其他类型的信息,这些信息可以从包含更丰富描述的文档(候选人和职位空缺)中提取。因此,今年任务 A 被定义为更广泛的情境化人岗匹配问题,目标是开发能够识别并排序给定职位空缺最合适候选人的系统。为了支持此任务,我们提供了一个由职位描述和候选人简介组成的人工标注合成语料库。参与者可以自由使用不同的方法处理此语料库,包括信息提取、提示工程、信息检索或其他基于 NLP 的技术,为每个职位空缺生成排序的候选人列表。 参见图注图 1:任务 A 概览:情境化人岗匹配 #### 2.1.1 数据 在此任务中,我们提供一个多语言数据集,用于情境化人岗匹配,覆盖英语和西班牙语。任务语料库分为开发集和测试集。任务未提供训练数据;然而,参赛团队可以使用他们认为相关的任何外部资源或额外信息。 两个分区都是合成的,包括描述空缺要求和候选人简介的工作记录和简历。我们没有依赖无控制的生成,而是使用从真实简历和职位描述中提取的职位-技能共现模式的统计证据(来自内部数据库¹)来指导生成过程。分析框和职位空缺的选择旨在覆盖广泛的行业、职业、专业背景、性别和种族。随后,由专家标注者对生成的候选人-职位对进行了审查和人工标注,用于匹配任务。 表 1 (https://arxiv.org/html/2606.31692#S2.T1) 总结了语料库的主要统计信息,包括每种语言的职位描述(查询)和简历(语料库)数量。此任务的数据通过 Zenodo² 提供给参赛团队。数据集生成和标注过程的更多细节在任务扩展概述中提供。 表 1:任务 A 开发集和测试集按语言的统计信息 #### 2.1.2 评估 任务通过 Codabench³ 上的竞赛进行评估,为参赛团队提供提交预测和访问官方排行榜的通用环境。此外,使用该平台使得挑战结束后任务仍然可以作为开放基准用于持续评估,支持可重复性和未来系统的比较。 在本届中,我们考虑三种评估设置。第一种是多语言设置,其中职位空缺和候选人简历使用同一种语言。第二种是跨语言设置,职位空缺用英语,简历用西班牙语。这种设置在多语言环境中尤为相关,因为公司可能用一种语言发布空缺点,而候选人用另一种语言描述其工作经验。第三种评估侧重于偏见。由于人岗匹配系统可能直接影响人们的就业机会,因此分析系统不仅在不同人口群体(如性别或种族)间的整体性能,还需分析其行为。在这种情况下,我们评估系统是否产生一致且公平的排名,而不受候选人性别的影响。 对于单语和跨语言场景,系统性能通过候选人排序列表的平均精度均值 (MAP) 来衡量。对于偏见场景,我们使用排名偏差重叠 (RBO) 来评估性别偏见。 ### 2.2 任务 B —— 职位-技能匹配与技能类型分类 技能已成为人力资本管理的核心组成部分。近年来,人工智能和其他技术变革的出现加速了劳动力市场的变化:新的职位角色以前所未有的速度出现,现有职业被迅速重新定义,与许多职位相关的技能要求也在不断演变。因此,组织越来越需要支持系统,不仅用于定义新的专业角色及其所需的技术技能,还要更新员工的知识和能力,使员工能够逐步适应技术变化。 这一转变强化了以技能为基础的方法在招聘、劳动力规划和人才发展中的重要性。在招聘中,这类系统可以帮助识别能力符合角色要求的候选人,即使他们之前的职位名称或职业路径与空缺不直接相关。在劳动力管理中,它们可以帮助识别技能差距并推荐学习路径,帮助员工适应新的职业需求。 去年,任务 B 专注于检索与给定职位名称最相关的技能。今年,任务扩展了这一设置,要求系统不仅识别相关技能,还要考虑每项技能是目标职位的核心还是情境技能。核心技能是不管工作背景或雇主如何,执行工作所必需的技能,因此对职位至关重要。相反,情境技能取决于行业、组织或特定工作环境等因素,根据情境可视为补充或可选技能。 今年任务 B 的目标是开发能够理解专业技能与职位名称之间相关性和角色的系统。给定一个专业技能数据库和特定职位,参赛系统需要识别最相关的技能,并根据其对职位的重要性进行分类。 参见图注图 2:任务 B 概览:职位-技能匹配与技能类型分类 #### 2.2.1 数据 在任务 B 中,我们提供一个英语单语语料库。
相似文章
SkillRet:面向 LLM 智能体技能检索的大规模基准
本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。
SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。
OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统
OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。