如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据
摘要
# 如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据 来源:[https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas) [返回文章列表](https://huggingface.co/blog) - [韩国专属数据集](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea) - [为何这对自主智能体至关重要](https://
查看缓存全文
缓存时间: 2026/04/21 07:05
如何利用合成角色将韩国 AI 智能体锚定于真实人口统计数据
来源:https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas 返回文章列表:https://huggingface.co/blog
- 韩国主权数据集 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea)
- 为何这对自主智能体至关重要 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#why-this-matters-for-autonomous-agents)
- 教程:从合成角色到主权智能体 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#tutorial-from-synthetic-persona-to-sovereign-agent) - 第 1 步:加载并探索数据集 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-1-load-and-explore-the-dataset) - 第 2 步:筛选并选择角色 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-2-filter-and-select-a-persona) - 第 3 步:定义智能体行为 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-3-define-your-agent-behavior) - 第 4 步:部署您的智能体 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-4-deploy-your-agent)
- “锚定”带来的改变 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#what-grounding-changes)
- 来首尔与我们一起构建 (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#come-build-with-us-in-seoul)
如今大多数 AI 智能体背后的模型主要基于英文网页数据进行训练。它们缺乏对韩语敬语体系、地区性职业分布模式以及韩国用户所期望的文化语境的理解。如果将一个适用于美国医疗流程的智能体直接套用于韩国公共卫生系统,是根本无法投入生产环境的。
Nemotron-Personas-Korea 解决了这一问题。该数据集提供了 600 万个完全合成的角色数据,这些角色均基于官方统计数据以及来自韩国统计信息服务中心(KOSIS)(https://kosis.kr/index/index.do)、韩国最高法院 (https://scourt.go.kr/scourt/index.html)、韩国国民健康保险公团 (https://www.nhis.or.kr/) 和韩国农村经济研究院 (https://www.krei.re.kr/krei/index.do) 的种子数据进行锚定。在数据集设计阶段,NAVER Cloud (https://www.navercloudcorp.com/) 提供了种子数据和领域专业知识。
每个角色在人口统计学上都是准确的,但完全不包含任何个人身份信息(PII)。该数据集的设计充分考虑了韩国的《个人信息保护法》(PIPA)。韩国也是全球少数几个发布官方《合成数据生成指南》(https://www.pipc.go.kr/np/default/page.do?mCode=D010010000) 的国家之一,旨在建立使用敏感数据合成版本对模型进行锚定的治理规范。本数据集遵循了这一理念。
在本教程中,我们将通过使用托管 API,在约 20 分钟内完成从筛选数据集到推理的整个流程,将一个合成角色转化为已部署的韩国本地化智能体。
A Sovereign Dataset for South Korea (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea)
Screenshot 2026-04-20 at 5.16.08 PM (https://cdn-uploads.huggingface.co/production/uploads/68d2fec8856b85d927e44d32/P0Kad_kEoA0ZmaMc-tlay.png)
| 属性 | 详情 |
|---|---|
| 总角色数 | 700 万(100 万条记录 × 每条记录对应 7 个角色) |
| 角色字段 | 26 个字段:7 个核心角色字段、6 个属性字段、12 个人口统计与地理上下文字段,以及 1 个唯一标识符 |
| 地理覆盖 | 覆盖韩国全部 17 个道/广域市及 25 个区 |
| 姓名 | 约 20.9 万个独立姓名(118 个姓氏,约 2.14 万个名) |
| 职业 | 2000+ 个类别,涵盖科技、制造、公共部门等 |
| 角色类型 | 职业、家庭、体育、艺术、旅行、美食、精简型 |
| 人生阶段 | 学生、服兵役、在职、失业、退休 |
| 语言 | 自然韩语 |
| 许可证 | CC BY 4.0 |
Nemotron-Personas-Korea 是使用 NeMo Data Designer (https://github.com/NVIDIA-NeMo/DataDesigner)(NVIDIA 开源的合成数据复合 AI 系统)生成的。该流水线采用概率图模型(Apache-2.0)进行统计锚定,并结合 Gemma-4-31B 进行韩语叙事生成。人口数据源自 KOSIS(2020–2026 年发布版本),姓名分布数据则来自韩国最高法院。
title_diagram (https://cdn-uploads.huggingface.co/production/uploads/627a8c1793d0b645835e65f0/K8sQATx_CPk4p3h0ECIuF.png)
Nemotron-Personas-Korea 是 Nemotron-Personas Collection (https://huggingface.co/collections/nvidia/nemotron-personas) 的最新成员,该合集还涵盖了美国、日本、印度、新加坡(联合 AI Singapore 打造)、巴西(联合 WideLabs (https://valor.globo.com/empresas/noticia/2026/01/26/nvidia-e-widelabs-lancam-personas-de-ia-que-refletem-a-populacao-brasileira.ghtml) 打造)以及法国(联合 Pleias (https://pleias.fr/) 打造)。如果您正在构建服务韩国用户及其他市场的多语言智能体,可以在同一条流水线中混合使用不同国家的角色数据。
Why This Matters for Autonomous Agents (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#why-this-matters-for-autonomous-agents)
如今的多数智能体都缺乏“身份感知”能力。它们盲目遵循指令,却不清楚自身服务的对象是谁。例如,若一个智能体使用美国的预约惯例来预定韩国医院门诊,或者用半语(반말,“banmal”,非敬语)称呼一位 60 岁的患者,这不仅是违和感的问题,更是彻底的失败。
Nemotron-Personas-Korea 通过为您的智能体注入韩国本土的运作语境改变了这一现状。只需将某个角色加载到系统提示词(System Prompt)中,智能体便会继承该角色的所在地区、职业背景、沟通规范及领域专业知识。
该方法适用于任何智能体框架。您可以使用 NemoClaw (https://github.com/NVIDIA/NemoClaw)(NVIDIA 为始终在线智能体打造的开源参考栈,运行于 NVIDIA OpenShell (https://build.nvidia.com/spark/openclaw/overview) 沙箱中,从 RTX PC 到 DGX Spark 均可支持)进行部署,通过 NVIDIA NIM 提供生产级推理服务,或直接调用 NVIDIA API。角色层是框架无关的,它作为一个结构良好的系统提示词,以真实的韩国人口统计数据为锚点。
Tutorial: From Synthetic Persona to Sovereign Agent (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#tutorial-from-synthetic-persona-to-sovereign-agent)
🔗 资源链接
- Nemotron-Personas-Korea (https://huggingface.co/datasets/nvidia/Nemotron-Personas-Korea)(用于训练数据投喂)
- NeMo Data Designer (https://github.com/NVIDIA-NeMo/DataDesigner)(用于合成特定领域数据)
- NVIDIA NemoClaw (https://github.com/NVIDIA/NemoClaw)(用于部署始终在线的智能体)
- NVIDIA Developer Discord (https://discord.com/invite/nvidiadeveloper)(获取社区支持)
Step 1: Load and Explore the Dataset (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-1-load-and-explore-the-dataset)
加载数据集并探索其中的内容。每条记录都包含结构化的字段与丰富的自然语言角色描述。
from datasets import load_dataset
# 加载韩国角色数据集
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")
# 查看所有可用字段
print(dataset["train"].column_names)
# 预览单条记录以了解数据结构
print(dataset["train"][0])
Step 2: Filter and Select a Persona (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-2-filter-and-select-a-persona)
您可以根据职业、地区、年龄或任意字段组合来筛选数据集,从而找到符合目标领域的角色。在本例中,我们将构建一个韩国公共卫生领域的智能体。
# 筛选医疗相关职业
# "보건" = 公共卫生,"간호" = 护理,"의료" = 医疗,"의사" = 医生
health_personas = dataset["train"].filter(
lambda x: "보건" in x["occupation"] or "간호" in x["occupation"] or "의료" in x["occupation"]
)
print(f"Found {len(health_personas)} health personas")
# 选择一个角色来锚定您的智能体
persona = health_personas[0]
print(persona)
您还可以进一步按地区(例如仅限济州岛地区的卫生工作者)、教育水平或人生阶段进行细化筛选。数据集规模庞大,足以支持您挖掘高度垂直细分的角色切片。
Step 3: Define Your Agent Behavior (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-3-define-your-agent-behavior)
在这里,角色数据将转化为智能体的具体行为。结构化字段——姓名、地区、职业、技能——构成了智能体的身份基础。在此基础上叠加行为指令与任务范围后,您将得到一个能像特定地区某职位的韩国专业人士一样进行思考与决策的智能体。
# 构建基于角色属性的系统提示词
# 以下提示词指示智能体:
# - 使用正式韩语(존댓말)作答
# - 提供本地公共卫生诊所的指导
# - 基于韩国公共卫生政策提供答案
# - 在咨询中考虑文化语境
system_prompt = f"""당신은 한국의 공중보건 상담 AI 에이전트입니다.
[신원] # 身份
- 이름: {persona['name']} # 姓名
- 지역: {persona['region']} # 地区
- 직업: {persona['occupation']} # 职业
- 전문분야: {persona['skills']} # 专长
[행동 지침] # 行为准则
- 한국어 존댓말을 사용하여 응답하세요. # 使用正式敬语作答
- 지역 보건소 및 공공 의료 체계에 대한 안내를 제공하세요. # 指导本地保健所
- 한국 공중보건 정책과 절차를 기반으로 정확한 정보를 제공하세요. # 遵循韩国卫健政策
- 문화적 맥락을 고려하여 상담하세요. # 考虑文化语境
[업무 범위] # 任务范围
- 예방접종 일정 안내 # 疫苗接种日程指引
- 건강검진 절차 설명 # 体检流程说明
- 지역 보건 자원 연결 # 对接地方医疗资源
- 공중보건 관련 일반 상담 # 公共卫生一般咨询
"""
Step 4: Deploy Your Agent (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#step-4-deploy-your-agent)
将角色锚定的提示词连接到模型进行推理。根据您的基础设施,有三种选择:
- NVIDIA API Catalog (https://build.nvidia.com/)——最快的测试方式(见下方代码)
- NVIDIA NIM (https://developer.nvidia.com/nim)——面向生产部署的自托管推理方案
- NemoClaw (https://github.com/NVIDIA/NemoClaw)——部署始终在线智能体的参考架构栈,支持全场景运行(从 RTX PC 到 DGX Spark)
from openai import OpenAI
# NVIDIA API Catalog(兼容 OpenAI 协议)
client = OpenAI(
base_url="https://integrate.api.nvidia.com/v1",
api_key="nvapi-YOUR_KEY" # 前往 build.nvidia.com 获取密钥
)
response = client.chat.completions.create(
model="nvidia/nemotron-nano-8b-v1",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": "독감 예방접종은 언제 맞아야 하나요?"} # “我该何时接种流感疫苗?”
],
temperature=0.7,
max_tokens=512
)
print(response.choices[0].message.content)
此工作流同样适用于任何其他领域。只需更换角色筛选条件和任务范围,即可快速创建新智能体:金融(금융,“geum-yung”)角色可转换为零售银行顾问,教育(교육,“gyoyug”)角色可转换为辅导助手,公务员(공무원,“gongmuwon”)角色可转换为政府卫生服务机构代理。
What Grounding Changes (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#what-grounding-changes)
以下是同一问题——“독감 예방접종은 언제 맞아야 하나요?”(我该何时接种流感疫苗?)——在有无角色锚定情况下的回答对比:
| 维度 | 无角色锚定 | 韩国医护人员角色锚定 |
|---|---|---|
| 语言 | 响应英语/通用韩语 | 自然得体的医疗咨询敬语 |
| 内容 | 引用 CDC/全球指南 | 引用韩国保健所日程与国家疫苗接种计划 |
| 具体性 | “请咨询当地诊所” | “可在附近保健所免费接种”(附带地区语境) |
| 信任度 | 无 | 引用韩国公共卫生政策,使用专业医疗韩语 |
角色功能远超简单的翻译——它提供了语境化理解,最终造就了一个能让用户产生信任感的智能体。
Come Build with Us in Seoul (https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#come-build-with-us-in-seoul)
NVIDIA Nemotron Developer Days (https://www.digitaltoday.co.kr/en/view/47483/nvidia-to-hold-nemotron-developer-days-seoul-2026-first-event-in-south-korea) 将于今日及明日(2026 年 4 月 21–22 日)登陆首尔——这也是该活动首次走出 GTC 大会现场。为期两天的活动包括关于主权 AI 和开源模型的技术研讨会,以及一场动手实践黑客松。届时您将有机会使用 Nemotron-Personas-Korea 构建垂直领域的韩国专属智能体与 Claw 应用。🦞
欢迎亲临现场或通过直播观看 (https://evt.to/w7654jbq79dq)。分享您的开发成果,就有机会被收录进未来的 NVIDIA 教程中。
相似文章
NVIDIA的Nemotron Personas嵌入向量
使用Qwen 0.6B为Nemotron-Personas数据集预计算的嵌入向量,通过网页演示实现对合成角色进行语义搜索和聚类。
超越合作模拟器:为LLM代理的稳健评估生成逼真的用户角色
提出了Persona Policies(PPol),一种即插即用的控制层,利用LLM驱动的进化程序搜索来生成多样且逼真的用户角色,用于评估LLM代理。相比基线实现了33-62%的适应度提升,逼真度评分达到80.4%,并将代理鲁棒性提升了+17%的任务成功率。
动态内群体人格生成以增强人机融洽关系
本文介绍了一种基于LLM的聊天机器人动态生成内群体人格的方法:首先识别用户的主要关切,然后创建一个共享该关切点的合成人格。一项人类受试者研究表明,与基线条件相比,该方法在感知融洽度和用户参与度方面有显著提升。
使用本地语法图为韩语法律聊天机器人生成训练数据集
本文提出了一种利用本地语法图(LGG)为韩语法律聊天机器人生成大规模、带标注训练数据集的方法,在使用 DIET 分类器时达到了 91% 的 F1 分数。
PersonaDrive:面向闭环驾驶仿真的基于人类风格的检索增强VLA智能体
本文介绍了PersonaDrive,一种将视觉-语言-动作(VLA)驾驶智能体基于从风格引导的人类驾驶数据集中检索到的演示进行条件化的流程,从而能够为闭环仿真提供风格多样的非自车智能体,并在Bench2Drive上提升了驾驶评分。