tencent/Hy-MT2-1.8B
摘要
腾讯开源的 Hy-MT2 系列多语言翻译模型,包含 1.8B、7B 和 30B-A3B(MoE)三种规模,支持 33 种语言,取得了业界领先的结果。其中轻量级的 1.8B 模型在性能上超越了微软和豆包的主流商业 API。
查看缓存全文
缓存时间: 2026/05/22 07:43
tencent/Hy-MT2-1.8B · Hugging Face
来源:https://huggingface.co/tencent/Hy-MT2-1.8B English |中文 (https://huggingface.co/tencent/README_CN.md)
HuggingFace (https://huggingface.co/collections/tencent/hy-mt2)ModelScope (https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2)
🖥️官方网站 (https://aistudio.tencent.com/llm/en?tabIndex=0)| 💬GitHub (https://github.com/Tencent-Hunyuan/Hy-MT2)| 🪡AngelSlim (https://github.com/Tencent/AngelSlim/tree/main)| 📚Hy-MT2 报告 (https://arxiv.org/pdf/2605.22064)
模型介绍
Hy-MT2 是一个面向复杂现实场景的“快速思考”多语言翻译模型系列,包含 1.8B、7B 和 30B-A3B(MoE)三种尺寸,均支持 33 种语言之间的翻译,并能有效遵循多种语言的翻译指令。针对端侧部署,AngelSlim 1.25 位极致量化将 1.8B 模型的存储需求降至仅 440MB,并将推理速度提升 1.5 倍。多维度评估表明,Hy-MT2 在通用、真实业务、领域专用和指令遵循翻译任务上均表现卓越。7B 和 30B-A3B 模型在快速思考模式下超越了 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型,而轻量级 1.8B 模型在整体性能上也超越了微软、豆包等主流商业 API。
在此次发布中,我们同时开源了 IFMTBench (https://huggingface.co/tencent/Hy-MT2-1.8B/blob/main/IFMTBench/README.md),一个用于评估翻译指令遵循能力的基准测试。
我们还欢迎使用我们发布的 Hy-MT2-Translator Skill,它能轻松集成 Hy-MT2 系列模型进行翻译任务。下载链接:ClawHub (https://clawhub.ai/tencent-adm/hy-mt2-translator-skill) 和 SkillHub (https://skillhub.cn/skills/hy-mt2-translator)。
现在,腾讯混元正式与 WMT26 合作举办“视频字幕翻译任务”(https://www2.statmt.org/wmt26/video-subtitle-translation.html)。使用 Hy-MT 模型系列参与“通用机器翻译任务”(https://www2.statmt.org/wmt26/translation-task.html)和“视频字幕翻译任务”的参赛者将有机会赢取混元赞助的特别奖项。我们诚挚邀请大家参与,共同推动机器翻译技术的边界!
新闻
- 2026.5.21 我们在 HuggingFace 和 ModelScope 上开源了 Hy-MT2-1.8B / Hy-MT2-7B / Hy-MT2-30B-A3B / IFMTBench。
- 2025.12.30 我们在 HuggingFace 和 ModelScope 上开源了 HY-MT1.5-1.8B 和 HY-MT1.5-7B。
- 2025.9.1 我们在 HuggingFace 和 ModelScope 上开源了 Hunyuan-MT-7B 和 Hunyuan-MT-Chimera-7B。
结果
更多实验结果和分析请参阅我们的报告 (https://arxiv.org/pdf/2605.22064)。
模型链接
| 模型名称 | 描述 | 下载链接 |
|---|---|---|
| Hy-MT2-1.8B | 混元 1.8B 翻译模型 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-1.8B) |
| Hy-MT2-1.8B-FP8 | 混元 1.8B 翻译模型,FP8 量化 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-1.8B-FP8) |
| Hy-MT2-1.8B-GGUF | 混元 1.8B 翻译模型,llama.cpp | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-1.8B-GGUF) |
| Hy-MT2-1.8B-2bit-GGUF | 混元 1.8B 翻译模型,llama.cpp,2bit | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-1.8B-2bit-GGUF) |
| Hy-MT2-1.8B-1.25bit-GGUF | 混元 1.8B 翻译模型,llama.cpp,1.25bit | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-1.8B-1.25bit-GGUF) |
| Hy-MT2-7B | 混元 7B 翻译模型 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-7B) |
| Hy-MT2-7B-FP8 | 混元 7B 翻译模型,FP8 量化 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-7B-FP8) |
| Hy-MT2-7B-GGUF | 混元 7B 翻译模型,llama.cpp | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-7B-GGUF) |
| Hy-MT2-30B-A3B | 混元 30B-A3B 翻译模型 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-30B-A3B) |
| Hy-MT2-30B-A3B-FP8 | 混元 30B-A3B 翻译模型,FP8 量化 | 🤗模型 (https://huggingface.co/tencent/Hy-MT2-30B-A3B-FP8) |
Hy-MT2 翻译任务指令示例(中英文对照)
注:以下示例中,source_lang 和 target_lang 均需使用完整的语言名称。中文提示中使用中文名称,英文提示中使用英文名称。
| 类型 | 中文提示 | 英文提示 |
|---|---|---|
| 默认翻译 | 将以下文本翻译为\{target_lang\},注意只需要输出翻译后的结果,不要额外解释:\{source_text\} | Translate the following text into\{target_lang\}. Note that you shouldonly output the translated result without any additional explanation:\{source_text\} |
| 术语 | 参考下面的翻译:\{text\}翻译成\{text\}\{text\}翻译成\{text\}\{text\}翻译成\{text\}将以下文本翻译为 \{target_lang\},注意只需要输出翻译后的结果,不要额外解释:\{source_text\} | Reference the following translations:\{text\}translates to\{text\}\{text\}translates to\{text\}\{text\}translates to\{text\}Translate the following text into \{target_lang\}. Note that you mustONLY output the translated result without any additional explanation:\{source_text\} |
| 风格 | 请将以下文本翻译为\{target_lang\}。注意翻译的风格要严格符合【 \{target_style\}】\{source_text\} | Please translate the following text into\{target_lang\}. Note that the translation style must strictly conform to [\{target_style\}]:\{source_text\} |
| 个性化 | 【待翻译文本】\{source_text\}【翻译任务】 1、**\{user_preferences\}2、\{user_preferences\}**3、…… 4、将【待翻译文本】翻译为\{target_lang\}。 | [Source Text]\{source_text\}[Translation Tasks] 1.\{user_preferences\} 2.\{user_preferences\} 3. … 4. Translate the [Source Text] into\{target_lang\}. |
| 分隔符 | 请将以下文本准确翻译为\{target_lang\}。你必须在译文中保留等量的分隔符,绝对不可遗漏、转义或翻译该符号,并注意分隔符的位置。 \{source_text\} | Please accurately translate the following text into\{target_lang\}.You mustretain the exact same number of delimiters in the translation. Strictly do not omit, escape, or translate these symbols, and pay close attention to their placement. \{source_text\} |
| 结构化数据1 | # 任务目标 将下方 \{source_text\}中的\{format_type\}格式数据翻译为\{target_lang\}。# 严格约束* 1.结构锁定:绝对保持原有的 \{format_type\}数据结构、缩进和层级完全不变。 2.选择性翻译:仅翻译面向用户展示的可见文本内容。 3.禁止修改:严禁翻译或更改任何代码标签、键名(Key)、变量占位符(如\{\{var\}\}、$\{var\}、%s、%d等)或代码属性。# 数据输入* \{source_text\} | Task Translate the user-facing text within the following \{format_type\}data into\{target_lang\}.Strict Rules 1.**Structure Preservation:**You MUST preserve the original \{format_type\}data structure, nesting, hierarchy, and indentation exactly as they are. 2.**Selective Translation:**Translate ONLY the visible, user-facing text content/values. 3.**Strict Non-Translation:**NEVER translate or alter code tags, keys, properties, object names, or variable placeholders. Leave them exactly in their original English/code form.Source Data \{source_text\} |
| 结构化数据2 | 【背景信息】\{background_text\}请结合背景信息将以下文本翻译为\{target_lang\}。【待翻译文本】 \{source_text\} | [Background Information]\{background_text\}Please translate the following text into\{target_lang\}, taking the provided background information into consideration.[Source Text] \{source_text\} |
推理与部署
对于 1.8B 和 7B,建议使用以下参数进行推理。请注意,我们的模型没有默认的 system_prompt。
{
"temperature": 0.7,
"top_p": 0.6,
"top_k": 20,
"repetition_penalty": 1.05,
"max_tokens": 4096
}
对于 30B-A3B,建议使用以下参数进行推理。请注意,我们的模型没有默认的 system_prompt。
{
"temperature": 0.7,
"top_p": 1.0,
"top_k": -1,
"repetition_penalty": 1.0,
"max_tokens": 4096
}
transformers
transformers>=5.6.0
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = "tencent/Hy-MT2-1.8B"
# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
# 加载模型
model = AutoModelForCausalLM.from_pretrained(
model_path,
dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
model.eval()
# 示例推理
prompt = "将以下文本翻译成英语,注意只需要输出翻译后的结果,不要额外解释:\n\n今天天气真好。"
messages = [{"role": "user", "content": prompt}]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=4096,
)
response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(response)
vLLM
从源码构建 vLLM:
uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto
启动 vLLM 服务器:
vllm serve tencent/Hy-MT2-1.8B --tensor-parallel-size 1
SGLang
从源码构建 SGLang:
git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"
启动 SGLang 服务器:
python3 -m sglang.launch_server --model tencent/Hy-MT2-1.8B --tp 1
模型训练
Hy-MT2 提供了完整的模型训练流程,支持全参数微调和 LoRA 微调,以及多种 DeepSpeed ZeRO 配置和 LLaMA-Factory 集成。
详细训练文档请参考:模型训练指南 (https://huggingface.co/tencent/Hy-MT2-1.8B/blob/main/train/README.md)
量化工具
我们提供了 AngelSlim (https://github.com/tencent/AngelSlim),一个易于使用、全面高效的大模型压缩工具包,涵盖常见量化算法、低位量化、投机采样等功能。
支持的语言
| 语言 | 缩写 | 中文名称 |
|---|---|---|
| Chinese | zh | 中文 |
| English | en | 英语 |
| French | fr | 法语 |
| Portuguese | pt | 葡萄牙语 |
| Spanish | es | 西班牙语 |
| Japanese | ja | 日语 |
| Turkish | tr | 土耳其语 |
| Russian | ru | 俄语 |
| Arabic | ar | 阿拉伯语 |
| Korean | ko | 韩语 |
| Thai | th | 泰语 |
| Italian | it | 意大利语 |
| German | de | 德语 |
| Vietnamese | vi | 越南语 |
| Malay | ms | 马来语 |
| Indonesian | id | 印尼语 |
| Filipino | tl | 菲律宾语 |
| Hindi | hi | 印地语 |
| Traditional Chinese | zh-Hant | 繁体中文 |
| Polish | pl | 波兰语 |
| Czech | cs | 捷克语 |
| Dutch | nl | 荷兰语 |
| Khmer | km | 高棉语 |
| Burmese | my | 缅甸语 |
| Persian | fa | 波斯语 |
| Gujarati | gu | 古吉拉特语 |
| Urdu | ur | 乌尔都语 |
| Telugu | te | 泰卢固语 |
| Marathi | mr | 马拉地语 |
| Hebrew | he | 希伯来语 |
| Bengali | bn | 孟加拉语 |
| Tamil | ta | 泰米尔语 |
| Ukrainian | uk | 乌克兰语 |
| Tibetan | bo | 藏语 |
| Kazakh | kk | 哈萨克语 |
| Mongolian | mn | 蒙古语 |
| Uyghur | ug | 维吾尔语 |
| Cantonese | yue | 粤语 |
引用 Hy-MT2
@misc{zheng2026hymt2familyfastefficient,
title={Hy-MT2: A Family of Fast, Efficient and Powerful Multilingual Translation Models in the Wild},
author={Mao Zheng and Zheng Li and Tao Chen and Bo Lv and Mingrui Sun and Mingyang Song and Jinlong Song and Hong Huang and Decheng Wu and Hai Wang and Yifan Song and Yanfeng Chen and Guanwei Zhang},
year={2026},
eprint={2605.22064},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.22064},
}
联系我们
如果您想向我们的研发和产品团队提供反馈,欢迎联系腾讯混元大模型团队。您可以通过电子邮件联系我们:[email protected]
相似文章
Tower-Plus-72B-Ultra-Uncensored-Heretic,一个支持22种语言的模型,非常适合多语言任务,在翻译相关工作中表现出色,且无需审查,现在超无审查,拒绝率仅5/100!
Tower-Plus-72B-Ultra-Uncensored-Heretic 是 Unbabel/Tower-Plus-72B 的无审查版本,支持22种语言,擅长翻译任务,拒绝率极低。
Nordstjernen 网页浏览器
Nordstjernen 是一个安全、极简的网页浏览器,完全用C语言从零编写,专注于HTML/CSS标准合规和每标签页进程沙箱隔离。1.0.8版本已作为维护更新发布。
为什么缺乏新的100B-120B模型?
分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。
pyinfra — 基于纯Python的无代理基础设施自动化
pyinfra 是一个基于纯Python的开源无代理基础设施自动化工具,据称比Ansible快6倍,支持并行SSH执行、幂等操作和预览模式。
@9hills: 每个频繁切换模型的人都需要一个模型中心化代理。 让 ChatGPT 分析了几乎所有的开源项目,最后选择了 OmniRouter,部署到自己的 VPS上,几乎可以接入所有的来源(包括我司自己的) 现在部署服务也简单多了,只需要让 herme…
用户推荐使用 OmniRouter 作为模型中心化代理,可接入多种模型来源,部署在 VPS 上并借助 hermes 简化维护。