visual-aware

标签

Cards List
#visual-aware

VaaWIT: 面向多语言网页图像翻译的大型语言模型视觉感知适配

Hugging Face Daily Papers · 2026-05-23 缓存

VaaWIT是一个端到端框架,通过双流注意力和视觉感知适配器增强大型视觉语言模型,用于多语言网页图像翻译,性能优于SOTA基线方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈