computer-vision

#computer-vision

Tuna-2: 像素嵌入超越视觉编码器，实现多模态理解与生成

Papers with Code Trending ↗ · 2026-04-27 缓存

Tuna-2 是一个统一的多模态模型，通过直接从像素嵌入处理视觉理解与生成任务，无需预训练视觉编码器，达到了最先进的性能水平。

0 人收藏 0 人点赞

#computer-vision

扩散模型作为通用分割学习器

Hugging Face Daily Papers ↗ · 2026-04-27 缓存

本文介绍了 DiGSeg 框架，该框架利用潜在空间条件控制和文本引导对齐，将预训练的扩散模型重新用于实现最先进的语义分割和开放词汇分割。

0 人收藏 0 人点赞

#computer-vision

混合多阶段页面匹配与多层差异检测在日本建筑许可文档审查中的应用

arXiv cs.CL ↗ · 2026-04-23 缓存

混合多阶段页面匹配管道与多层差异引擎可自动比对日本建筑许可PDF文件集，在200–1000页的真实提交材料上实现F1=0.80、零误报。

0 人收藏 0 人点赞

#computer-vision

通过非梯度向量流学习流图 [pdf]

Hacker News Top ↗ · 2026-04-23 缓存

提出一种非梯度向量流方法来学习流图，可能旨在改进光流或运动估计任务。

0 人收藏 0 人点赞

#computer-vision

@nomadicai：计算机视觉的未来是智能体。1/ 我们创立 Nomadic，是因为在视频理解中反复看到一个缺口：VLM……

X AI KOLs Following ↗ · 2026-04-21 缓存

NomadicAI 正在打造一款智能体计算机视觉产品，解决 VLM 对真实视频内容 grounding 不足的问题。

0 人收藏 0 人点赞

#computer-vision

/yolo

Reddit r/LocalLLaMA ↗ · 2026-04-21

关于YOLO这一广泛使用的实时目标检测模型系列的文章。

0 人收藏 0 人点赞

#computer-vision

如何获得一个好的目标检测模型？[P]

Reddit r/MachineLearning ↗ · 2026-04-20

一位用户希望获得关于改进其YOLO11n目标检测模型的建议，计划将其部署在Raspberry Pi 5上，但困扰于理论mAP50指标与实际检测性能之间的差距。

0 人收藏 0 人点赞

#computer-vision

@FinanceYF5: This AI is powerful. LingBot-Map can convert real-time video streams into real-time 3D reconstruction. 20 FPS code + model

X AI KOLs Following ↗ · 2026-04-20 缓存

LingBot-Map is an AI model that can convert real-time video streams into real-time 3D reconstruction, running at 20 FPS with complete code and models provided.

0 人收藏 0 人点赞

#computer-vision

看见无形之物：图像分类到高级和抽象类别的调查

arXiv cs.CL ↗ · 2026-04-20 缓存

一份全面的调查论文，审视图像分类到高级和抽象类别的任务，通过对常识语义、情感语义、美学语义和解释语义的多学科分析，澄清了计算机视觉中高级语义的隐性理解。该论文指出了抽象概念图像分类中存在的持久挑战，强调了混合人工智能系统在处理复杂视觉推理任务中的重要性。

0 人收藏 0 人点赞

#computer-vision

德国手语童话故事的情感分析

arXiv cs.CL ↗ · 2026-04-20 缓存

一篇研究论文，介绍了德国手语（DGS）童话故事情感分析的数据集和基于XGBoost的模型。该模型使用MediaPipe提取的面部和身体运动特征，实现了63.1%的平衡准确率，证明了面部和身体动作在手语情感传达中的重要性。

0 人收藏 0 人点赞

#computer-vision

HSG：双曲场景图

Hugging Face Daily Papers ↗ · 2026-04-19 缓存

# 论文页面 - HSG：双曲场景图来源：[https://huggingface.co/papers/2604.17454](https://huggingface.co/papers/2604.17454) 在你的 agent 中获取这篇论文：`hf papers read 2604\.17454` 还没有最新的 CLI？`curl \-LsSf https://hf\.co/cli/install\.sh \| bash` ## 引用本文的模型0 暂无模型关联此论文在模型的 README.md 中引用 arxiv\.org/abs/2604\.17454，即可从此页面链接到它\. ## 引用本文的数据集0 暂无数据集关联此论文引用 arxiv\.org/abs/2604\.

0 人收藏 0 人点赞

#computer-vision

零样本世界模型是发展高效的学习者 [R]

Reddit r/MachineLearning ↗ · 2026-04-18

研究人员引入了零样本世界模型（Zero-shot World Models, ZWM），该方法在仅使用极少数据（单个幼儿的视觉经验）且无需特定任务训练的情况下，即可达到与最先进模型相当的视觉能力。这项工作展示了通往数据效率可与人类发展学习效率匹敌的AI系统的路径。

0 人收藏 0 人点赞

#computer-vision

低准确率（约50%）的SSL（BYOL/MAE/VICReg）在高光谱作物胁迫数据上——我遗漏了什么？[R]

Reddit r/MachineLearning ↗ · 2026-04-17

一位研究者分享其在白菜氮缺乏检测中，使用SSL方法（BYOL、MAE、VICReg）进行高光谱作物胁迫分类时仅获得约50%准确率的困境，寻求关于更适合光谱数据的SSL技术、特征工程和模型架构的建议。

0 人收藏 0 人点赞

#computer-vision

NTIRE 2026 视频显著性预测挑战赛：方法与结果

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

# 论文页面 - NTIRE 2026 视频显著性预测挑战赛：方法与结果来源：[https://huggingface.co/papers/2604.14816](https://huggingface.co/papers/2604.14816) 作者：,,,,,,,,,,,,,,,,,,,,, ## 摘要本文概述了 NTIRE 2026 视频显著性预测挑战赛。挑战赛的目标是为提供的视频序列开发自动显著图预测方法。为此，我们准备了一个包含 2,000 条多样化视频、采用开放许可的全新数据集。通过众包鼠标追踪收集注视点及对应显著图，涵盖超过 5,000 名评估者的观看数据。评估在 800 条测试视频子集上进行，采用广泛认可的质量指标。本次挑战赛吸引了 20 余支队伍提交结果，最终 7 支队伍通过代码审查阶段。所有数据均已公开——https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。

0 人收藏 0 人点赞

#computer-vision

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending ↗ · 2026-04-15 缓存

介绍了 LingBot-Map，这是一种前馈式 3D 基础模型，采用几何上下文 Transformer 架构用于流式 3D 重建，能够在 20 FPS 的速率下实现稳定的实时性能。

0 人收藏 0 人点赞

#computer-vision

基于对数编码的潜空间对齐实现HDR视频生成

Hugging Face Daily Papers ↗ · 2026-04-13 缓存

本文提出一种HDR视频生成方法，通过对数编码对齐和模拟相机退化的训练策略，利用预训练生成模型实现高效的HDR合成，无需重新设计模型架构。该方法表明，只需将现有模型适配到与其先验知识自然对齐的表示上，即可实现HDR生成。

0 人收藏 0 人点赞

#computer-vision

元学习上下文学习实现无需训练的跨被试脑解码

Hugging Face Daily Papers ↗ · 2026-04-09 缓存

# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码来源：[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者：,,,,,,,,,,,,, ## 摘要一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式，无需跨被试及扫描仪微调，即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q

0 人收藏 0 人点赞

#computer-vision