computer-vision

标签

#computer-vision

SplatWeaver：学习分配高斯基元以实现可泛化新视角合成

Hugging Face Daily Papers ↗ · 5天前缓存

SplatWeaver 是一种前馈新视角合成框架，它根据空间复杂度动态分配 3D 高斯基元，相比固定分配方法提升了渲染质量与效率。该框架利用基数高斯专家和高频先验引导的像素级路由方案，自适应地在复杂与平滑的场景区域间分配基元。

0 人收藏 0 人点赞

#computer-vision

BalCapRL：一种用于基于强化学习的 MLLM 图像描述生成的平衡框架

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了 BalCapRL，这是一种针对多模态大语言模型（MLLM）的平衡强化学习框架，旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡，该方法在性能上优于现有方法。

0 人收藏 0 人点赞

#computer-vision

SCOPE：面向复杂图像生成的结构化分解与条件技能编排

Hugging Face Daily Papers ↗ · 5天前缓存

SCOPE 是一个基于规范引导的文生图框架，通过追踪语义承诺以更好地满足复杂的视觉意图。该框架引入了 Gen-Arena 基准测试，并在复杂的生成任务中展现了强大的性能。

0 人收藏 0 人点赞

#computer-vision

英国汽车将配备AI摄像头检测危险驾驶司机

Reddit r/ArtificialInteligence ↗ · 5天前缓存

英国正在车辆中部署AI摄像头系统，以检测受酒精、毒品或疲劳影响的驾驶员，通过实时监控提高道路安全。

0 人收藏 0 人点赞

#computer-vision

视觉感知到概念的一阶规则学习网络 [R]

Reddit r/MachineLearning ↗ · 6天前缓存

本文介绍了gammaILP，一个完全可微的框架，能够直接从图像数据中学习一阶规则，且无标签泄露，解决了符号接地和谓词发明等挑战。

0 人收藏 0 人点赞

#computer-vision

Relit-LiVE：通过联合学习环境视频实现视频重光照

Hugging Face Daily Papers ↗ · 6天前缓存

本文介绍了 Relit-LiVE，这是一种新颖的视频重光照框架。它利用原始参考图像和联合环境视频预测，在无需相机姿态信息的情况下生成物理一致的结果。

0 人收藏 0 人点赞

#computer-vision

无需训练的多模态大语言模型密集手部接触估计

Hugging Face Daily Papers ↗ · 6天前缓存

本文提出ContactPrompt，一种利用多模态大语言模型进行密集手部接触估计的免训练零样本方法，无需训练即优于监督方法。

0 人收藏 0 人点赞

#computer-vision

图像分类器中单连通决策区域的实证研究

Hugging Face Daily Papers ↗ · 6天前缓存

本文通过验证具有相同标签的图像之间的环路是否可以由保持标签不变的曲面填充，实证研究了图像分类器的决策区域是否为单连通区域。

0 人收藏 0 人点赞

#computer-vision

SwiftI2V：一种通过条件分段生成实现高效高分辨率图像到视频生成的框架

Hugging Face Daily Papers ↗ · 6天前缓存

SwiftI2V 是一个新颖的高效框架，用于高分辨率图像到视频的生成，它采用条件分段生成技术，在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能，同时保持了输入的保真度。

0 人收藏 0 人点赞

#computer-vision

用于少步扩散蒸馏的连续时间分布匹配

Hugging Face Daily Papers ↗ · 6天前缓存

本文介绍了连续时间分布匹配（CDM），这是一种用于少步扩散蒸馏的方法，它通过将优化过程从离散迁移到连续，提高了视觉保真度并保留了精细细节。

0 人收藏 0 人点赞

#computer-vision

@lillyguisnet: 哇塞！！！我还没有机会尝试SAM3.1，但仅仅用"worm"这个提示就能完美分割我的图像！…

X AI KOLs Following ↗ · 6天前缓存

一位用户分享了关于SAM 3.1的热情反馈：仅用'worm'等简单文本提示即可精准分割图像，相比SAM 1有显著提升。

0 人收藏 0 人点赞

#computer-vision

FaithfulFaces：用于文本到视频生成的姿态保真面部身份保留

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

FaithfulFaces 是一种新的文本到视频生成框架，通过姿态共享对齐和欧拉角嵌入，在姿态变化和遮挡情况下保持面部身份的一致性。

0 人收藏 0 人点赞

#computer-vision

StableI2I：识别图像到图像转换中的非预期变化

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了 StableI2I，这是一种无需参考图像的评估框架，用于评估图像到图像生成任务中的内容保真度和一致性。此外，本文还提出了 StableI2I-Bench，一个用于评估多模态语言模型在这些评估任务上表现的基准。

0 人收藏 0 人点赞

#computer-vision

通过上下文稀疏注意力实现闪电般的统一视频编辑

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了上下文稀疏注意力（ISA），这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性，在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。

0 人收藏 0 人点赞

#computer-vision

@PrajwalTomar_：设计师们彻底没戏了。Codex Desktop 刚刚将 UI/UX 设计变成了一个全自动的视觉反馈循环。它 l…

X AI KOLs Following ↗ · 2026-05-05 缓存

Codex Desktop 通过构建应用、利用视觉能力分析布局，并不断迭代直至完美，实现了 UI/UX 设计的自动化。

0 人收藏 0 人点赞

#computer-vision

TT4D：一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Hugging Face Daily Papers ↗ · 2026-05-02 缓存

本文介绍了TT4D，这是一种新颖的Pipeline和大规模数据集，旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略，在进行时间分割之前，先估计乒乓球的3D轨迹和旋转，从而即使在存在遮挡的情况下也能实现稳健的重建。

0 人收藏 0 人点赞

#computer-vision

MoCapAnything V2: 面向任意骨骼的端到端动作捕捉

Papers with Code Trending ↗ · 2026-04-30 缓存

MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架，通过联合优化视频到姿态以及姿态到旋转的预测，解决旋转歧义性问题。

0 人收藏 0 人点赞

#computer-vision

用于视觉生成的表示 Fréchet 损失

Papers with Code Trending ↗ · 2026-04-30 缓存

本文介绍了 FD-loss，一种通过将总体规模与批次规模解耦，从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量，并指出 FID 可能无法始终准确反映视觉质量。

0 人收藏 0 人点赞

#computer-vision

解决“打地鼠困境”：一种更智能的 AI 视觉模型去偏方法

MIT News — Artificial Intelligence ↗ · 2026-04-29 缓存

来自麻省理工学院（MIT）、伍斯特理工学院（WPI）和 Google 的研究人员提出了 WRING，这是一种用于视觉语言模型（VLM）的新型后处理去偏方法，旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。

0 人收藏 0 人点赞

#computer-vision

Tuna-2: 像素嵌入超越视觉编码器，实现多模态理解与生成

Papers with Code Trending ↗ · 2026-04-27 缓存

Tuna-2 是一个统一的多模态模型，通过直接从像素嵌入处理视觉理解与生成任务，无需预训练视觉编码器，达到了最先进的性能水平。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈