fusion

#fusion

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

arXiv cs.LG ↗ · 2d ago Cached

This paper introduces a plug-in calibration module that adjusts multimodal representations before fusion, using cross-modal context to suppress misleading signals and emphasize reliable ones, improving performance on multiple benchmarks.

0 favorites 0 likes

#fusion

Toward Native Multimodal Modeling: A Roadmap

Hugging Face Daily Papers ↗ · 2026-05-25 Cached

This paper presents a formal roadmap for transitioning from late-fusion multimodal approaches to native multimodal modeling (NMM) within a unified transformer framework, categorizing existing models by input-output duality and systematically addressing architectural coordination, data curation, training recipes, and evaluation.

0 favorites 0 likes

#fusion

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

Hacker News Top ↗ · 2026-05-22 Cached

Introduces CODA, a GPU kernel abstraction that expresses Transformer operations as GEMM-plus-epilogue programs to reduce data movement, covering nearly all non-attention computation in a Transformer block.

0 favorites 0 likes

fusion

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

Toward Native Multimodal Modeling: A Roadmap

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

Submit Feedback