multi-task

#multi-task

A VAE-Driven Multi-Task Satellite-Aided Semantic Communication Framework for 6G-Enabled Connected Autonomous Vehicles

arXiv cs.LG ↗ · 5d ago Cached

Proposes a VAE-based multi-task semantic communication framework for satellite-assisted autonomous driving, achieving significant bandwidth reduction while maintaining performance for traffic sign reconstruction and classification.

0 favorites 0 likes

#multi-task

Infinity-Parser2 Technical Report

arXiv cs.AI ↗ · 2026-07-10 Cached

The Infinity-Parser2 technical report presents a large multimodal model for end-to-end document parsing, featuring a scalable data synthesis pipeline and multi-task reinforcement learning. It achieves state-of-the-art results on multiple benchmarks while releasing open-source model variants and a 5-million-sample bilingual corpus.

0 favorites 0 likes

#multi-task

SupraLabs/Supra-Router-51M

Hugging Face Models Trending ↗ · 2026-07-05 Cached

SupraLabs releases Supra-Router-51M, a 51.7M parameter micro-LLM for multi-task infrastructure routing, designed to decide whether to process prompts locally on edge or send them to cloud-hosted models. Fine-tuned on a small dataset, it uses multi-task sequence generation for robust routing.

0 favorites 0 likes

#multi-task

Goku: A Million-Scale Universal Dataset and Benchmark for Instruction-Based Video Editing

Hugging Face Daily Papers ↗ · 2026-06-30 Cached

This paper introduces Goku, a million-scale dataset and benchmark for instruction-based video editing, supporting multi-task and structural manipulations. The accompanying model, Goku-Edit, achieves up to +8% improvement on instruction following over open-source models.

0 favorites 0 likes

#multi-task

OpenFinGym: A Verifiable Multi-Task Gym Environment for Evaluating Quant Agents

arXiv cs.AI ↗ · 2026-06-26 Cached

This paper introduces OpenFinGym, a unified multi-task gym environment for evaluating large language model agents in quantitative finance, covering forecasting, market generation, real-time trading, and fraud detection with verifiable execution and automated task construction.

0 favorites 0 likes

#multi-task

MacroLens: A Multi-Task Benchmark for Contextual Financial Reasoning under Macroeconomic Scenarios

arXiv cs.LG ↗ · 2026-06-25 Cached

MacroLens is a new multi-task benchmark for contextual financial reasoning that jointly evaluates price history, accounting fundamentals, macroeconomic regimes, and textual data across 4,416 U.S. small- and micro-cap equities. It includes seven tasks, 1,130 macroeconomic events, and evaluations of 19 methods, aiming to fill a gap in financial AI evaluation.

0 favorites 0 likes

#multi-task

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

arXiv cs.AI ↗ · 2026-06-17 Cached

SpeechDx is a large-scale benchmark for clinical speech AI spanning 12 datasets and 27 tasks across diverse health conditions, structured by stages of speech production. It evaluates 12 state-of-the-art audio encoders and shows that current models do not generalize reliably across the clinical speech landscape.

0 favorites 0 likes

#multi-task

OdysSim: Building Foundation Models for Human Behavior Simulation

arXiv cs.CL ↗ · 2026-06-15 Cached

OdysSim presents a systematic investigation into behavioral foundation models for simulating human behavior, introducing the Soul taxonomy, a corpus of 21.4M interactions, and a training recipe that achieves state-of-the-art on 8 of 23 benchmark tasks while producing more human-like outputs.

0 favorites 0 likes

#multi-task

SenseNova U1 dropped an infographic-specific finetune

Reddit r/LocalLLaMA ↗ · 2026-06-10

SenseNova U1 releases an infographic-specific finetune of its U1-8B-MoT base model, achieving significant benchmark improvements in infographic accuracy, chart understanding, and text rendering.

0 favorites 0 likes

#multi-task

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

arXiv cs.LG ↗ · 2026-06-08 Cached

Proposes ULPS, a framework integrating a calibrated LLM into RL training with uncertainty-modulated guidance and A*-based symbolic trajectories, achieving improved success rate and sample efficiency on MiniGrid-UnlockPickup.

0 favorites 0 likes

#multi-task

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

Hugging Face Daily Papers ↗ · 2026-06-02 Cached

Ultralytics YOLO26 introduces a unified real-time vision model family with NMS-free inference, improved training strategies, and multi-task capabilities for detection, segmentation, and pose estimation, achieving state-of-the-art accuracy-latency trade-offs.

0 favorites 0 likes

#multi-task

Model Merging by Output-Space Projection

arXiv cs.LG ↗ · 2026-05-29

This paper presents a new framework for model merging that casts the problem as a convex quadratic program over residual updates, minimizing a squared-output calibration objective. It subsumes existing heuristic methods and provides a closed-form diagnostic to predict merge quality, showing consistent gains on language and vision benchmarks.

0 favorites 0 likes

#multi-task

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

Qwen-VLA is a unified vision-language-action model for embodied decision-making, integrating manipulation, navigation, and trajectory prediction across different robot platforms. It uses a DiT-based action decoder and embodiment-aware prompt conditioning, achieving strong performance and out-of-distribution generalization.

0 favorites 0 likes

#multi-task

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

Hugging Face Daily Papers ↗ · 2026-05-27 Cached

This paper introduces AsyncTool, a benchmark for evaluating LLM-based agents' asynchronous function calling abilities in multi-task scenarios with delayed tool responses. It proposes efficiency-oriented metrics and identifies key failure modes of current tool-using agents.

0 favorites 0 likes

#multi-task

First time fine-tuning, need a sanity check — 3B or 7B for multi-task reasoning? [D]

Reddit r/MachineLearning ↗ · 2026-04-23

A self-taught developer asks for advice on choosing between 3B and 7B models for a first multi-task fine-tuning project focused on deeper reasoning about underlying questions.

0 favorites 0 likes

multi-task

Submit Feedback