Isolater - Feed

Ax Hanxian Huang, Igor Fedorov, Andrey Gromov, Bernard Beckerman, Naveen Suda, David Eriksson, Maximilian Balandat, Rylan Conway, Patrick Huber, Chinnadhurai Sankar, Ayushi Dalmia, Zechun Liu, Lemeng Wu, Tarek Elgamal, Adithya Sagar, Vikas Chandra, Raghuraman Krishnamoorthi 3/18/2026

MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale

MobileLLM-Flash methodology designs on-device LLMs optimized for latency constraints using hardware-in-the-loop architecture search.

Ax Zifan Xu, Ran Gong, Maria Vittoria Minniti, Ahmet Salih Gundogdu, Eric Rosen, Kausik Sivakumar, Riedana Yan, Zixing Wang, Di Deng, Peter Stone, Xiaohan Zhang, Karl Schmeckpeper 3/18/2026

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

ExpertGen automates expert policy generation in simulation for scalable sim-to-real robotic behavior cloning transfer.

Ax Shrey Shah, Justin Wagle 3/18/2026

MoLoRA: Composable Specialization via Per-Token Adapter Routing

MoLoRA enables per-token adapter routing for multimodal generation and mixed-capability requests in multi-adapter serving.

Ax Yeounoh Chung, Rushabh Desai, Jian He, Yu Xiao, Thibaud Hottelier, Yves-Laurent Kom Samo, Pushkar Kadilkar, Xianshun Chen, Sam Idicula, Fatma \"Ozcan, Alon Halevy, Yannis Papakonstantinou 3/18/2026

100x Cost & Latency Reduction: Performance Analysis of AI Query Approximation using Lightweight Proxy Models

Lightweight proxy models reduce LLM query costs and latency 100x for AI-augmented SQL operations.

Ax Callen MacPhee, Yiming Zhou, Koichiro Kishima, Bahram Jalali 3/18/2026

Standardizing Medical Images at Scale for AI

Physics-based preprocessing framework standardizes heterogeneous medical images at scale for improved model generalization.

Ax Jingxiang Chen, Minseok Kim, Seong-Gyun Leem, Yin Huang, Rashi Rungta, Zhicheng Ouyang, Haibin Wu, Surya Teja Appini, Ankur Bansal, Yang Bai, Yue Liu, Florian Metze, Ahmed A Aly, Anuj Kumar, Ariya Rastrow, Zhaojiang Lin 3/18/2026

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Multi-task RL with chain-of-thought prompting aligns paralinguistic understanding and generation in speech LLMs.

Ax Jaesung Bae, Xiuwen Zheng, Minje Kim, Chang D. Yoo, Mark Hasegawa-Johnson 3/18/2026

Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech

Three-stage framework for dysarthric speech severity estimation using pseudo-labeling and data augmentation.

Ax Mohammad Dastgheib, Fatemeh Pourmahdian 3/18/2026

The Midas Touch in Gaze vs. Hand Pointing: Modality-Specific Failure Modes and Implications for XR Interfaces

xr-adaptive-modality platform studies modality-specific interventions for XR interfaces balancing gaze and hand input.

Ax Saisha Pradeep Shetty, Roger Eric Goldman, Vladimir Filkov 3/18/2026

RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation

RadAnnotate uses LLMs with retrieval augmentation and selective automation for efficient radiology report annotation.

Ax Atharva Sehgal, James Hou, Akanksha Sarkar, Ishaan Mantripragada, Swarat Chaudhuri, Jennifer J. Sun, Yisong Yue 3/18/2026

Evaluating Agentic Optimization on Large Codebases

FormulaCode benchmark evaluates LLM coding agents on repository-level codebase optimization with realistic multi-objective constraints.

Ax Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome 3/18/2026

FlatLands: Generative Floormap Completion From a Single Egocentric View

FlatLands dataset and benchmark for bird's-eye view floor completion from single egocentric images.

Ax Fan Huang, Haewoon Kwak, Jisun An 3/18/2026

Understanding Moral Reasoning Trajectories in Large Language Models: Toward Probing-Based Explainability

Probing-based analysis of moral reasoning trajectories in LLMs across six models showing systematic multi-framework deliberation.

Ax Xiaozhou Ye, Feng Jiang, Zihan Wang, Xiulai Wang, Yutao Zhang, Kevin I-Kai Wang 3/18/2026

Collaborative Temporal Feature Generation via Critic-Free Reinforcement Learning for Cross-User Sensor-Based Activity Recognition

Critic-free RL approach for cross-user activity recognition from wearable sensors with temporal feature generation.

Ax Yanru Wu, Weiduo Yuan, Ang Qi, Vitor Guizilini, Jiageng Mao, Yue Wang 3/18/2026

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

Framework adapts vision-language models as online reward generators for robotic reinforcement learning policy refinement.

Ax Yuanhe Zhang, Xinyue Wang, Zhican Chen, Weiliu Wang, Zilu Zhang, Zhengshuo Gong, Zhenhong Zhou, Li Sun, Yang Liu, Sen Su 3/18/2026

Resource Consumption Threats in Large Language Models

Survey of resource consumption threats in LLMs including excessive generation, covering efficiency challenges for providers and users.

Ax Ri Chi Ng, Aditi Kumaresan, Yujia Hu, Roy Ka-Wei Lee 3/18/2026

SEAHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Southeast Asia

SEAHateCheck introduces functional test dataset for hate speech detection in low-resource Southeast Asian languages.

Ax Hui Shan, Keyang Luo, Ming Li, Sizhe Zheng, Yanwei Fu, Zhen Chen, Xiangru Huang 3/18/2026

Interact3D: Compositional 3D Generation of Interactive Objects

Interact3D generates compositional 3D objects from single images while preserving spatial relationships and handling occlusions.

Ax Chang Nie, Tianchen Deng, Guangming Wang, Zhe Liu, Hesheng Wang 3/18/2026

Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation

HEAR framework extends vision-language-action models to incorporate real-time sound for robotic manipulation tasks.

Ax Hui Wang, Tianzhu Hu, Mingming Li, Xi Zhou, Chun Gan, Jiao Dai, Jizhong Han, Songlin Hu, Tao Guo 3/18/2026

RecBundle: A Next-Generation Geometric Paradigm for Explainable Recommender Systems

RecBundle proposes geometric framework for recommender systems addressing information cocoons through topological representation learning.

Ax Tianyi Huang, Ying Kai Deng 3/18/2026

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

Inference-time repair layer for retrieval-grounded QA using answer-conditioned counterevidence retrieval to fix commitment errors.

Ax Shin'ya Yamaguchi, Daiki Chijiwa, Tamao Sakao, Taku Hasegawa 3/18/2026

Parallel In-context Learning for Large Vision Language Models

Parallel in-context learning method reducing latency in vision-language models by decoupling demonstration processing from query encoding.

Ax Alejandro Paredes La Torre 3/18/2026

Diffusion Models for Joint Audio-Video Generation

Diffusion models for joint audio-video generation with two high-quality paired datasets.

Ax Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta 3/18/2026

LICA: Layered Image Composition Annotations for Graphic Design Research

Large-scale dataset of 1.55M multi-layer graphic design compositions with hierarchical metadata for layout research.

Ax Noppanat Wadlom, Junyi Shen, Yao Lu 3/18/2026

Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

LLM serving system optimizing agentic workflows by handling cross-call dependencies and redundancy from speculative execution.

Ax Francesco Pio Monaco, Elia Cunegatti, Flavio Vella, Giovanni Iacca 3/18/2026

Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

Data curation method for calibration in LLM compression via frequency-based selection for pruning and quantization.

Ax Peng Zhang 3/18/2026

RepoReviewer: A Local-First Multi-Agent Architecture for Repository-Level Code Review

Local-first multi-agent architecture for automated repository code review with LangGraph orchestration and structured analysis.

Ax Tik Yu Yim, Wenting Tan, Sum Yee Chan, Tak-Wah Lam, Siu Ming Yiu 3/18/2026

ASDA: Automated Skill Distillation and Adaptation for Financial Reasoning

Automated skill distillation and adaptation method for financial reasoning in LLMs without fine-tuning.

Ax Minbing Chen, Zhu Meng, Fei Su 3/18/2026

PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency

Reference-free evaluation framework for pathology vision-language models to detect hallucinations without ground truth.

Ax Songcheng Cai, Zhiheng Lyu, Yuansheng Ni, Xiangchao Chen, Baichuan Zhou, Shenzhe Zhu, Yi Lu, Haozhe Wang, Chi Ruan, Benjamin Schneider, Weixu Zhang, Xiang Li, Andy Zheng, Yuyu Zhang, Ping Nie, Wenhu Chen 3/18/2026

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Benchmark for repository-level code understanding with executable environments, enabling agentic code automation tasks.

Ax Shesh Narayan Gupta, Nik Bear Brown 3/18/2026

When Generative Augmentation Hurts: A Benchmark Study of GAN and Diffusion Models for Bias Correction in AI Classification Systems

Benchmark comparing generative augmentation strategies (GANs, diffusion) for bias correction in imbalanced classification under low-data conditions.

Ax Mengyuan Li, Qianfan Lu, Jiachen Tian, Hongjun Hu, Yu Han, Xiao Li, Chao-kai Wen, Shi Jin 3/18/2026

Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction

Multimodal LLVM framework for near-field beam prediction in XL-MIMO systems.

Ax Keru Chen, Jun Luo, Sen Lin, Yingbin Liang, Alvaro Velasquez, Nathaniel Bastian, Shaofeng Zou 3/18/2026

HIPO: Instruction Hierarchy via Constrained Reinforcement Learning

Constrained RL method for enforcing hierarchical instruction priority in LLMs via system prompt compliance.

Ax Jiayi Tian, Jiaze Wang 3/18/2026

GATS: Gaussian Aware Temporal Scaling Transformer for Invariant 4D Spatio-Temporal Point Cloud Representation

Transformer architecture for 4D point cloud video understanding with temporal scale invariance.

Ax Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi 3/18/2026

DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

RL method preserving diversity in LLM reasoning via dynamic Jensen-Shannon replay to improve sample efficiency and avoid mode collapse.

Ax Yiming Wang 3/18/2026

Homogeneous and Heterogeneous Consistency progressive Re-ranking for Visible-Infrared Person Re-identification

Re-ranking algorithm for visible-infrared person re-identification addressing cross-modal matching challenges.

Ax Surya Vardhan Yalavarthi 3/18/2026

Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

Open-source reproduction of Corrective RAG replacing proprietary components with Wikipedia API and open models for improved reproducibility.

Ax Lizheng Sun 3/18/2026

MemX: A Local-First Long-Term Memory System for AI Assistants

Local-first long-term memory system for AI assistants with vector and keyword retrieval, implemented in Rust for conversational agents.

Ax Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro, Kang-Jun Liu, Takayuki Okatani 3/18/2026

360{\deg} Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Benchmark and method for evaluating 360° image perception in multimodal LLMs, addressing geometric distortion and spatial reasoning challenges.

Ax Camille Jimenez Cortes, Philippe Lalanda, German Vega 3/18/2026

Sample-Efficient Adaptation of Drug-Response Models to Patient Tumors under Strong Biological Domain Shift

Domain adaptation method for sample-efficient transfer of drug-response prediction models from cell lines to patient tumors.

Ax Kuan-Tang Huang, Chien-Chun Wang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen 3/18/2026

Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Domain adversarial training approach for robust AI-generated audio quality assessment without spurious correlations.

Ax Yang Ni, Fanli Jia 3/18/2026

A Scoping Review of AI-Driven Digital Interventions in Mental Health Care: Mapping Applications Across Screening, Support, Monitoring, Prevention, and Clinical Education

Scoping review of AI-driven digital mental health interventions including GenAI and HCAI across screening, support, and monitoring.

Ax Gengxin Sun, Ruihao Yu, Liangyi Yin, Yunqi Yang, Bin Zhang, Zhiwei Xu 3/18/2026

CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

CoMAI multi-agent framework with task decomposition for robust and fair interview evaluation using coordinated LLM agents.

Ax Juhani Merilehto 3/18/2026

Generative AI for Quantum Circuits and Quantum Code: A Technical Review and Taxonomy

Technical review and taxonomy of 13 generative systems for quantum circuit and quantum code generation including agentic approaches.

Ax Zeqiang Wei, Kai Jin, Kuan Song, Xiuzhuang Zhou, Wenlong Chen, Min Xu 3/18/2026

RASLF: Representation-Aware State Space Model for Light Field Super-Resolution

State space model framework for light field super-resolution using multiple LF representations.

Ax Jaechang Kim, Yotaro Shimose, Zhao Wang, Kuang-Da Wang, Jungseul Ok, Shingo Takamatsu 3/18/2026

Visual Prompt Discovery via Semantic Exploration

Visual prompt discovery method to diagnose and mitigate LVLM perception failures through semantic exploration.

Ax Junxin Wang, Dai Guan, Weijie Qiu, Zhihang Li, Yongbo Gai, Zhengyi Yang, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang 3/18/2026

Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Vision-language process reward models with explicit visual premise verification for reliable step scoring in reasoning.

Ax Hongwei Lin, Xun Huang, Chenglu Wen, Cheng Wang 3/18/2026

AW-MoE: All-Weather Mixture of Experts for Robust Multi-Modal 3D Object Detection

Mixture of Experts framework for robust 3D object detection in autonomous driving under adverse weather conditions.

Ax Yuan Tian, Yi Mei, Mengjie Zhang 3/18/2026

Surrogate-Assisted Genetic Programming with Rank-Based Phenotypic Characterisation for Dynamic Multi-Mode Project Scheduling

Genetic programming with surrogate models for dynamic multi-mode project scheduling with simulation-based optimization.

Ax Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan 3/18/2026

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

VisBrowse-Bench benchmark for evaluating visual-native search in multimodal browsing agents using MLLMs.

Ax Ke Yang, Bolin Chen, Yuejie Li, Yueying Hua, Jianhao Nie, Yueping He, Bowen Li, Chengjun Mao 3/18/2026

Attention-guided Evidence Grounding for Spoken Question Answering

End-to-end framework using Speech LLMs for spoken question answering with attention-guided evidence grounding.