Isolater - Feed

Ax Xinxing Wu 3/11/2026

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Educational approach using AI-generated singing and virtual avatars to present course syllabi for improved student engagement.

Ax Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng 3/11/2026

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 deploys LLMs directly for e-commerce query-product relevance prediction using chain-of-thought reasoning with error mitigation.

Ax Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia 3/11/2026

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Framework for adaptive chain-of-thought compression in LLMs reduces computational costs while maintaining reasoning quality on software engineering tasks.

Ax Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song 3/11/2026

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

VSSFlow unified flow-matching framework for both video-to-sound and visual text-to-speech generation tasks.

Ax Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu 3/11/2026

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

VoiceBridge one-step latent bridge model for general speech restoration from diverse distortions at 48 kHz.

Ax Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng 3/11/2026

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

v-HUB benchmark for evaluating multimodal LLMs on humor understanding using non-verbal short videos.

Ax Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le 3/11/2026

Latent Speech-Text Transformer

Latent Speech-Text Transformer improves compute efficiency of auto-regressive speech-text models through latent representation compression.

Ax Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong 3/11/2026

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

NavSpace benchmark with 1,228 trajectory-instruction pairs evaluates spatial reasoning and perception capabilities of embodied navigation agents.

Ax Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi 3/11/2026

RECODE: Reasoning Through Code Generation for Visual Question Answering

RECODE framework uses code generation and derendering for visual question answering on structured visuals like charts and diagrams.

Ax Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa 3/11/2026

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

REAP demonstrates expert pruning outperforms expert merging for compressing Mixture-of-Experts models on generative tasks.

Ax Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu 3/11/2026

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

RL-100 framework combines diffusion visuomotor policies with reinforcement learning for real-world robotic manipulation tasks using clipped PPO.

Ax Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen 3/11/2026

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Reasoning framework using LLMs with permutation relative policy optimization for interpretable tabular prediction with structural priors.

Ax Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou 3/11/2026

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Vision-language-action model (FALCON) incorporating 3D spatial foundation priors for improved grounding and generalization in real-world robotic tasks.

Ax Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo 3/11/2026

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Framework for synthesizing hand manipulation sequences with language instructions using discrete human-object interaction representations.

Ax Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati 3/11/2026

Vectorized Online POMDP Planning

Vectorized parallel algorithm for POMDP planning under partial observability for autonomous robots leveraging modern hardware parallelization.

Ax Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li 3/11/2026

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Graph domain-incremental learning method for updating models across multiple graph domains using knowledge disentanglement and preservation.

Ax Eug\`ene Berta, David Holzm\"uller, Michael I. Jordan, Francis Bach 3/11/2026

Structured Matrix Scaling for Multi-Class Calibration

Structured matrix scaling approach for post-hoc multi-class classifier calibration beyond standard temperature scaling.

Ax Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng 3/11/2026

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Data valuation method for time series foundation models using in-context fine-tuning to efficiently assess training data quality.

Ax Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu 3/11/2026

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Multi-round entity-level reasoning segmentation task for medical images using text prompts, enabling iterative dialogue-based medical image analysis.

Ax Michel Tokic, Slobodan Djukanovi\'c, Anja von Beuningen, Cheng Feng 3/11/2026

TSFM in-context learning for time-series classification of bearing-health status

Machine learning method using time-series foundation models with in-context learning for bearing-health classification without fine-tuning.

Ax Albert Piwonski, Mirsad Had\v{z}iefendi\'c 3/11/2026

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

LLM-based chatbot for automated generation and solving of electromagnetic simulation models.

Ax Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li 3/11/2026

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

VLM-based method for human-object interaction detection addressing long-tail bias with adaptive diversity.

Ax Jian Lu 3/11/2026

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Periodic asynchrony training approach for accelerating LLM reinforcement learning by decoupling inference and training.

Ax Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang 3/11/2026

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Study of universal adversarial patch attacks on vision-language-action models controlling robots.

Ax Francesco Granata, Francesco Poggi, Misael Mongiov\`i 3/11/2026

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

ELERAG enhances RAG systems with entity linking for improved factual accuracy in specialized educational domains.

Ax Zijiang Yan, Yixiang Huang, Jianhua Pei, Hina Tabassum, Luca Chiaraviglio 3/11/2026

EMFusion: Conditional Diffusion Framework for Trustworthy Frequency Selective EMF Forecasting in Wireless Networks

Diffusion-based framework for forecasting electromagnetic field levels in wireless networks.

Ax Dongfang Zhao 3/11/2026

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

Geometry-aware indexing method for billion-scale approximate nearest neighbor search on disk-resident vectors.

Ax Yifan Le, Yunliang Li 3/11/2026

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

CRANE analyzes language-specific neurons in multilingual LLMs using causal relevance methods for interpretability.

Ax Qiao Liu, Wing Hung Wong 3/11/2026

An AI-powered Bayesian Generative Modeling Approach for Arbitrary Conditional Inference

Bayesian generative modeling framework enabling flexible conditional inference on arbitrary variable partitions.

Ax Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi 3/11/2026

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Multi-sequence ophthalmic angiography classification using state-space models for medical image analysis.

Ax Nikos I. Bosse, Peter M\"uhlbacher, Jack Wildman, Lawrence Phillips, Dan Schwarz 3/11/2026

Automating Forecasting Question Generation and Resolution for AI Evaluation

Automated system for generating and resolving diverse forecasting questions for AI evaluation and benchmarking.

Ax Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh 3/11/2026

WebAccessVL: Violation-Aware VLM for Web Accessibility

Vision-language model for automated web accessibility violation detection and HTML correction.

Ax Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai 3/11/2026

Monocular Normal Estimation via Shading Sequence Estimation

Deep learning method for monocular surface normal estimation from single RGB images.

Ax J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis 3/11/2026

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Infusion framework uses influence functions to edit training data and induce targeted model behavior changes.

Ax Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia 3/11/2026

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Energy-efficient continual learning method for spiking neural networks on neuromorphic vision systems.

Ax Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi 3/11/2026

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

B-DENSE improves diffusion model distillation by using dense trajectory supervision instead of sparse steps.

Ax Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara 3/11/2026

Continual uncertainty learning

Deep reinforcement learning approach for robust control of mechanical systems handling multiple sources of uncertainty.

Ax Ziang Yin, Qi Jing, Raktim Sarma, Rena Huang, Yu Yao, Jiaqi Gu 3/11/2026

ReDON: Recurrent Diffractive Optical Neural Processor with Reconfigurable Self-Modulated Nonlinearity

Diffractive optical neural processor with reconfigurable nonlinearity for energy-efficient optical domain processing.

Ax Ian Li, Zilei Shao, Benjie Wang, Rose Yu, Guy Van den Broeck, Anji Liu 3/11/2026

Breaking the Factorization Barrier in Diffusion Language Models

Research on diffusion language models addressing the factorization barrier to enable efficient parallel token generation.

Ax Edouard Lansiaux, Margaux Leman, Mehdi Ammi 3/11/2026

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

OrthoAI combines 3D tooth segmentation with biomechanical reasoning for clear aligner orthodontics using sparse-supervision learning.

Ax Abhinav Munagala 3/11/2026

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Dual-pipeline bird image segmentation framework combining Grounding DINO 1.5, YOLOv11, and SAM 2.1 for zero-shot and supervised segmentation.

Ax Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim 3/11/2026