Isolater - Feed

Ax Uria Franko 2/20/2026

Dynamic System Instructions and Tool Exposure for Efficient Agentic LLMs

Instruction-Tool Retrieval (ITR) RAG variant dynamically retrieves minimal system prompts and necessary tool subsets per step for efficient agentic LLMs.

Ax Seoyoung Lee, Seobin Yoon, Seongbeen Lee, Yoojung Chun, Dayoung Park, Doyeon Kim, Joo Yong Sim 2/20/2026

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Multi-agent computer-use framework with intent-aligned plan memory to stabilize long-horizon execution and reduce error accumulation.

Ax Yunseok Han, Yejoon Lee, Jaeyoung Do 2/20/2026

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

Framework evaluating reasoning faithfulness in large reasoning models through counterfactual intervention on stance consistency and causal influence.

Ax Yonghyeon Jo, Sunwoo Lee, Seungyul Han 2/20/2026

Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

Multi-agent RL method retaining multiple high-value actions via sub-value functions to adapt to shifting value functions.

Ax Sumedh Rasal 2/20/2026

Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization

Predictive Batch Scheduling uses lightweight online predictor to prioritize high-loss samples, accelerating LLM training convergence.

Ax Kan Watanabe, Rikuto Tsuchida, Takahiro Monno, Bin Huang, Kazuma Yamasaki, Youmei Fan, Kazumasa Shimari, Kenichi Matsumoto 2/20/2026

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Empirical study analyzing pull request characteristics from five AI coding agents and human reviewer responses using AIDev dataset.

Ax Zhaoyang Li, Xingzhi Jin, Junyu Pan, Qianqian Yang, Zhiguo Shi 2/20/2026

Agentic Wireless Communication for 6G: Intent-Aware and Continuously Evolving Physical-Layer Intelligence

6G wireless systems architecture using intent-driven autonomous agents for multi-dimensional objectives and evolving requirements.

Ax Xiaoran Cai, Wang Yang, Xiyu Ren, Chekun Law, Rohit Sharma, Peng Qi 2/20/2026

Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction

Human-AI collaborative framework for constructing benchmark datasets to standardize ESG/sustainability rating methodologies.

Ax Xiangyu Zhou, Chenhan Xiao, Yang Weng 2/20/2026

Owen-based Semantics and Hierarchy-Aware Explanation (O-Shap)

Owen-value based method extending SHAP for hierarchical feature attribution in vision tasks with spatial/semantic dependencies.

Ax Abdulrahman AlRabah, Priyanka Kargupta, Jiawei Han, Abdussalam Alawini 2/20/2026

Instructor-Aligned Knowledge Graphs for Personalized Learning

Knowledge graphs capturing educational concept dependencies and prerequisites for personalized learning at scale.

Ax Ilya Levin 2/20/2026

Epistemology of Generative AI: The Geometry of Knowing

Philosophical examination of generative AI's epistemic character and implications for knowledge production in science, education, and institutions.

Ax Victor Kondratiev, Irina Gribanova, Alexander Semenov 2/20/2026

Efficient Parallel Algorithm for Decomposing Hard CircuitSAT Instances

Parallel algorithm for decomposing hard CircuitSAT instances using specialized constraints and hardness estimations.

Ax Ariel Larey, Elay Dahan, Amit Bleiweiss, Raizy Kellerman, Guy Leib, Omri Nayshool, Dan Ofer, Tal Zinger, Dan Dominissini, Gideon Rechavi, Nicole Bussola, Simon Lee, Shane O'Connell, Dung Hoang, Marissa Wirth, Alexander W. Charney, Nati Daniel, Yoli Shavit 2/20/2026

JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures

JEPA-DNA: pre-training framework for genomic foundation models using joint-embedding predictive architecture to capture functional genomic context.

Ax Sicheng Mao 2/20/2026

Texo: Formula Recognition within 20M Parameters

Texo: minimalist 20M parameter formula recognition model achieving state-of-the-art performance with 80% size reduction through distillation and transfer learning.

Ax Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach 2/20/2026

Continual learning and refinement of causal models through dynamic predicate invention

Framework for constructing symbolic causal world models online by integrating continuous model learning with meta-interpretive learning in agent decision loops.

Ax Yi-Chih Huang 2/20/2026

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

Methodological experiment using AI agents in collaborative research workflows for humanities and social sciences, analyzing Taiwan Claude.ai usage data.

Ax Ben Yellin, Ehud Ezra, Mark Foreman, Shula Grinapol 2/20/2026

Decoding the Human Factor: High Fidelity Behavioral Prediction for Strategic Foresight

Framework for predicting consistent individual-specific human behavior in high-stakes environments by combining LLMs with psychological trait modeling.

Ax Bianca Raimondi, Maurizio Gabbrielli 2/20/2026

Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy

Mechanistic interpretability study using linear probing and Bloom's Taxonomy to analyze cognitive complexity in LLM internal neural representations.

Ax Zeyu Zhang, Ryan Chen, Bradly C. Stadie 2/20/2026

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Framework for detecting and quantifying temporal data contamination in LLM backtesting to validate whether models leak post-cutoff training knowledge.

Ax Linxi Jiang, Rui Xi, Zhijie Liu, Shuo Chen, Zhiqiang Lin, Suman Nath 2/20/2026

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

Web Verbs framework providing typed abstractions for reliable task composition on agentic web, enabling LLM-based web agents beyond low-level primitives.

Ax Anuj Gupta 2/20/2026

ArXiv-to-Model: A Practical Study of Scientific LM Training

Case study training 1.36B-parameter scientific language model from raw arXiv LaTeX sources, documenting end-to-end process for domain-specialized LM development.

Ax Hui Min Wong, Philip Heesen, Pascal Janetzky, Martin Bendszus, Stefan Feuerriegel 2/20/2026

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

MedClarify: LLM-based AI agent for medical diagnosis that iteratively asks follow-up questions to resolve diagnostic uncertainty through differential reasoning.

Ax Angelo Porrello, Pietro Buzzega, Felix Dangel, Thomas Sommariva, Riccardo Salami, Lorenzo Bonicelli, Simone Calderara 2/20/2026

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

Method for disentangling task vectors in foundation models using Kronecker-factored approximate curvature without external task data.

Ax Adri\`a Molina, Oriol Ramos Terrades, Josep Llad\'os 2/20/2026

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Graph-based visual inference approach for complex image retrieval queries involving relationships, compositions, and precise constraints.

Ax Michele Zanitti, Vanja Miskovic, Francesco Trov\`o, Alessandra Laura Giulia Pedrocchi, Ming Shen, Yan Kyaw Tun, Arsela Prelaj, Sokol Kosta 2/20/2026

A Contrastive Variational AutoEncoder for NSCLC Survival Prediction with Missing Modalities

Contrastive Variational AutoEncoder for predicting NSCLC patient survival using multi-modal biomedical data with missing modalities.

Ax Diana Addae, Diana Rogachova, Nafiseh Kahani, Masoud Barati, Michael Christensen, Chen Zhou 2/20/2026

A Privacy by Design Framework for Large Language Model-Based Applications for Children

Privacy-by-Design framework for LLM-based applications targeting children, addressing implementation gaps in privacy regulation compliance.

Ax Marco Avolio, Potito Aghilar, Sabino Roccotelli, Vito Walter Anelli, Chiara Mallamaci, Vincenzo Paparella, Marco Valentini, Alejandro Bellog\'in, Michelantonio Trizio, Joseph Trotta, Antonio Ferrara, Tommaso Di Noia 2/20/2026

WarpRec: Unifying Academic Rigor and Industrial Scale for Responsible, Reproducible, and Efficient Recommendation

WarpRec framework bridging gap between research and production recommender systems with backend-agnostic architecture, 50+ algorithms, and 40 metrics.

Ax Pranay Jain, Maximilian Kasper, G\"oran K\"ober, Axel Plinge, Dominik Seu{\ss} 2/20/2026

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Benchmarking framework for optimizing AI models on ARM Cortex embedded processors, measuring energy efficiency, accuracy, and resource utilization.

Ax Dun Yuan (Charlie), Hao Zhou (Charlie), Xue Liu (Charlie), Hao Chen (Charlie), Yan Xin (Charlie), Jianzhong (Charlie), Zhang 2/20/2026

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

arXiv paper on applying LLMs to telecom domain using dynamic knowledge graphs and retrieval-augmented generation to reduce hallucinations and improve accuracy.

Ax Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar 2/20/2026

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluation framework for chain-of-thought reasoning quality using reusability and verifiability metrics in multi-agent IR pipelines.

Ax Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi 2/20/2026

KLong: Training LLM Agent for Extremely Long-horizon Tasks

KLong open-source LLM agent framework for extremely long-horizon tasks using trajectory-splitting SFT and progressive RL training.

Ax Hongjue Zhao, Haosen Sun, Jiangtao Kong, Xiaochang Li, Qineng Wang, Liwei Jiang, Qi Zhu, Tarek Abdelzaher, Yejin Choi, Manling Li, Huajie Shao 2/20/2026

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

ODESteer unified ODE-based framework for LLM alignment via activation steering with multi-step guidance.

Ax Asif Hasan Chowdhury, Md. Fahim Islam, M Ragib Anjum Riad, Faiyaz Bin Hashem, Md Tanzim Reza, Md. Golam Rabiul Alam 2/20/2026

A Hybrid Federated Learning Based Ensemble Approach for Lung Disease Diagnosis Leveraging Fusion of SWIN Transformer and CNN

Federated learning ensemble combining SWIN Transformer and CNN for lung disease diagnosis from medical imaging.

Ax Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, Jos\'e Hern\'andez-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum 2/20/2026

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

AI Gamestore platform for evaluating machine general intelligence using open-ended human games and dynamic benchmarks.

Ax Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong 2/20/2026

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

MolHIT hierarchical discrete diffusion model for molecular graph generation improving chemical validity for drug discovery.

Ax Jianda Du, Youran Sun, Haizhao Yang 2/20/2026

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

AutoNumerics multi-agent framework autonomously designs, implements, and verifies numerical PDE solvers using AI.

Ax Juri Opitz, Corina Racl\'e, Emanuela Boros, Andrianos Michail, Matteo Romanello, Maud Ehrmann, Simon Clematide 2/20/2026

CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts

CLEF HIPE-2026 evaluation lab for person-place relation extraction from historical multilingual texts.

Ax Yaowen Liu, Xuejia Chen, Anxin Tian, Haoyang Li, Qinbin Li, Xin Zhang, Alexander Zhou, Chen Jason Zhang, Qing Li, Lei Chen 2/20/2026

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions

Taxonomy and empirical study of GPU-accelerated graph-based approximate nearest neighbor search algorithms for large-scale applications.

Ax Bowen Cao, Weibin Liao, Yushi Sun, Dong Fang, Haitao Li, Wai Lam 2/20/2026

APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL

APEX-SQL agentic framework for text-to-SQL that dynamically explores database schemas to resolve semantic ambiguity in complex enterprise environments.

Ax Banafsheh Saber Latibari, Najmeh Nazari, Daniel Brignac, Hossein Sayadi, Houman Homayoun, Abhijit Mahalanobis 2/20/2026

Is Mamba Reliable for Medical Imaging?

Robustness evaluation of Mamba state-space models on medical imaging benchmarks under adversarial perturbations and corruptions.

Ax Shahriar Golchin, Marc Wetter 2/20/2026

Intent Laundering: AI Safety Datasets Are Not What They Seem

Systematic evaluation showing AI safety datasets overrely on triggering cues and fail to reflect real-world adversarial attacks.

Ax Raymond Jay Martin II 2/20/2026

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Production C++ implementation of deterministic semantic state substrate using graph engine architecture for inference systems.

Ax Karan Bali, Jack Stanley, Praneet Suresh, Danilo Bzdok 2/20/2026

Quantifying LLM Attention-Head Stability: Implications for Circuit Universality

Study quantifying stability of transformer attention heads across model instances to assess whether mechanistic interpretability circuits are universal.

Ax Scott Thornton 2/20/2026

Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis

Empirical study of comment-based adversarial attacks against LLM code vulnerability detection across Python, JavaScript, and Java.

Ax Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei 2/20/2026

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

DeepVision-103K dataset with 103K diverse mathematical problems for training multimodal LLMs using reinforcement learning with verifiable rewards.

Ax Zhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han, Tianlong Chen, Zhun Deng 2/20/2026

PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

PETS framework for efficient test-time scaling via principled trajectory allocation to improve LLM self-consistency under budget constraints.

Ax Yongzhong Xu 2/20/2026

Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

Geometric analysis of transformer optimization dynamics showing grokking emerges in low-dimensional subspaces during modular arithmetic training.

Ax Xidong Wang, Shuqi Guo, Yue Shen, Junying Chen, Jian Wang, Jinjie Gu, Ping Zhang, Lei Liu, Benyou Wang 2/20/2026

LiveClin: A Live Clinical Benchmark without Leakage

LiveClin benchmark for evaluating medical LLMs using contemporary clinical case reports updated biannually to prevent data contamination.

Ax Txell Amig\'o (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Shawn Zheng Kai Tan (SignaMind, Singapore), Angel Luu Phanthanourak (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Sebastian Schulz (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Pasquale D. Colaianni (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Dominik M. Maszczyk (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Ester Milesi (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Ivan Schlembach (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Mykhaylo Semenov Petrov (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Marta Revent\'os Montan\'e (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Lars K. Nielsen (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark, Australian Institute for Bioengineering and Nanotechnology, The University of Queensland, Brisbane, Queensland, Australia), Jochen F\"orster (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Bernhard {\O}. Palsson (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark, The Department of Bioengineering, University of California, San Diego, USA), Suresh Sudarsan (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark), Alberto Santos (The Novo Nordisk Foundation Center for Biosustainability, Technical University of Denmark, Kgs. Lyngby, Denmark) 2/20/2026

PREFER: An Ontology for the PREcision FERmentation Community

Ontology standard for precision fermentation data in biofoundries to improve interoperability across platforms.

Ax Ayush Roy, Tahsin Fuad Hassan, Roshan Ayyalasomayajula, Vishnu Suresh Lokhande 2/20/2026

Attending to Routers Aids Indoor Wireless Localization

Attention mechanism for Wi-Fi indoor localization that weights router information appropriately during signal aggregation.