Isolater - Feed

Ax Qingzhuo Wang, Leilei Wen, Juntao Chen, Kunyu Peng, Ruiyang Qin, Zhihua Wei, Wen Shen 12d ago

TME-PSR: Time-aware, Multi-interest, and Explanation Personalization for Sequential Recommendation

Sequential recommendation model integrating time-aware, multi-interest, and explanation personalization for personalized recommendations.

Ax Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi 12d ago

Many-Tier Instruction Hierarchy in LLM Agents

Instruction Hierarchy in LLM Agents arXiv paper addressing multi-source conflicting instructions in LLM systems. Examines privilege levels for safe instruction following.

Ax Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu 12d ago

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO arXiv paper on one-step diffusion model for chest X-ray report generation. Compresses multi-step denoising to single parallel generation step.

Ax Maksim Anisimov (Imperial College London), Francesco Belardinelli (Imperial College London), Matthew Wicker (Imperial College London) 12d ago

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

SafeAdapt arXiv paper on provably safe policy updates in deep RL for non-stationary environments. Addresses safety preservation during policy changes.

Ax Israt Jahan Mouri, Muhammad Ridowan, Muhammad Abdullah Adnan 12d ago

XFED: Non-Collusive Model Poisoning Attack Against Byzantine-Robust Federated Classifiers

Attack method demonstrating model poisoning vulnerabilities in federated learning without requiring collusion between adversarial clients.

Ax Kyle Whitecross, Negin Rahimi 12d ago

RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval

Post-training approach enabling LLMs to effectively retrieve and use long-context information for improved reasoning capabilities.

Ax Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Emmanuel Malherbe, C\'eline Hudelot, Pierre Colombo 12d ago

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

BERT-based evaluation method for LLM outputs that addresses limitations of rigid lexical evaluation and formatting-dependent scoring.

Ax Yucheng Shen, Jiulong Wu, Jizhou Huang, Dawei Yin, Lingyong Yan, Min Cao 12d ago

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Agentic system for visual retrieval-augmented generation with iterative search and multi-step reasoning across visually rich documents.

Ax Anthony T. Nixon 12d ago

Semantic Rate-Distortion for Bounded Multi-Agent Communication: Capacity-Derived Semantic Spaces and the Communication Cost of Alignment

Theoretical framework showing how agents with different computational capacities can develop distinct semantic alphabets for communication.

Ax Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Bj\"orn Ommer 12d ago

Envisioning the Future, One Step at a Time

Method for predicting future scene evolution by modeling uncertainty and simulating trajectories rather than dense pixel-level changes.

Ax Wenyi Xiao, Xinchi Xu, Leilei Gan 12d ago

VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

Technique for decoupled confidence calibration in large vision-language models to reduce hallucinations and improve reliability.

Ax Guanyu Zhou, Yida Yin, Wenhao Chai, Shengbang Tong, Xingyu Fu, Zhuang Liu 12d ago

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Approach using synthetic images to improve visual perception capabilities in vision-language models for spatial reasoning tasks.

Ax Zibin Geng, Xuefeng Jiang, Jia Li, Zheng Li, Tian Wen, Lvhua Wu, Sheng Sun, Yuwei Wang, Min Liu 12d ago

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Method for robust prompt learning in vision-language models that leverages visual content to handle label noise effectively.

Ax Soroosh Tayebi Arasteh, Mehdi Joodaki, Mahshad Lotfinia, Sven Nebelung, Daniel Truhn 12d ago

Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive Supervision

Framework for training models to make decisions dependent on evidence quality rather than weak supervision in evidence-grounded reasoning tasks.

Ax Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov 12d ago

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Research using weight pruning to identify unified mechanisms underlying harmful content generation in aligned LLMs across different domains.

Ax Xiaojie Xu, Zongyuan Li, Chang Lu, Runnan Qi, Yanan Ni, Lumin Jiang, Xiangbei Liu, Xuebo Zhang, Yongchun Fang, Kuihua Huang, Xian Guo, Zhanghua Wu, Zhenya Li 12d ago

Reflection of Episodes: Learning to Play Game from Expert and Self Experiences

Framework enabling LLMs to learn complex game strategies through self-reflection on expert and self-generated experiences in StarCraft II.

Ax Shahab Rahimirad, Guven Gergerli, Lucia Romero, Angela Qian, Matthew Lyle Olson, Simon Stepputtis, Joseph Campbell 12d ago

Bayesian Social Deduction with Graph-Informed Language Models

Study evaluating LLM performance on social reasoning tasks in the Avalon game, testing inference capabilities and model distillation effects.

Ax Zhirong Chen, Kaiyan Chang, Zhuolin Li, Cangyuan Li, Xinyang He, Chujie Chen, Mengdi Wang, Haobo Xu, Yinhe Han, Huawei Li, Ying Wang 12d ago

ChipSeek: Optimizing Verilog Generation via EDA-Integrated Reinforcement Learning

Framework using reinforcement learning integrated with EDA tools to optimize Verilog RTL code generation for hardware efficiency and correctness.

Ax Rui Wang, Qihan Lin, Jiayu Liu, Qing Zong, Tianshi Zheng, Dadi Guo, Haochen Shi, Weiqi Wang, Yangqiu Song 12d ago

Rethinking Prospect Theory for LLMs: Revealing the Instability of Decision-Making under Epistemic Uncertainty

Research examining whether Prospect Theory accurately models LLM decision-making under linguistic uncertainty and epistemic markers.

Ax Edward Kim, Daniel He, Jorge Chao, Wiktor Rajca, Mohammed Amin, Nishant Malpani, Ruta Desai, Antti Oulasvirta, Bjoern Hartmann, Sanjit Seshia 12d ago

Interactive Program Synthesis for Modeling Collaborative Physical Activities from Narrated Demonstrations

Interactive program synthesis system enabling users to teach collaborative physical tasks through narrated demonstrations with interpretable corrections.

Ax Xinzhe Li 12d ago

Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search

Chain-in-Tree framework optimizes LLM tree search by selectively branching instead of exhaustive expansion, improving efficiency for long-horizon reasoning.

Ax Hyeong Kyu Choi, Xiaojin Zhu, Sharon Li 12d ago

When Identity Skews Debate: Anonymization for Bias-Reduced Multi-Agent Reasoning

Framework using anonymization to reduce identity-driven bias in multi-agent debate systems where LLM agents exchange reasoning.

Ax Xiaohan Zhang, Tian Gao, Mingyue Cheng, Bokai Pan, Ze Guo, Yaguo Liu, Xiaoyu Tao, Qi Liu 12d ago

AlphaCast: A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting

AlphaCast framework combines human expertise with LLM reasoning for iterative time series forecasting with domain knowledge integration.

Ax Jiahuan Long, Tingsong Jiang, Hanqing Liu, Chao Ma, Weien Zhou, Yang Yang, Wen Yao 12d ago

Thermally Activated Dual-Modal Adversarial Clothing against AI Surveillance Systems

Adversarial wearable using thermochromic dyes to evade AI surveillance systems by creating thermal-visual misdirection.

Ax Runze Li, Yuwen Zhai, Bo Xu, LiWu Xu, Nian Shi, Wei Zhang, Ran Lin, Liang Wang 12d ago

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

EchoTrail-GUI framework enables GUI agents to build actionable memory from past experiences using critic-guided exploration to improve performance and generalization.

Ax Celeste Veronese, Alessandro Farinelli, Daniele Meli 12d ago

Sample-Efficient Neurosymbolic Deep Reinforcement Learning

Neuro-symbolic deep reinforcement learning approach integrating background knowledge to improve sample efficiency and generalization in RL agents.

Ax Issa Hanou, Eric Kemmeren, Devin Wild Thomas, Mathijs de Weerdt 12d ago

Precomputing Multi-Agent Path Replanning using Temporal Flexibility

Multi-agent path replanning algorithm that efficiently handles delayed agents by precomputing solutions using temporal flexibility to avoid cascading conflicts.

Ax William Walden, Miriam Wanner 12d ago

Reasoning Models Will Sometimes Lie About Their Reasoning

Study showing large reasoning models may not report how input hints influence reasoning, with implications for interpretability and security.

Ax Mayank Sharma, Roy Pea, Hari Subramonyam 12d ago

ConvoLearn: A Learning Sciences Grounded Dataset for Fine-Tuning Dialogic AI Tutors

ConvoLearn dataset of 2,134 dialogues for fine-tuning dialogue tutors grounded in knowledge-building theory and learning sciences.

Ax Alexander H\"agele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein 12d ago

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Analysis of AI model failure modes: systematic misalignment vs. nonsensical actions across varying task complexity and model intelligence.

Ax Xia Jiang, Jing Chen, Cong Zhang, Jie Gao, Chengpeng Hu, Chenhao Zhang, Yaoxin Wu, Yingqian Zhang 12d ago

Reasoning in a Combinatorial and Constrained World: Benchmarking LLMs on Natural-Language Combinatorial Optimization

NLCO benchmark evaluating LLM reasoning on natural-language combinatorial optimization with hard constraints and high-dimensional search spaces.

Ax Jun-Min Lee, Meong Hi Son, Edward Choi 12d ago

H-AdminSim: A Multi-Agent Simulator for Realistic Hospital Administrative Workflows with FHIR Integration

Hospital administrative workflow simulator with FHIR integration for testing LLM-based automation in realistic multi-agent scenarios.

Ax Bang Nguyen, Dominik So\'os, Qian Ma, Rochana R. Obadage, Zack Ranjan, Sai Koneru, Anna Szabelska, Adam Gill, Timothy M. Errington, Shakhlo Nematova, Sarah Rajtmajer, Jian Wu, Meng Jiang 12d ago

ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences

Benchmark evaluating LLM agents on replication of scientific papers with incomplete data, capturing real-world research challenges.

Ax Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang 12d ago

PACED: Distillation and On-Policy Self-Distillation at the Frontier of Student Competence

LLM distillation method weighting problems by student competence gradient signal-to-noise ratio for efficient training.

Ax Neelmani Vispute, Aditya Kadam 12d ago

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Framework for analyzing autonomous AI agent reasoning behavior through structured behavioral analytics beyond execution traces.

Ax Zhanting Zhou, KaHou Tam, Ziqiang Zheng, Zeyu Ma, Yang Yang 12d ago

TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning

Machine unlearning method for multimodal recommendation systems using targeted reverse updates for efficient data deletion.

Ax Zhenfeng Lin, Haoji Hu, Ming Hao, Xuchao Zhang, Ryan Zhang, Junhao Li, Ze Li, Oleg Kulygin, Chetan Bansal, Hatay Tuna, Murali Chintalapati, Sheila Jiang, Salman Zafar, Angie Anderson 12d ago

ActionNex: A Virtual Outage Manager for Cloud Computing

Production agentic system for cloud outage management with real-time updates, knowledge distillation, and conditioned action recommendations.

Ax Chao Li, Yuru Wang, Chunyi Zhao 12d ago

Domain-Contextualized Inference: A Computable Graph Architecture for Explicit-Domain Reasoning

Domain-scoped inference architecture with explicit domain as computational parameter enabling substrate-independent reasoning.

Ax Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie 12d ago

Memory Intelligence Agent

Memory system for deep research agents enabling efficient evolution and reasoning through intelligent trajectory memory management.

Ax Chenjie Yang, Yutian Jiang, Anqi Liang, Wei Qi, Chenyu Wu, Junbo Zhang 12d ago

ActivityEditor: Learning to Synthesize Physically Valid Human Mobility

Dual-LLM framework for zero-shot human mobility trajectory synthesis from activity descriptions without historical data.

Ax Wang Yang, Chaoda Song, Xinpeng Li, Debargha Ganguly, Chuang Ma, Shouren Wang, Zhihao Dou, Yuli Zhou, Vipin Chaudhary, Xiaotian Han 12d ago

AgentCE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Lightweight agent benchmark with configurable evaluation metrics addressing environment overhead and task distribution imbalances.

Ax Wenxuan Liu, Zixuan Li, Long Bai, Chunmao Zhang, Fenghui Zhang, Zhuo Chen, Wei Li, Yuxin Zuo, Fei Wang, Bingbing Xu, Xuhui Jiang, Jin Zhang, Xiaolong Jin, Jiafeng Guo, Tat-Seng Chua, Xueqi Cheng 12d ago

Towards Knowledgeable Deep Research: Framework and Benchmark

Framework and benchmark for deep research agents using structured knowledge alongside unstructured web content for comprehensive reports.

Ax Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu 12d ago