Isolater - Feed

Ax Chenxi Qing, Junxi Wu, Zheng Liu, Yixiang Qiu, Hongyao Yu, Bin Chen, Hao Wu, Shu-Tao Xia 8d ago

C-ReD: A Comprehensive Chinese Benchmark for AI-Generated Text Detection Derived from Real-World Prompts

Benchmark dataset for detecting AI-generated Chinese text with evaluation across multiple LLM architectures.

Ax Ricardo Coimbra Brioso, Lorenzo Mondo, Damiano Dei, Nicola Lambri, Pietro Mancosu, Marta Scorsetti, Daniele Loiacono 8d ago

Budget-Aware Uncertainty for Radiotherapy Segmentation QA Using nnU-Net

Deep learning method for uncertainty quantification in clinical radiotherapy segmentation using budget-aware constraints.

Ax Mihir Prabhudesai, Aryan Satpathy, Yangmin Li, Zheyang Qin, Nikash Bhardwaj, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak 8d ago

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

RL approach for training physics reasoning models on simulators to address lack of large-scale QA datasets in physics domain.

Ax Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah 8d ago

Can Large Language Models Infer Causal Relationships from Real-World Text?

Evaluation of LLM causal reasoning capabilities using real-world complex texts with implicit causal relationships.

Ax Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Mo Guang, Kaiwen Long, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang 8d ago

VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments

Benchmark evaluating VLMs' strategic reasoning abilities in multi-agent environments with multimodal observations.

Ax Ashutosh Hathidara, Julien Yu, Sebastian Schreiber 8d ago

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Three-stage pipeline for disambiguation-centric finetuning of enterprise tool-calling LLMs to reduce errors with near-duplicate tools.

Ax Zhilin Zhang, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Chenyu You 8d ago

PosterGen: Aesthetic-Aware Multi-Modal Paper-to-Poster Generation via Multi-Agent LLMs

Multi-agent LLM system for automated academic poster generation from papers incorporating design and aesthetic principles.

Ax Zonghai Yao, Talha Chafekar, Junda Wang, Shuo Han, Feiyun Ouyang, Junhui Qian, Lingxi Li, Hong Yu 8d ago

ChatCLIDS: Simulating Persuasive AI Dialogues to Promote Closed-Loop Insulin Adoption in Type 1 Diabetes Care

Benchmark and framework for evaluating LLM-driven persuasive dialogue for health behavior change in insulin delivery adoption.

Ax Renqi Chen, Zeyin Tao, Jianming Guo, Jingzhe Zhu, Yiheng Peng, Qingqing Sun, Tianyi Zhang, Shuai Chen 8d ago

RISK: A Framework for GUI Agents in E-commerce Risk Management

GUI agent framework for multi-step e-commerce risk management handling stateful interactions with dynamic web content.

Ax Hehai Lin, Shilei Cao, Sudong Wang, Haotian Wu, Minzhi Li, Linyi Yang, Juepeng Zheng, Chengwei Qin 8d ago

Interactive Learning for LLM Reasoning

Interactive learning approach enabling LLMs to improve reasoning through multi-agent interactions during inference without re-execution.

Ax Yuyang Liu, Chuan Wen, Yihang Hu, Dinesh Jayaraman, Yang Gao 8d ago

TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

Reward learning method deriving progress estimation signals from passive videos for robotics RL tasks without manual reward engineering.

Ax Shaoan Xie, Lingjing Kong, Xiangchen Song, Xinshuai Dong, Guangyi Chen, Eric P. Xing, Kun Zhang 8d ago

Advancing Reasoning in Diffusion Language Models with Denoising Process Rewards

RL method for improving reasoning in diffusion-based language models using denoising process rewards instead of outcome-only rewards.

Ax Wenda Xie, Chao Guo, Yanqing Jing. Junle Wang, Yisheng Lv, Fei-Yue Wang 8d ago

Plug-and-Play Dramaturge: A Divide-and-Conquer Approach for Iterative Narrative Script Refinement via Collaborative LLM Agents

Multi-agent LLM system for iterative narrative script refinement using divide-and-conquer approach to improve long-form creative content generation.

Ax Pengkun Jiao, Yiming Jin, Jianhui Yang, Chenhe Dong, Zerui Huang, Shaowei Yao, Xiaojiang Zhou, Dan Ou, Haihong Tang 8d ago

SHE: Stepwise Hybrid Examination Reinforcement Learning Framework for E-commerce Search Relevance

RL framework for e-commerce search relevance using stepwise reward optimization to improve LLM-based query-product matching beyond SFT/DPO limitations.

Ax Mustafa Mert \"Ozy{\i}lmaz 8d ago

Graph-Coarsening Approach for the Capacitated Vehicle Routing Problem with Time Windows

Graph-coarsening strategy for Capacitated Vehicle Routing Problem with time windows using multilevel aggregation and quantum/classical solvers for large-scale logistics optimization.

Ax Weihua Cheng, Junming Liu, Yifei Sun, Botian Shi, W Yirong Chen, Ding Wang 8d ago

MGA: Memory-Driven GUI Agent for Observation-Centric Interaction

MGA memory-driven GUI agent reduces context overload and architectural redundancy by managing sequential trajectory history for improved long-horizon end-to-end automation.

Ax Junze Ye, Daniel Tawfik, Alex J. Goodell, Nikhil V. Kotha, Mark K. Buyyounouski, Mohsen Bayati 8d ago

Scalable Stewardship of an LLM-Assisted Clinical Benchmark with Physician Oversight

Audits MedCalc-Bench clinical labels using physician-in-the-loop stewardship to assess reliability of LLM-synthesized reference labels in ML benchmarks.

Ax Yang Zhao, Yangou Ouyang, Xiao Ding, Hepeng Wang, Bibo Cai, Kai Xiong, Jinglong Gao, Zhouhao Sun, Li Du, Bing Qin, Ting Liu 8d ago

Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration

PRISM framework disentangles SFT and RL training data via gradient concentration to diagnose learning needs and optimize data allocation for LLM agent training.

Ax Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Dayuan Fu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu 8d ago

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

AgencyBench evaluates LLM-based autonomous agents on long-horizon real-world scenarios with 1M-token context windows, enabling scalable automated evaluation without human-in-the-loop.

Ax Mengxuan Wang, Yuxin Chen, Gang Xu, Tao He, Hongjie Jiang, Ming Li 8d ago

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Risk Awareness Injection method calibrates vision-language models against multimodal jailbreak attacks without fine-tuning or token manipulation, preserving model utility.

Ax Jinbiao Wei, Yilun Zhao, Kangqi Ni, Arman Cohan 8d ago

ANCHOR: Branch-Point Data Generation for GUI Agents

ANCHOR framework generates high-quality synthetic training data for GUI agents by trajectory expansion from seed demonstrations to create diverse, goal-consistent interaction data.

Ax Emanuele De Angelis (CNR-IASI, Rome, Italy), Fabio Fioravanti (DEc, University 'G. d'Annunzio', Chieti-Pescara, Italy), Maria Chiara Meo (DEc, University 'G. d'Annunzio', Chieti-Pescara, Italy), Alberto Pettorossi (DICII, University of Rome 'Tor Vergata', Italy), Maurizio Proietti (CNR-IASI, Rome, Italy), Francesca Toni (Imperial, London, UK) 8d ago

Constrained Assumption-Based Argumentation Frameworks

Constrained Assumption-Based Argumentation (CABA) extends ABA frameworks beyond propositional atoms to support variable-based arguments for structured argumentation.

Ax Alisa Vinogradova, Vlad Vinogradov, Luba Greenwood, Ilya Yasny, Dmitry Kobyzev, Shoman Kasbekar, Kong Nguyen, Dmitrii Radkevich, Roman Doronin, Andrey Doronichev 8d ago

Hunt Globally: Wide Search AI Agents for Drug Asset Scouting in Investing, Business Development, and Competitive Intelligence

AI agent system for pharmaceutical drug asset scouting across global non-English channels to identify novel drug development opportunities via multi-source intelligence.

Ax Yunhua Zhong, Yixuan Tang, Yifan Li, Jie Yang, Pan Liu, Jun Xia 8d ago

FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics

FlexMS benchmark framework for evaluating deep learning mass spectrum prediction tools in metabolomics for drug discovery and molecular property identification.

Ax Jiahao Huang, Fengyan Lin, Xuechao Yang, Chen Feng, Kexin Zhu, Xu Yang, Zhide Chen 8d ago

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Nano-EmoX proposes three-level cognitive hierarchy (perception, understanding, interaction) for unified multimodal emotional intelligence in language models with empathy capabilities.

Ax Boqin Yuan, Yue Su, Kun Yao 8d ago

Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

Diagnostic framework for LLM agent memory systems comparing write strategies, retrieval methods, and utilization behavior to identify performance bottlenecks across memory components.

Ax Binxia Xu, Xiaoliang Luo, Luke Dickens, Robert M. Mok 8d ago

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Analyzes whether AI systems fail similarly to humans using error alignment metrics on out-of-distribution data to assess cognitive similarity and decision-making strategies.

Ax Luca Deck, Simeon Allmendinger, Lucas M\"uller, Niklas K\"uhl 8d ago

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-Agent AI

NormCoRe framework studies how norms emerge in multi-agent AI systems through deliberation and negotiation using replication-by-translation methodology for fairness-sensitive domains.

Ax Wenxuan Zhang, Lemeng Wu, Changsheng Zhao, Ernie Chang, Mingchen Zhuge, Zechun Liu, Andy Su, Hanxian Huang, Jun Chen, Chong Zhou, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Wei Wen 8d ago

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

dTRPO algorithm reduces trajectory probability calculation costs for policy optimization of diffusion-based LLMs, enabling scaled offline RL training for preference alignment.

Ax Nicolas Martorell, Bruno Bianchi 8d ago

Quantitative Introspection in Language Models: Tracking Emotive States Across Conversation

Method for tracking internal states of LLMs across conversations using self-report-inspired techniques for safety, interpretability, and model welfare without white-box compression.

Ax Diego Calvanese, Angelo Casciani, Giuseppe De Giacomo, Marlon Dumas, Fabiana Fournier, Timotheus Kampik, Emanuele La Malfa, Lior Limonad, Andrea Marrella, Andreas Metzger, Marco Montali, Daniel Amyot, Peter Fettke, Artem Polyvyanyy, Stefanie Rinderle-Ma, Sebastian Sardi\~na, Niek Tax, Barbara Weber 8d ago

Agentic Business Process Management: A Research Manifesto

Manifesto proposing Agentic Business Process Management (APM) framework extending BPM to govern autonomous agents executing organizational processes with agent-oriented abstractions.

Ax Fran\c{c}ois Pachet, Jean-Daniel Zucker 8d ago

Maximum Entropy Relaxation of Multi-Way Cardinality Constraints for Synthetic Population Generation

Maximum entropy methods for generating synthetic populations matching multi-way constraints from aggregate statistics, applied to microsimulation and privacy-preserving data release.

Ax Lijing Luo, Yiben Luo, Alexey Gorbatovski, Sergey Kovalchuk, Xiaodan Liang 8d ago

From Pixels to Digital Agents: An Empirical Study on the Taxonomy and Technological Trends of Reinforcement Learning Environments

Large-scale empirical study analyzing 2,000+ publications on reinforcement learning environments, proposing a taxonomy of RL environment evolution and technological trends.

Ax Silvia Rossi, Diletta Huyskes, Mackenzie Jorgensen 8d ago

Resisting Humanization: Ethical Front-End Design Choices in AI for Sensitive Contexts

Examines ethical front-end design choices in conversational AI systems, focusing on user interaction and representation rather than backend algorithmic issues.

Ax Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski 8d ago