Isolater - Feed

Ax Paolo Cupini, Francesco Pierri 22d ago

From Content to Audience: A Multimodal Annotation Framework for Broadcast Television Analytics

Multimodal LLM framework for annotating broadcast television content. Domain-specific application with limited general relevance.

Ax Sandro Andric 22d ago

Diversity Without Fidelity: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation Simulation

Study of LLM reasoning modes in multi-agent negotiation simulations. Examines behavior reproduction vs optimal solving in agent interactions.

Ax Zijie Zhao, Chenyuan Yang, Weidong Wang, Yihan Yang, Ziqi Zhang, Lingming Zhang 22d ago

AnyPoC: Universal Proof-of-Concept Test Generation for Scalable LLM-Based Bug Detection

LLM-based agent framework that generates proof-of-concept tests to validate bug detection reports. Combines agents with automated testing.

Ax Mofei Li, Taozhi Chen, Guowei Yang, Jia Li 22d ago

Learning from Execution: Self-Evolving Memory for Private-Library Code Generation

Self-evolving memory system for LLM-based code generation on private libraries using execution feedback. Improves code generation with enterprise context.

Ax Faith Wavinya Mutinda, Spandana Makeneni, Anna Lin, Shivaji Dutta, Irit R. Rasooly, Patrick Dibussolo, Shivani Kamath Belman, Hessam Shahriari, Kevin Murphy, Alex B. Ruan, Barbara H. Chaiyachati, Sanjay Chainani, Robert W. Grundmeier, Scott M. Haag, Jeffrey M. Miller, Heather M. Griffis, Ian M. Campbell 22d ago

Health System Scale Semantic Search Across Unstructured Clinical Notes

Semantic search system for clinical notes at health system scale using embeddings. LLM application but domain-specific healthcare focus.

Ax Jeffrey Flynt 22d ago

Structured Belief State and the First Precision-Aware Benchmark for LLM Memory Retrieval

Benchmark for LLM memory retrieval precision showing current evaluations mask severe precision failures through complete belief dumps.

Ax Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima 22d ago

Mathematical Reasoning in Large Language Models: Benchmarks, Architectures, Evaluation, and Open Challenges

Survey of mathematical reasoning in LLMs covering benchmarks, architectures, evaluation methods, and open challenges in the field.

Ax Yilong Li, Suman Banerjee, Tong Che 22d ago

Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning

Pass@K optimization research for code generation improving test-time compute allocation by coordinating diverse sampling instead of independent draws.

Ax Akshansh, Leonardo Rosa Rodrigues, Michael Korostelev, Youssef Hassan, Mark E. Whiting 22d ago

Trading Human Curation for Synthetic Augmentation in RLVR

Research on scaling reinforcement learning from verifiable rewards for agentic LLMs using synthetic task augmentation instead of human curation.

Ax Rohan N. Pradhan, Steve Goley 22d ago

Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation

Research showing LLMs fail to verify source quality during multi-source synthesis despite detecting fabrication in isolation.

Ax Eric Spencer, Arslan Bisharat, Brian Ortiz, Khushboo Bhadauria, Mujtaba Nazari, TaiNing Wang, George K. Thiruvathukal, Konstantin Laufer, Mohammed Abuhamad 22d ago

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

TLA-Prover: 20B parameter LLM trained via preference optimization to generate formally verifiable TLA+ specifications for distributed systems.

Ax Felix Neubauer, Mahdi Jafarkhani, Kenichi Endo, J\"urgen Pleiss, Benjamin Uekermann 22d ago

MetaConfigurator: AI-Assisted RDF Authoring from JSON Data

MetaConfigurator extends JSON Schema editor with RDF authoring for semantic interoperability in scientific workflow data.

Ax Varun Reddy Nalagatla 22d ago

The Signs Were Always There: Training-Free Concept Detection and Steering in Raw Transformer Dimensions

Training-free concept detection and steering in transformer models by analyzing sign patterns in raw transformer dimensions without learned dictionaries.

Ax Xhevahire T\"ernava 22d ago

Where Did the Variability Go? From Vibe Coding to Product Lines by Regeneration

Study analyzing variability loss in AI-generated code from LLM vibe coding, showing programs have minimal compile/runtime variability.

Ax Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid Khonji 22d ago

Polycepta: Object-Centric Appearance Estimation for Multi-Object Tracking

Polycepta improves multi-object tracking with dynamic object-centric appearance estimation to complement motion prediction.

Ax Anzhe Xie, Weihang Su, Jiaxin Mao, Yiqun Liu, Shaoping Ma, Qingyao Ai 22d ago

RWGBench: Evaluating Scholarly Positioning in Related Work Generation

RWGBench introduces benchmark for evaluating related work generation in academic papers using citation-level scholarly positioning metrics.

Ax Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang 22d ago

Can Trustless Agents Be Trusted? An Empirical Study of the ERC-8004 Decentralized AI Agent Ecosystem

Empirical study of ERC-8004 decentralized AI agent protocol, analyzing trust mechanisms in permissionless agent economies.

Ax Ce Chen, Congrui Wang, Yonglin Li, Zhenchen Wan, Mingyang Geng, Junhao Xiao, Zhengpeng Xing, Yaqing Hu, Yao Wu, Zhaoyang Qu, Long Lan, Xinwang Liu, Yingqi Peng, Shijia Li, Zufeng Zhang, Chen Ma, Jingjing Zhou, Xingyu Wang, Qilin Lu, Bin Jiang, Qilin Sun, Shanzhi Gu, Yaoguang Jin, Tongliang Liu, Kede Ma, Yifan Peng 22d ago

JuZhou 1.0 Technical Report: The First Edge-Native Text-to-Image Foundation Model Trained Entirely on China-Developed AI Accelerators

JuZhou 1.0 is ultra-lightweight text-to-image model designed for edge deployment and offline execution on China-developed AI accelerators.

Ax Dang Quang Thien Tran, Quang V. Dang, Vinamra Tyagi, Sai Soorya Rao Veeravalli, Trang Nguyen, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Koustava Goswami, Samyadeep Basu 22d ago

MultAttnAttrib: Training-Free Multimodal Attribution in Long Document Question Answering

MultAttnAttrib provides training-free multimodal attribution for long-document QA, improving interpretability and safety in AI assistants.

Ax Tianxing Chen, Yue Chen, Zixuan Li, Junyuan Tang, Kailun Su, Haoran Lu, Weijie Wan, Baijun Chen, Songling Liu, Haowen Yan, Honghao Su, Zhiyang Dou, Kaixuan Wang, Dandan Zhang, Yunze Liu, Yan Qin, Qiwei Liang, Qiwei Wu, Zijian Lin, Wenwei Lin, Yuran Wang, Minghua He, Tianshu Wu, Ruihai Wu, Jingquan Zhou, Kai-Chong Lei, Haibao Yu, Yuanfeng Ji, Weiyang Jin, Guanyu Lin, Xiaofan Li, Qi Xiong, Renjing Xu, Zhongyu Li, Wenhao Chai, Enze Xie, Ziwei Wang, Yao Mu, Hao Dong, Wojciech Matusik, Mingyu Ding, Wenbo Ding, Ping Luo, Masayoshi Tomizuka 22d ago

RoboDojo: A Unified Sim-and-Real Benchmark for Comprehensive Evaluation of Generalist Robot Manipulation Policies

RoboDojo provides unified sim-and-real benchmark for evaluating generalist robot manipulation policies across diverse tasks.

Ax Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, Wei Wang, Mengyang Feng, Junjie He, Chen-Wei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Yuxiang Bao, Yuzheng Wang, Zoubin Bi 22d ago

Wan-Streamer v0.2: Higher Resolution, Same Latency

Wan-Streamer v0.2 improves resolution of native-streaming audio-visual interaction model while maintaining 200ms latency.

Ax Haozhe Wang, Weijia Feng, Jinpeng Yu, Che Liu, Ping Nie, Fangzhen Lin, Jiaming Liu, Ruihua Huang, Jimmy Lin, Wenhu Chen, Cong Wei 22d ago

Search Beyond What Can Be Taught: Evolving the Knowledge Boundary in Agentic Visual Generation

SearchGen uses agentic visual generation with web search to overcome knowledge cutoff limitations in text-to-image models for open-ended user requests.

Ax Shiyuan Feng, Huan-ang Gao, Haohan Chi, Hanlin Wu, Zhilong Zhang, Zheng Jiang, Bingxiang He, Wei-Ying Ma, Ya-Qin Zhang, Hao Zhou 22d ago

Weak-to-Strong Generalization via Direct On-Policy Distillation

Weak-to-Strong Generalization enables cheaper RL post-training by running RL on small models then distilling to larger models for improved reasoning.

Ax Yihua Liu 22d ago

Think Before You Grid-Search: Floor-First Triage for LLM Serving

Floor-First Triage proposes analytical estimation methods for LLM serving optimization to replace grid-search approaches and improve latency profiling workflows.

Ax Yipeng Liu, Chang Liu, Si Shen, Jiaqi Zheng, Mingfan Li, Yuyang Yang, Guanhua Li, Yuquan Zhang, Yimeng Xu, Zhongzhe Hu, Zhiyuan Huang, Qihang Duan, Junsong Wang, Wenkai Ling, Baochuan Yang, Xianzhi Yu, Han Bao, Yijie Chen, Guihai Chen 22d ago

UBEP: Re-architecting Expert Parallelism Communication Library for Production Superpods

UBEP optimizes Mixture-of-Experts model communication on high-bandwidth superpods by addressing execution serialization and bandwidth bottlenecks in production deployments.

Ax Andrii Balashov, Olena Ponomarova 22d ago

TriRoute: Unified Learned Routing for Joint Adaptive Attention, Experts, and KV-Cache Allocation

TriRoute jointly optimizes attention resolution, expert selection, and KV-cache allocation in language models using learned routing to decouple model quality from per-token inference cost.

Ax Zongzhe Xu, Aakarsh Anand, Sarah Jiang, Chuntung Zhuang, Zitao Shuai, Sriram Sankararaman, Yuzhe Yang 22d ago

Inertia-1: An Open Exploration of Wearable Motion Foundation Models

Open-source foundation model for wearable motion sensing with comprehensive study of pretraining and scaling principles.

Ax Youcheng Zong, Runda Jia, Mingxuan Ren, Dakuo He 22d ago

LLM-Guided Task-Semantic Field Factorization for Industrial Process Forecasting

LLM-guided time-series forecasting approach leveraging process documentation for industrial soft sensing with scarce labeled data.

Ax Youcheng Zong, Runda Jia, Ranmeng Lin, Mingxuan Ren, Dakuo He 22d ago

Open-Ended Scenario Reasoning for Specialist Model Adaptation

Method for adapting specialist industrial models to new scenarios using LLM-guided reasoning without parameter modification.

Ax Melika Honarmand, Samin Mahdipour Aghabagher, Martin Schrimpf 22d ago

Reward Valuation in Vision Language Models: Causal Mechanisms Underlying Anhedonia

Mechanistic study of reward valuation in vision-language models linked to anhedonia assessment from clinical psychology.

Ax Stephen Mussmann 22d ago

The Approximation Ratio for the Risk of Myopic Bayesian Active Learning for Linear Regression

Approximation ratio analysis for greedy algorithm in myopic Bayesian active learning for linear regression with tight bounds.

Ax Iman Seyedi, Francesco Archetti 22d ago

Diffusion enabled Optimal Transport distances for graph matching

DsrFGW: Optimal transport method for graph matching combining node features and structure via diffusion-inspired approach for sparse/noisy graphs.

Ax Hengyu Jin, Shu Yang, Di Wang 22d ago

Final Checkpoints Are Not Enough: Analyzing Latent Reasoning Faithfulness Along Training Trajectories

Analysis of latent reasoning faithfulness in hidden state reasoning across training trajectories, showing unfaithful behaviors beyond converged checkpoints.

Ax Quoc Bao Phan, Tuy Tan Nguyen 22d ago

Entropy-Guided Tensor Compression for Multimodal Federated Learning on Edge Devices

MESH-FL: Entropy-guided tensor compression for multimodal federated learning on edge devices accounting for modality-specific spectral differences.

Ax Niels Cariou-Kotlarek, Vasileios Lampos 22d ago

From Jumps to Signatures: a Generative Method for Temporal Point Processes

Generative method for temporal point processes using rough path signatures as feature maps, addressing sequence-level evaluation limitations.

Ax Kien Le, Joseph Lindley, Quoc Bao Phan, Tuy Tan Nguyen 22d ago

Dual Attention Heads for Personalized Federated Learning in ECG Classification

FedDualAtt: Personalized federated learning for ECG classification using split transformer attention heads with global and local branches.

Ax Yewon Byun, Bryan Wilder 22d ago

Robust Human-AI Complementarity under Uncertainty

Study on human-AI complementarity under asymmetric information, analyzing when human decision makers fail to realize gains from ML model augmentation.

Ax Xiaolong Huang, Benjamin Th\'erien, James Harrison, Eugene Belilovsky 22d ago

Efficient Long-Horizon Learning for Learned Optimization

Meta-learning approach for learned optimizers that efficiently scales to long-horizon inner problems, improving upon hand-designed optimizers like Adam.

Ax Sina Aghaee Dabaghan Fard, Marie Maros, Jaesung Lee 22d ago

Efficient Bayesian Deep Ensembles via Analytic Predictive Inference

Bayesian deep ensemble method for predictive regression combining statistical rigor with scalability and calibrated uncertainty estimates.

Ax Javidan Abdullayev, Maxime Devanne, Jonathan Weber, Germain Forestier 22d ago

Enhancing deep learning models for time series classification via knowledge distillation

Knowledge distillation for time series classification, transferring knowledge from large teacher to efficient student model for resource-limited environments.

Ax Robert Richardson 22d ago

What Predicts Correctness in Text-to-SQL? A Selective-Prediction Study

Analysis of signals predicting correctness in text-to-SQL generation using self-consistency and schema-relevance metrics on BIRD and Spider benchmarks.

Ax Yi\u{g}it Berkay Uslu, Samar Hadou, Sergio Rozada, Shirin Saeedi Bidokhti, Alejandro Ribeiro 22d ago

Generative Diffusion Models of Stochastic Graph Signals

Generative diffusion models for sampling stochastic signals on graphs, applied to recommender systems and financial forecasting.

Ax Tolgay Atinc Uzun, Waleed Khalid, Saif U Din, Sai Revanth Mulukuledu, Akashdeep Singh, Chandini Vysyaraju, Raghuvir Duvvuri, Avi Goyal, Yashkumar Rajeshbhai Lukhi, Muhammad A. Hussain, Krunal Jesani, Usha Shrestha, Yash Mittal, Roman Kochnev, Pritam Kadam, Mohsin Ikram, Harsh R. Moradiya, Alice Arslanian, Dmitry Ignatov, Radu Timofte 22d ago