Isolater - Feed

HN matt_d 19d ago

Formally Verifying AI-Generated GPU Kernels

Gimlet uses formal verification to validate AI-generated GPU kernels. Research system complementing numeric tests with theorem proving.

HN juggy69 19d ago

Paranoid LLMs

Analysis of overly-cautious code generation patterns in LLMs and their impact on code quality.

HN rickye26 19d ago

Show HN: R3 – A Local Code Review Tool for You and Your AI Agent

R3 is a local web UI for structured code review of AI agent outputs. Tracks feedback across document sections.

Ax Avinash Kumar 19d ago

Context Graphs for Proactive Enterprise Agents

Research on proactive enterprise agents using Context Graphs for RAG systems that surface relevant information without explicit user queries.

Ax Mihnea C. Moldoveanu, Joel A. C. Baum 19d ago

Adversarial Social Epistemology for Assemblies of Humans and Large Language Models

Research on adversarial social epistemology for interactive systems with humans and LLMs, addressing information distortion and trust in testimonial chains.

Ax Qi Peng, Jiatong Li, Sirui Huang, Yiyang Jiang, Kaisong Gong, Ronger Ding, Shijie Ye, Changmeng Zheng, Yi Cai, Xiaobo Yang, Jin Huang, Xiao-Yong Wei, Qing Li 19d ago

Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning

Survey of LLMs for clinical reasoning and medical applications, connecting clinical practice with computational methods using Miller's Pyramid.

Ax Gwydion Williams, Sara Zannone, Bilal A Mateen 19d ago

Alignment Plausibility: A New Standard for Assuring AI in Healthcare

Framework for assessing alignment of LLMs in mental health applications, addressing safety risks beyond acute harms.

Ax Zuming Huang, Jun Huang, Kexuan Ren, Baode Wang, Weizhen Li, Jianming Feng, Yu Wang, Yichen Yao, Shijun Lin, Yige Tang, Cheng Peng, Weidi Xu, Wei Chu, Yinghui Xu, Yuan Qi 19d ago

Infinity-Parser2 Technical Report

Infinity-Parser2 is a multimodal model using controllable data synthesis and reinforcement learning for document parsing with open-sourced training data.

Ax Ryan Duke 19d ago

VectorizationLLM: Smart Vectorization Based AI Assistant

VectorizationLLM: Custom LLM for teaching vectorization and mathematical analysis concepts in MATLAB for electrical engineering coursework.

Ax Robert Richardson, Josh Meyers, Brian Hartman, David Sandberg 19d ago

Agentic AI and Retrieval-Augmented Models in Straight-Through Underwriting

Application of agentic AI, RAG, and multi-agent systems to actuarial underwriting, spanning rule-based automation to LLM-driven planning and tool use.

Ax Benjamin Poole, Minwoo Lee 19d ago

Feedback Manipulation Regularization: Enabling Offline Agent Alignment for Imitation Learning

Feedback Manipulation Regularization: Offline agent alignment technique combining human demonstrations and feedback for improved imitation learning.

Ax Gospel Bassey, Vincent Fakiyesi 19d ago

Nigeria Machinery: A Low-Resource Industrial Dataset with a Domain-Grounded Reasoning Layer

Nigeria Machinery Dataset: 89 industrial machinery records from Nigerian manufacturing/oil sectors with domain-grounded reasoning layer for low-resource analysis.

Ax Luke Baines, Anton Gonzalvez Hawthorne, Mariia Koroliuk, Irakli Shalibashvili, Cl\'ement Dumas, Konstantinos Voudouris, David Demitri Africa 19d ago

Persona Cartography: Charting Language Model Personality Traits in Weight Space

Persona Cartography: Method for decomposing and controlling LLM personalities using OCEAN framework and low-rank adapters on weight space.

Ax Seokhoon Jeong, Mijung Kim, Taehwan Kim 19d ago

Agentic Neural Architecture Search

Agentic Neural Architecture Search: Method bridging LLM-driven open-ended architecture design with NAS-driven optimization for automated model search.

Ax Changhun Lee, Minguk Jeon, Jongkyung Shin, Chiehyeon Lim 19d ago

Concretized Proposition Prompting Resolves Composition-Knowledge Dichotomy in Large Language Models

Concretized Proposition Prompting (CPP): Framework improving LLM reasoning by explicitly grounding propositions, balancing compositionality and knowledge.

Ax Joongho Ahn, Moonsoo Kim 19d ago

From Prompts to Contracts: Harness Engineering for Auditable Enterprise LLM Agents

Harness engineering approach for productionizing LLM agents: moving behavior from prompts to deterministic code, schemas, and validation for auditability.

Ax Fan Ma, Mauro Giuffr\`e, Donald Wright, Kent McCann, Mark Iscoe, Lingfei Qian, Mingyang Jiang, Chi Wing Ng, Na Hong, Huan He, Cathy Shyr, Qingyu Chen, Lee Schwamm, Lucila Ohno-Machado, Hua Xu 19d ago

A safety-oriented hypothetico-deductive framework for AI-assisted differential diagnosis

AegisDx: Safety-oriented framework for AI-assisted medical diagnosis using coordinated LLM components with structured reasoning and verification mechanisms.

Ax Kaihua Ding 19d ago

When LLMs Agree, Are They Right? Auditing Self-Consistency and Cross-Model Agreement as Confidence Signals

Empirical analysis showing agreement among LLM judges does not reliably indicate correctness, challenging assumptions in ensemble LLM evaluation systems.

Ax Jennifer Za, Julija Bainiaksina, Nikita Ostrovsky, Tanush Chopra, Victoria Krakovna 19d ago

Persuasion Attacks Can Decrease Effectiveness of CoT Monitoring

Study on adversarial persuasion attacks against chain-of-thought monitoring in LLM agents, demonstrating vulnerability of safety mechanisms.

Ax Andrej Leban, Yuekai Sun 19d ago

CausalDS: Benchmarking Causal Reasoning in Data-Science Agents

CausalDS: Benchmark for evaluating causal reasoning in LLM-based data-science agents combining abstract reasoning with tool use on realistic data analysis tasks.

Ax Jakob Suchan, Julius Monsen, Salim Baloch, Mehul Bhatt 19d ago

Answer Set Programming Energised! End-to-End Neurosymbolic Reasoning and Learning with ASP and Energy Based Models

Neurosymbolic methodology integrating answer set programming with energy-based models for joint optimization, reasoning, and learning with background knowledge.

Ax Jack Hopkins, Dipika Khullar, Fabien Roger 19d ago

Overthinking: Amplifying Reasoning Weights to Extract Learned Secrets

Overthinking technique: Using reasoning task vectors to amplify latent reasoning in language models for improved auditing and elicitation of hidden information.

Ax Sohrab Namazi Nia, Amogh Dalal, Ning Sa, Peter Ly, Marti Zentmaier, Tomek Strzalkowski, Jay Miller, Rishi Singh, Senjuti Basu Roy 19d ago

ASMR: Agentic Schema Generation for Ship Maintenance Report Writing

ASMR: Multi-agent framework for automatic schema discovery from ship maintenance reports using field extraction and semantic analysis agents.

Ax Hongkang Yang, Zhi-Qin John Xu, Feiyu Xiong, Weinan E 19d ago

A First-Principles Theory of Slow Thinking and Active Perception

Mathematical formulation of slow thinking and active perception in cognitive systems, with applications to training reasoning-capable large language models.

Ax Sophia Koehler, Antonia W\"ust, Inga Ibs, Wasu Top Piriyakulkij, Wolfgang Stammer, Constantin Rothkopf, Kevin Ellis, Kristian Kersting 19d ago

Playing ZendoWorld: Challenging AI Agents on Active Visual Concept Induction

ZendoWorld: A benchmark environment for testing AI agents on visual concept induction, hypothesis formation, and active experimentation through game observation.

Ax Miseong Shawn Kim 19d ago

Compete Then Collaborate: Frontier AI Teachers Build a Verifiable Curriculum to Improve a Coding Student Beyond Imitation

Framework for multi-teacher knowledge distillation where frontier LLM teachers compete via execution-based judge, then collaborate to create verifiable curriculum for training coding student models.

Ax Yuming Yang, Xiao Sun, Yuanwei Zou, Zhengxiao Wu, Yun Chen, Jiang Zhong, Haoyang Zeng, Jingwang Huang, Kaiwen Wei 19d ago

MentalHospital: A Virtual Environment for Evaluating Psychiatric Clinical Encounters

MentalHospital benchmark for evaluating LLM performance on complete psychiatric clinical encounters beyond isolated tasks, covering interviewing, examination, assessment, and planning.

Ax Vinay Kumar Chaganti 19d ago

Different Teachers, Different Capabilities: Sub-1B On-Device Distillation for Structured Text Enrichment

Knowledge distillation study measuring performance of sub-1B on-device models trained from 8B reasoning teacher for structured text extraction tasks, analyzing per-subtask capability transfer.

Ax Ying Liu, Yi Ye, Quanyu Feng, Mingxi Ye, Mingtao Zhang, Haoyang Li, Chen Jason Zhang, Qing Li 19d ago

PolyUQuest: Verifiable Structure-Aware Web RAG over Heterogeneous Graphs

PolyUQuest framework for structure-aware RAG over web content using heterogeneous graphs that preserve HTML structure, DOM hierarchy, and entity relations for improved retrieval.

Ax Siddhartha Jain, Ameya Velingker 19d ago

Understanding Axes of Difficulty For Long Context Tasks Via PredicateLongBench

PredicateLongBench benchmark systematically evaluates LLM long-context capabilities across difficulty axes, addressing limitations of existing benchmarks like NIAH that only measure average-case performance.

Ax Marcos Economides, Paul M. Sacher, Samuel Salzer, Alexis Michelle Abellar, Fendi Tsim, Antoine Ferr\`ere 19d ago

Psychological Competence as a Missing Dimension in AI Evaluation

Proposes psychological competence as missing evaluation dimension for AI systems used as advisors, coaches, and tutors.

Ax Logine M. Zaki, Catherine M. Elias 19d ago

INTENT: An LSTM Framework for Vehicle Intention Prediction in Intersection Scenarios with Comprehensive Ablation Analysis

LSTM framework for vehicle intention prediction in intersections with comprehensive ablation analysis for autonomous driving.

Ax Matteo Santelmo, Xiuying Wei, Israa Fakih, Felix Bauer, Juan Garcia Giraldo, Chengkun Li, Etienne Bamas, Emmanuel Abb\'e 19d ago

Blind-Spots-Bench: Evaluating Blind Spots in Multimodal Models

Benchmark exposing blind spots in multimodal models on tasks humans find trivial, evaluating failure modes beyond established benchmarks.

Ax Rongchao Xu, Lin Jiang, Dahai Yu, Ximiao Li, Taichi Liu, Desheng Zhang, Yuan Tian, Guang Wang 19d ago

MobiDiff: Semantic-Aware Multi-Channel Discrete Diffusion for Human Mobility Data Generation

Semantic-aware discrete diffusion model generating realistic human mobility data while preserving privacy and discrete events.

Ax Lingyu Qiu, Daniela Annunziata, Stefano Izzo, Fabio Giampaolo, Francesco Piccialli 19d ago

FedOPAL: One-Shot Federated Learning via Analytic Visual Prompt Tuning

One-shot federated learning approach using analytic visual prompt tuning to minimize communication bandwidth in edge deployment.

Ax Lu Dai, Ziyang Rao, Yili Wang, Hanqing Wang, Hao Liu, Hui Xiong 19d ago

Towards Mechanistically Understanding Why Memorized Knowledge Fails to Generalize in Large Language Model Finetuning

Studies mechanistic reasons why memorized knowledge fails to generalize in LLM fine-tuning, characterizing the knowing-using gap.

Ax Runzhe Liu, Biquan Bie, Zihao Wang, Yuchao Ma, Yexin Liu, Xinghai Li, Harry Yang, Wenbo Yang, Jinzhe Cao, Shengyang Tao 19d ago

Game Theory Driven Multi-Agent Framework Mitigates Language Model Hallucination

Multi-agent framework integrating game theory and Bayesian principles to reduce LLM hallucinations in rule-based scientific domains.

Ax Qian Jiang, Zhecheng Shi, Jingpu Yang, Zirui Song, Miao Fang 19d ago

OmniFood-Bench: Evaluating VLMs for Nutrient Reasoning and Personalized Health Advice

Benchmark evaluating vision-language models on nutrient reasoning and personalized health advice addressing information asymmetry in food systems.

Ax Javier Izquierdo, Aygul Zagidullina 19d ago

Applying JEPA-Style Predictive Learning to JA4-Derived Network Fingerprints

Applies JEPA-style predictive learning to JA4 network fingerprints using Transformer model on cybersecurity data.

Ax Bharathwaj Vijayakumar, Sahana K. Varadaraju 19d ago

Drift-Aware Temporal Graph Rewiring (DATGR) for Adaptive Semantic Modeling in Biomedical Text

Drift-aware temporal graph framework capturing semantic evolution in biomedical text for improved retrieval and knowledge discovery.

Ax Kushin Mukherjee, Na Yeon Kim, Maren Wehrheim, Ralph Adolphs, Kohitij Kar 19d ago

AI-guided stimuli discovery and generation to optimize facial emotion perception studies in autism

AI-guided stimulus discovery and generation to optimize facial emotion perception studies in autism research.

Ax Adis Alihodzic, Selma Skopljakovic Hubljar 19d ago

SHAP-Weighted Cross-Modal Expert Fusion for Emotion and Sentiment Recognition: Evidence and Limits

XAI-guided adaptive fusion method combining unimodal and cross-modal experts for emotion and sentiment recognition.

Ax Peng Cui, Jitao Wang, Siyan Xue, Yao Huang, Haoming Xia, Dong Li, Dengxiang Liu, Weilin Wang, Liping Liu, Leida Zhang, Yunfu Cui, Tao Peng, Daolin Ji, Haitao Zhao, Wei Zhang, Xiaojuan Wang, Weijie Ma, Zongren Ding, Jinlong Li, Yuan Ding, Jiajing Zhao, Zhiyu Chen, Chengkun Yang, Ziyue Huang, Jiaqi Liu, Fusheng Liu, Yang Zhou, Xiaojuan Wang, Zhongquan Sun, Shiyun Bao, Xiaojun Wang, Ming Yang, Guangxin Li, Bin Shu, Yong Liao, Hongxuan Li, Yao Tang, Shizhong Yang, Yongyi Zeng, Yufeng Yuan, Yinpeng Dong, Jihui Hao, Jun Zhu, Jiahong Dong 19d ago

Towards Precision Therapy in Hepatocellular Carcinoma: A Clinical-Reasoning LLM for Risk Stratification and Treatment Guidance

Clinical-reasoning LLM for hepatocellular carcinoma risk stratification and treatment guidance from EMR narratives.

Ax Jo\~ao Matos, Olivia Buege, Donny Cheung, Gary S. Collins, Paula Dhiman, Nan Li, Bingyu Mao, Benjamin W. Nelson, Michail Ouroutzoglou, Paul Varghese, Jonathan Amar 19d ago