Li, Sharon

20 publications

ICLR 2026 Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection Yongxin Deng, Zhen Fang, Sharon Li, Ling Chen

ICLR 2026 General Exploratory Bonus for Optimistic Exploration in RLHF Wendi Li, Changdae Oh, Sharon Li

ICLR 2026 How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability Shawn Im, Changdae Oh, Zhen Fang, Sharon Li

ICLR 2026 Hybrid Reinforcement: When Reward Is Sparse, Better to Be Dense Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Sharon Li, Jason E Weston, Ping Yu

ICLR 2026 KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning Yinyi Luo, Zhexian Zhou, Hao Chen, Kai Qiu, Marios Savvides, Sharon Li, Jindong Wang

ICLR 2026 LH-DECEPTION: Simulating and Understanding LLM Deceptive Behaviors in Long-Horizon Interactions Yang Xu, Xuanming Zhang, Samuel Yeh, Jwala Dhamala, Ousmane Dia, Rahul Gupta, Sharon Li

ICLR 2026 LUMINA: Detecting Hallucinations in RAG System with Context–Knowledge Signals Samuel Yeh, Sharon Li, Tanwi Mallick

ICLR 2026 Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding Lin Long, Changdae Oh, Seongheon Park, Sharon Li

TMLR 2026 Unsupervised Domain Adaptation for Binary Classification with an Unobservable Source Subpopulation Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Sharon Li, Jiwei Zhao

NeurIPS 2025 Can DPO Learn Diverse Human Values? a Theoretical Scaling Law Shawn Im, Sharon Li

NeurIPS 2025 Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment Samuel Yeh, Sharon Li

NeurIPS 2025 Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? Hyeong Kyu Choi, Jerry Zhu, Sharon Li

NeurIPS 2025 GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity Seongheon Park, Sharon Li

NeurIPS 2025 GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Sharon Li

NeurIPS 2025 Harnessing Feature Resonance Under Arbitrary Target Alignment for Out-of-Distribution Node Detection Shenzhi Yang, Junbo Zhao, Sharon Li, Shouqing Yang, Dingyu Yang, Xiaofang Zhang, Haobo Wang

NeurIPS 2025 Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis Leitian Tao, Xuefeng Du, Sharon Li

NeurIPS 2025 MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems Xuanming Zhang, Yuxuan Chen, Samuel Yeh, Sharon Li

NeurIPS 2025 Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders James Oldfield, Shawn Im, Sharon Li, Mihalis Nicolaou, Ioannis Patras, Grigorios Chrysos

NeurIPS 2025 Visual Instruction Bottleneck Tuning Changdae Oh, Jiatong Li, Shawn Im, Sharon Li

NeurIPS 2025 Your Pre-Trained LLM Is Secretly an Unsupervised Confidence Calibrator Beier Luo, Shuoyuan Wang, Sharon Li, Hongxin Wei