Chung-En Sun | Personal Website

About Me

I am a Ph.D. student in Computer Science at the University of California, San Diego, advised by Prof. Tsui-Wei (Lily) Weng. My research focuses on the robustness, safety, and interpretability of Large Language Models. Recently, I have been exploring how the hidden representations of reasoning and agentic LLMs shape their behaviors. Feel free to reach out if you're interested in collaboration, discussion, or have any questions!

Education

University of California, San Diego — Ph.D. in Computer Science (2023 - Present)
University of California, San Diego — M.S. in Computer Science (2021 - 2023)
National Taiwan University — B.S. in Electrical Engineering (2016 - 2020)

News

2026/7/8 Our papers ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability and ReflCtrl: Controlling LLM Reflection via Representation Engineering have been accepted to COLM 2026!
2026/6/5 I have a new paper on the LLM agent safety: The Cold-Start Safety Gap in LLM Agents
2026/5/12 I have a new paper on studying when LLM agents tool-call decisions: LLM Agents Already Know When to Call Tools -- Even Without Reasoning
2026/3/26 I serve as one of the area chairs for CVPR 2026 TRUE-V Workshop.
2026/2/12 I have a new paper on how to perform training-free weight-editing given a steering vector: Steer2Edit: From Activation Steering to Component-Level Editing
2026/2/6 I serve as one of the area chairs for ICLR 2026 Trustworthy AI Workshop: Principled Design for Trustworthy AI - Interpretability, Robustness, and Safety across Modalities.
2025/10/12 I have a new paper on Training Trustworthy Large Reasoning Models: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
2025/8/20 My paper ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models has been accepted to EMNLP 2025 Main Conference!
2025/6/7 I will serve as one of the program chairs for ICCV2025 T2FM Workshop: Building Foundation Models You Can Trust. Please check out our website for more information!
2025/4/21 My paper Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities has been selected as the research focus on Microsoft Research Blog.

Publications

Preprints

The Cold-Start Safety Gap in LLM Agents [code] [project website] [dataset] [judge model]
Chung-En Sun, Linbo Liu, Tsui-Wei Weng.
arXiv 2026.

LLM Agents Already Know When to Call Tools -- Even Without Reasoning [code] [project website] [dataset]
Chung-En Sun, Linbo Liu, Ge Yan, Zimo Wang, Tsui-Wei Weng.
arXiv 2026.

Steer2Edit: From Activation Steering to Component-Level Editing [code]
Chung-En Sun, Ge Yan, Zimo Wang, Tsui-Wei Weng.
arXiv 2026.

Distance Marching for Generative Modeling
Zimo Wang, Ishit Mehta, Haolin Lu, Chung-En Sun, Ge Yan, Tsui-Wei Weng, Tzu-Mao Li.
arXiv 2026.

Accepted Conference Papers

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [code]
Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng.
COLM 2026.

ReflCtrl: Controlling LLM Reflection via Representation Engineering
Ge Yan, Chung-En Sun, Tsui-Wei Weng.
COLM 2026.

ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [code]
Chung-En Sun, Ge Yan, Tsui-Wei Weng.
EMNLP 2025 Main.

Concept Bottleneck Large Language Models [code]
Chung-En Sun, Tuomas Oikarinen, Berk Ustun, Tsui-Wei Weng.
ICLR 2025.

Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [code] [featured @ Microsoft Research Blog]
Chung-En Sun, Xiaodong Liu, Weiwei Yang, Tsui-Wei Weng, Hao Cheng, Aidan San, Michel Galley, Jianfeng Gao.
NAACL 2025 Main Oral.

Interpretable Generative Models through Post-hoc Concept Bottlenecks
Akshay Kulkarni, Ge Yan, Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng.
CVPR 2025.

Effective Skill Unlearning through Intervention and Abstention
Yongce Li, Chung-En Sun, Tsui-Wei Weng.
NAACL 2025 Main.

Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents [code]
Chung-En Sun, Sicun Gao, Tsui-Wei Weng.
ICML 2024.

Melody harmonization using orderless NADE, chord balancing, and blocked Gibbs sampling
Chung-En Sun, Yi-Wei Chen, Hung-Shin Lee, Yen-Hsing Chen, Hsin-Min Wang.
ICASSP 2021.

Accepted Workshop Papers

How to Make LLMs Safer? Detecting and Editing Key Heads in LLMs
Kuan-Lin Chu, Chung-En Sun, Tsui-Wei Weng.
NeurIPS Lock-LLM Workshop 2025.

FoCus: Improving Faithfulness in Chain-of-Thoughts by Training on Structured Reasoning Data
Guan-Yi Lin, Chung-En Sun, Tsui-Wei Weng.
NeurIPS MATH-AI Workshop 2025.

Crafting Large Language Models for Enhanced Interpretability
Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng.
ICML MI Workshop 2024.

Fooling GPT with Adversarial In-Context Examples for Text Classification
Sudhanshu Ranjan, Chung-En Sun, Linbo Liu, Tsui-Wei Weng.
NeurIPS R0-FoMo Workshop 2023.

NTIRE 2020 Challenge on NonHomogeneous Dehazing
Codruta O. Ancuti, Cosmin Ancuti, ..., Chung-En Sun, ..., Murari Mandal.
CVPR Workshop 2020.

Experience

Work Experience

Amazon — Applied Scientist Intern, Amazon AGI (Jun. 2026 - Sep. 2026)
Microsoft — Research Intern, Microsoft Research (Jun. 2024 - Sep. 2024)
Academia Sinica, Taiwan — Research Intern, Institute of Information Science (Jul. 2019 - Aug. 2019)

Academic Service

Program Chair — ICCV 2025 Workshop T2FM
Area Chair — ICLR 2026 Workshop Trustworthy AI, CVPR 2026 TRUE-V Workshop
Reviewer — ICML 2026, NeurIPS 2025, ICLR {2025,2026}, EMNLP 2026
CVPR 2025 Workshop MIV, ICCV 2025 Workshop T2FM, NeurIPS 2025 Workshop {MI, MATH-AI}, ICLR 2026 Workshop Trustworthy-AI