Chung-En Sun | Personal Website

About Me

I am a Ph.D. student in Computer Science at the University of California, San Diego, advised by Prof. Tsui-Wei (Lily) Weng. My research focuses on the robustness, safety, and interpretability of Large Language Models. Recently, I have been exploring how the hidden representations of reasoning models influence their reasoning capabilities. Feel free to reach out if you're interested in collaboration, discussion, or have any questions!

Education

University of California, San Diego — Ph.D. in Computer Science (2023 - Present)
University of California, San Diego — M.S. in Computer Science (2021 - 2023)
National Taiwan University — B.S. in Electrical Engineering (2016 - 2020)

News

2025/10/12 I have a new paper on Training Trustworthy Large Reasoning Models: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
2025/8/20 My paper ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models has been accepted to EMNLP 2025 Main Conference!
2025/6/7 I will serve as one of the program chairs for ICCV2025 T2FM Workshop: Building Foundation Models You Can Trust. Please check out our website for more information!
2025/4/21 My paper Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities has been selected as the research focus on Microsoft Research Blog.

Publications

Preprints

>>ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability[code]
Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng.
arXiv 2025.

>>ReflCtrl: Controlling LLM Reflection via Representation Engineering
Ge Yan, Chung-En Sun, Tsui-Wei Weng.
NeurIPS MI Workshop 2025.

>>How to Make LLMs Safer? Detecting and Editing Key Heads in LLMs
Kuan-Lin Chu, Chung-En Sun, Tsui-Wei Weng.
NeurIPS Lock-LLM Workshop 2025.

>>FoCus: Improving Faithfulness in Chain-of-Thoughts by Training on Structured Reasoning Data
Guan-Yi Lin, Chung-En Sun, Tsui-Wei Weng.
NeurIPS MATH-AI Workshop 2025.

Accepted Papers

>>ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models[code]
Chung-En Sun, Ge Yan, Tsui-Wei Weng.
EMNLP 2025 main.

>>Concept Bottleneck Large Language Models[code]
Chung-En Sun, Tuomas Oikarinen, Berk Ustun, Tsui-Wei Weng.
ICLR 2025.

>>Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities[code][featured @ Microsoft Research Blog]
Chung-En Sun, Xiaodong Liu, Weiwei Yang, Tsui-Wei Weng, Hao Cheng, Aidan San, Michel Galley, Jianfeng Gao.
NAACL 2025 Main Oral.

>>Interpretable Generative Models through Post-hoc Concept Bottlenecks
Akshay Kulkarni, Ge Yan, Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng.
CVPR 2025.

>>Effective Skill Unlearning through Intervention and Abstention
Yongce Li, Chung-En Sun, Tsui-Wei Weng.
NAACL 2025 Main.

>>Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents[code]
Chung-En Sun, Sicun Gao, Tsui-Wei Weng.
ICML 2024.

>>Crafting Large Language Models for Enhanced Interpretability
Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng.
ICML MI Workshop 2024.

>>Fooling GPT with Adversarial In-Context Examples for Text Classification
Sudhanshu Ranjan, Chung-En Sun, Linbo Liu, Tsui-Wei Weng.
NeurIPS R0-FoMo Workshop 2023.

>>Melody Harmonization Using Orderless NADE
Chung-En Sun, Yi-Wei Chen, Hung-Shin Lee, Yen-Hsing Chen, Hsin-Min Wang.
ICASSP 2021.

>>NTIRE 2020 Challenge on NonHomogeneous Dehazing
Ju-Chin Chao, Tsung-Shan Yang, Peng-Wen Chen, Po-Min Hsu, Tzu-Yi Liao, Chung-En Sun, Pei-Yuan Wu.
CVPR Workshop 2020.

Experience

Work Experience

Microsoft Research — Research Intern (Jul. 2024 - Sep. 2024)
Academia Sinica, Taiwan — Research Intern (Jul. 2019 - Aug. 2019)