Yang Zhang (张阳)

My publication list can also be found at DBLP and Google Scholar, however, they may not be up to date.

2026

SL-CBM: Enhancing Concept Bottleneck Models with Semantic Locality for Better Interpretability

Hanwei Zhang, Luo Cheng, Rui Wen, Yang Zhang, Lijun Zhang, Holger Hermanns; AAAI 2026 (oral)

pdf arxiv code

2025

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

Yukun Jiang, Mingjie Li, Michael Backes, Yang Zhang; NeurIPS 2025

pdf arxiv code

Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms

Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang; NeurIPS 2025

pdf arxiv code

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification

Boyang Zhang, Yicong Tan, Yun Shen, Ahmed Salem, Michael Backes, Savvas Zannettou, Yang Zhang; EMNLP 2025

pdf arxiv

Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions

Yiting Qu, Ziqing Yang, Yihan Ma, Michael Backes, Savvas Zannettou, Yang Zhang; ICCV 2025

pdf arxiv code

UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang; CCS 2025

pdf arxiv code dataset

Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities

Yiting Qu, Michael Backes, Yang Zhang; USENIX Security 2025

pdf arxiv code

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

Rui Wen, Yiyong Liu, Michael Backes, Yang Zhang; USENIX Security 2025

pdf arxiv

HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns

Xinyue Shen, Yixin Wu, Yiting Qu, Michael Backes, Savvas Zannettou, Yang Zhang; USENIX Security 2025

pdf arxiv code

From Meme to Threat: On the Hateful Meme Understanding and Induced Hateful Content Generation in Open-Source Vision Language Models

Yihan Ma, Xinyue Shen, Yiting Qu, Ning Yu, Michael Backes, Savvas Zannettou, Yang Zhang; USENIX Security 2025

pdf arxiv code

On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts

Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang; USENIX Security 2025

pdf arxiv code

Synthetic Artifact Auditing: Tracing LLM-Generated Synthetic Data Usage in Downstream Applications

Yixin Wu, Ziqing Yang, Yun Shen, Michael Backes, Yang Zhang; USENIX Security 2025

pdf arxiv code

Dayong Ye, Tianqing Zhu, Shang Wang, Bo Liu, Leo Yu Zhang, Wanlei Zhou, Yang Zhang; USENIX Security 2025

pdf arxiv code

Data Duplication: A Novel Multi-Purpose Attack Paradigm in Machine Unlearning

Dayong Ye, Tianqing Zhu, Jiayang Li, Kun Gao, Bo Liu, Leo Yu Zhang, Wanlei Zhou, Yang Zhang; USENIX Security 2025

pdf arxiv code

Enhanced Label-Only Membership Inference Attacks with Fewer Queries

Hao Li, Zheng Li, Siyuan Wu, Yutong Ye, Min Zhang, Dengguo Feng, Yang Zhang; USENIX Security 2025

pdf arxiv code

Membership Inference Attacks Against Vision-Language Models

Yuke Hu, Zheng Li, Zhihao Liu, Yang Zhang, Zhan Qin, Kui Ren, Chun Chen; USENIX Security 2025

pdf arxiv code

Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

Atilla Akkus, Masoud Poorghaffar Aghdam, Mingjie Li, Junjie Chu, Michael Backes, Yang Zhang, Sinem Sav; USENIX Security 2025

pdf arxiv code

On the Generalization Ability of Machine-Generated Text Detectors

Yule Liu, Zhiyuan Zhong, Yifan Liao, Zhen Sun, Jingyi Zheng, Jiaheng Wei, Qingyuan Gong, Fenghua Tong, Yang Chen, Yang Zhang, Xinlei He; KDD 2025

pdf arxiv

JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs

Junjie Chu, Yugeng Liu, Ziqing Yang, Xinyue Shen, Michael Backes, Yang Zhang; ACL 2025 (oral)

pdf arxiv code

When GPT Spills the Tea: Comprehensive Assessment of Knowledge File Leakage in GPTs

Xinyue Shen, Yun Shen, Michael Backes, Yang Zhang; ACL 2025

pdf arxiv code

Zhen Sun, Zongmin Zhang, Xinyue Shen, Ziyi Zhang, Yule Liu, Michael Backes, Yang Zhang, Xinlei He; ACL 2025

pdf arxiv code

White-box Membership Inference Attacks against Diffusion Models

Yan Pang, Tianhao Wang, Xuhui Kang, Mengdi Huai, Yang Zhang; PoPETS 2025

pdf arxiv

A Comprehensive Study of Privacy Risks in Curriculum Learning

Joann Qiongna Chen, Xinlei He, Zheng Li, Yang Zhang, Zhou Li; PoPETS 2025

pdf arxiv

The Ripple Effect: On Unforeseen Complications of Backdoor Attacks

Rui Zhang, Yun Shen, Hongwei Li, Wenbo Jiang, Hanxiao Chen, Yuan Zhang, Guowen Xu, Yang Zhang; ICML 2025

pdf arxiv code

Neeko: Model Hijacking Attacks Against Generative Adversarial Networks

Junjie Chu, Yugeng Liu, Xinlei He, Michael Backes, Yang Zhang, Ahmed Salem, Yang Zhang; ICME 2025

pdf arxiv code

GPTracker: A Large-Scale Measurement of Misused GPTs

Xinyue Shen, Yun Shen, Michael Backes, Yang Zhang; S&P 2025

pdf arxiv code

On the Effectiveness of Prompt Stealing Attacks on In-The-Wild Prompts

Yicong Tan, Xinyue Shen, Yun Shen, Michael Backes, Yang Zhang; S&P 2025

pdf arxiv code

SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

Mingjie Li and Wai Man Si and Michael Backes and Yang Zhang and Yisen Wang; ICLR 2025

pdf arxiv

Towards Understanding Unsafe Video Generation

Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang; NDSS 2025

pdf arxiv code dataset

Understanding Data Importance in Machine Learning Attacks: Does Valuable Data Pose Greater Harm?

Rui Wen, Michael Backes, Yang Zhang; NDSS 2025

pdf arxiv code

2024

The Death and Life of Great Prompts: Analyzing the Evolution of LLM Prompts from the Structural Perspective

Yihan Ma, Xinyue Shen, Yixin Wu, Boyang Zhang, Michael Backes, Yang Zhang; EMNLP 2024

pdf

ModScan: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language Modalities

Yukun Jiang, Zheng Li, Xinyue Shen, Yugeng Liu, Michael Backes, Yang Zhang; EMNLP 2024

pdf arxiv

Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models

Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang; EMNLP 2024

pdf arxiv

Membership Inference Attacks Against In-Context Learning

Rui Wen, Zheng Li, Michael Backes, Yang Zhang; CCS 2024

pdf arxiv code

Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution

Yixin Wu, Yun Shen, Michael Backes, Yang Zhang; CCS 2024

pdf arxiv code

BadMerging: Backdoor Attacks Against Model Merging

Jinghuai Zhang, Jianfeng Chi, Zheng Li, Kunlin Cai, Yang Zhang, Yuan Tian; CCS 2024

pdf arxiv code

ZeroFake: Zero-Shot Detection of Fake Images Generated and Edited by Text-to-Image Generation Models

Zeyang Sha, Yicong Tan, Mingjie Li, Michael Backes, Yang Zhang; CCS 2024

pdf arxiv code

SeqMIA: Sequential-Metric Based Membership Inference Attack

Hao Li, Zheng Li, Siyuan Wu, Chengrui Hu, Yutong Ye, Min Zhang, Dengguo Feng, Yang Zhang; CCS 2024

pdf arxiv code

MGTBench: Benchmarking Machine-Generated Text Detection

Xinlei He, Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang; CCS 2024

pdf arxiv code

"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang; CCS 2024

pdf arxiv code dataset Media Coverage: New Scientist, Deutschlandfunk Nova

Instruction Backdoor Attacks Against Cutomized LLMs

Rui Zhang, Hongwei Li, Rui Wen, Wenbo Jiang, Yuan Zhang, Michael Backes, Yun Shen, Yang Zhang; USENIX Security 2024

pdf arxiv code

Prompt Stealing Attacks Against Text-to-Image Generation Models

Xinyue Shen, Yiting Qu, Michael Backes, Yang Zhang; USENIX Security 2024

pdf arxiv code dataset

SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models

Boyang Zhang, Zheng Li, Ziqing Yang, Xinlei He, Michael Backes, Mario Fritz, Yang Zhang; USENIX Security 2024

pdf arxiv code

Quantifying Privacy Risks of Prompts in Visual Prompt Learning

Yixin Wu, Rui Wen, Michael Backes, Pascal Berrang, Mathias Humbert, Yun Shen, Yang Zhang; USENIX Security 2024

pdf arxiv code

Link Stealing Attacks Against Inductive Graph Neural Networks

Yixin Wu, Xinlei He, Pascal Berrang, Mathias Humbert, Michael Backes, Neil Zhenqiang Gong, Yang Zhang; PoPETS 2024

pdf arxiv code

Composite Backdoor Attacks Against Large Language Models

Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang; NAACL Findings 2024

pdf arxiv code

Games and Beyond: Analyzing the Bullet Chats of Esports Livestreaming

Yukun Jiang, Xinyue Shen, Rui Wen, Zeyang Sha, Junjie Chu, Yugeng Liu, Michael Backes, Yang Zhang; ICWSM 2024

pdf arxiv code

FAKEPCD: Fake Point Cloud Detection via Source Attribution

Yiting Qu, Zhikun Zhang, Yun Shen, Michael Backes, Yang Zhang; ASIACCS 2024

pdf arxiv code

You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Xinlei He, Savvas Zannettou, Yun Shen, Yang Zhang; S&P 2024

pdf arxiv code

Test-Time Poisoning Attacks Against Test-Time Adaptation Models

Tianshuo Cong, Xinlei He, Yun Shen, Yang Zhang; S&P 2024

pdf arxiv code

Generated Distributions Are All You Need for Membership Inference Attacks Against Generative Models

Minxing Zhang, Ning Yu, Rui Wen, Michael Backes, Yang Zhang; WACV 2024

pdf arxiv code

VERITRAIN: Validating MLaaS Training Efforts via Anomaly Detection

Xiaokuan Zhang, Yang Zhang, Yinqian Zhang; IEEE Transactions on Dependable and Secure Computing

pdf

2023

DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models

Zeyang Sha, Zheng Li, Ning Yu, Yang Zhang; CCS 2023

pdf arxiv code

Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models

Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou, Yang Zhang; CCS 2023

pdf arxiv code

Differentially Private Resource Allocation

Joann Qiongna Chen, Tianhao Wang, Zhikun Zhang, Yang Zhang, Somesh Jha, Zhou Li; ACSAC 2023

pdf

A Plot is Worth a Thousand Words: Model Information Stealing Attacks via Scientific Plots

Boyang Zhang, Xinlei He, Yun Shen, Tianhao Wang, Yang Zhang; USENIX Security 2023

pdf arxiv code

Two-in-One: A Model Hijacking Attack Against Text Generation Models

Wai Man Si, Michael Backes, Yang Zhang, Ahmed Salem; USENIX Security 2023

pdf arxiv

UnGANable: Defending Against GAN-based Face Manipulation

Zheng Li, Ning Yu, Ahmed Salem, Michael Backes, Mario Fritz, Yang Zhang; USENIX Security 2023

pdf arxiv code Media Coverage: Mimikama, it-sicherheit.de, SOLARIFY, elektroniknet.de, Digitale Schweiz, innovations report

FACE-AUDITOR: Data Auditing in Facial Recognition Systems

Min Chen, Zhikun Zhang, Michael Backes, Tianhao Wang, Yang Zhang; USENIX Security 2023

pdf arxiv

PrivTrace: Differentially Private Trajectory Synthesis by Adaptive Markov Model

Haiming Wang, Zhikun Zhang, Tianhao Wang, Shibo He, Michael Backes, Jiming Chen, Yang Zhang; USENIX Security 2023

pdf arxiv

Generated Graph Detection

Yihan Ma, Zhikun Zhang, Ning Yu, Xinlei He, Michael Backes, Yun Shen, Yang Zhang; ICML 2023

pdf arxiv code

Data Poisoning Attacks Against Multimodal Encoders

Ziqing Yang, Xinlei He, Zheng Li, Michael Backes, Mathias Humbert, Pascal Berrang, Yang Zhang; ICML 2023

pdf arxiv code

NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models

Kai Mei, Zheng Li, Zhenting Wang, Yang Zhang, Shiqing Ma; ACL 2023

pdf arxiv code

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders

Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, Yang Zhang; CVPR 2023

pdf arxiv code

On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning

Yiting Qu, Xinlei He, Shannon Pierson, Michael Backes, Yang Zhang, Savvas Zannettou; S&P 2023

pdf arxiv code

Is Adversarial Training Really a Silver Bullet for Mitigating Data Poisoning?

Rui Wen, Zhengyu Zhao, Zhuoran Liu, Michael Backes, Tianhao Wang, Yang Zhang; ICLR 2023 (spotlight)

pdf code

Backdoor Attacks Against Dataset Distillation

Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, Yang Zhang; NDSS 2023

pdf arxiv code

Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network

Xiaojian Yuan, Kejiang Chen, Jie Zhang, Weiming Zhang, Nenghai Yu, Yang Zhang; AAAI 2023 (oral)

pdf arxiv code

2022

Amplifying Membership Exposure via Data Poisoning

Yufei Chen, Chao Shen, Yun Shen, Cong Wang, Yang Zhang; NeurIPS 2022

pdf arxiv code

Why So Toxic?: Measuring and Triggering Toxic Behavior in Open-Domain Chatbots

Wai Man Si, Michael Backes, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, Savvas Zannettou, Yang Zhang; CCS 2022

pdf arxiv Media Coverage: Fast Company
Best Paper Award Honorable Mention

On the Privacy Risks of Cell-Based NAS Architectures

Hai Huang, Zhikun Zhang, Yun Shen, Michael Backes, Qi Li, Yang Zhang; CCS 2022

pdf arxiv code

Membership Inference Attacks by Exploiting Loss Trajectory

Yiyong Liu, Zhengyu Zhao, Michael Backes, Yang Zhang; CCS 2022

pdf arxiv code

Auditing Membership Leakages of Multi-Exit Networks

Zheng Li, Yiyong Liu, Xinlei He, Ning Yu, Michael Backes, Yang Zhang; CCS 2022

pdf arxiv code

Graph Unlearning

Min Chen, Zhikun Zhang, Tianhao Wang, Michael Backes, Mathias Humbert, Yang Zhang; CCS 2022

pdf arxiv

SSLGuard: A Watermarking Scheme for Self-supervised Learning Pre-trained Encoders

Tianshuo Cong, Xinlei He, Yang Zhang; CCS 2022

pdf arxiv code

Finding MNEMON: Reviving Memories of Node Embeddings

Yun Shen, Yufei Han, Zhikun Zhang, Min Chen, Ting Yu, Michael Backes, Yang Zhang, Gianluca Stringhini; CCS 2022

pdf arxiv

Semi-Leak: Membership Inference Attacks Against Semi-supervised Learning

Xinlei He, Hongbin Liu, Neil Zhenqiang Gong, Yang Zhang; ECCV 2022

pdf arxiv code

Teacher Model Fingerprinting Attacks Against Transfer Learning

Yufei Chen, Chao Shen, Cong Wang, Yang Zhang; USENIX Security 2022

pdf arxiv code

ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models

Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz, Yang Zhang; USENIX Security 2022

pdf arxiv code

Inference Attacks Against Graph Neural Networks

Zhikun Zhang, Min Chen, Michael Backes, Yun Shen, Yang Zhang; USENIX Security 2022

pdf arxiv

On Xing Tian and the Perseverance of Anti-China Sentiment Online

Xinyue Shen, Xinlei He, Michael Backes, Jeremy Blackburn, Savvas Zannettou, Yang Zhang; ICWSM 2022

pdf arxiv

Model Stealing Attacks Against Inductive Graph Neural Networks

Yun Shen, Xinlei He, Yufei Han, Yang Zhang; S&P 2022

pdf arxiv code

Get a Model! Model Hijacking Attack Against Machine Learning Models

Ahmed Salem, Michael Backes, Yang Zhang; NDSS 2022

pdf arxiv code

Property Inference Attacks Against GANs

Junhao Zhou, Yufei Chen, Chao Shen, Yang Zhang; NDSS 2022

pdf arxiv code

Dynamic Backdoor Attacks Against Machine Learning Models

Ahmed Salem, Rui Wen, Michael Backes, Shiqing Ma, Yang Zhang; EuroS&P 2022

pdf arxiv code

FairSR: Fairness-aware Sequential Recommendation through Multi-Task Learning with Preference Graph Embeddings

Cheng-Te Li, Cheng Hsu, Yang Zhang; ACM Transactions on Intelligent Systems and Technology

pdf arxiv

2021

Quantifying and Mitigating Privacy Risks of Contrastive Learning

Xinlei He, Yang Zhang; CCS 2021

pdf arxiv code

When Machine Unlearning Jeopardizes Privacy

Min Chen, Zhikun Zhang, Tianhao Wang, Michael Backes, Mathias Humbert, Yang Zhang; CCS 2021

pdf arxiv

Membership Inference Attacks Against Recommender Systems

Minxing Zhang, Zhaochun Ren, Zihan Wang, Pengjie Ren, Zhumin Chen, Pengfei Hu, Yang Zhang; CCS 2021

pdf arxiv code

Membership Leakage in Label-Only Exposures

Zheng Li, Yang Zhang; CCS 2021

pdf arxiv code

BadNL: Backdoor Attacks Against NLP Models with Semantic-preserving Improvements

Xiaoyi Chen, Ahmed Salem, Michael Backes, Shiqing Ma, Qingni Shen, Zhonghai Wu, Yang Zhang; ACSAC 2021

pdf arxiv

Stealing Links from Graph Neural Networks

Xinlei He, Jinyuan Jia, Michael Backes, Neil Zhenqiang Gong, Yang Zhang; USENIX Security 2021

pdf arxiv code

PrivSyn: Differentially Private Data Synthesis

Zhikun Zhang, Tianhao Wang, Jean Honorio, Ninghui Li, Michael Backes, Shibo He, Jiming Chen, Yang Zhang; USENIX Security 2021

pdf arxiv

“Go eat a bat, Chang!”: On the Emergence of Sinophobic Behavior on Web Communities in the Face of COVID-19

Fatemeh Tahmasbi, Leonard Schild, Chen Ling, Jeremy Blackburn, Gianluca Stringhini, Yang Zhang, Savvas Zannettou; WWW 2021

pdf arxiv Media Coverage: The Washington Post

DatingSec: Detecting Malicious Accounts in Dating Apps Using a Content-Based Attention Network

Xinlei He, Qingyuan Gong, Yang Chen, Yang Zhang, Xin Wang, Xiaoming Fu; IEEE Transactions on Dependable and Secure Computing

pdf

2020

LEAF: A Faster Secure Search Algorithm via Localization, Extraction, and Reconstruction

Rui Wen, Yu Yu, Xiang Xie, Yang Zhang; CCS 2020

pdf

GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models

Dingfan Chen, Ning Yu, Yang Zhang, Mario Fritz; CCS 2020

pdf arxiv code

Updates-Leak: Data Set Inference and Reconstruction Attacks in Online Learning

Ahmed Salem, Apratim Bhattacharya, Michael Backes, Mario Fritz, Yang Zhang; USENIX Security 2020

pdf arxiv code

Membership Inference Against DNA Methylation Databases

Inken Hagestedt, Mathias Humbert, Pascal Berrang, Irina Lehmann, Roland Eils, Michael Backes, Yang Zhang; EuroS&P 2020

pdf

Towards Plausible Graph Anonymization

Yang Zhang, Mathias Humbert, Bartlomiej Surma, Praveen Manoharan, Jilles Vreeken, Michael Backes; NDSS 2020

pdf arxiv

2019

MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

Jinyuan Jia, Ahmed Salem, Michael Backes, Yang Zhang, Neil Zhenqiang Gong; CCS 2019

pdf arxiv code

Zheng Li, Chengyu Hu, Yang Zhang, Shanqing Guo; ACSAC 2019

pdf

A Graph-Based Approach to Explore Relationship Between Hashtags and Images

Zhiqiang Zhong, Yang Zhang, Jun Pang; WISE 2019

pdf

Fairwalk: Towards Fair Graph Embedding

Tahleen Rahman, Bartlomiej Surma, Michael Backes, Yang Zhang; IJCAI 2019

pdf code

Language in Our Time: An Empirical Analysis of Hashtags

Yang Zhang; WWW 2019

pdf arxiv

ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models

Ahmed Salem, Yang Zhang, Mathias Humbert, Pascal Berrang, Mario Fritz, Michael Backes; NDSS 2019

pdf arxiv code

MBeacon: Privacy-Preserving Beacons for DNA Methylation Data

Inken Hagestedt, Yang Zhang, Mathias Humbert, Pascal Berrang, Haixu Tang, XiaoFeng Wang, Michael Backes; NDSS 2019

pdf
Distinguished Paper Award

2018

Fanghua Zhao, Linan Gao, Yang Zhang, Zeyu Wang, Bo Wang, Shanqing Guo; ISSRE 2018

pdf

Yang Zhang, Mathias Humbert, Tahleen Rahman, Cheng-Te Li, Jun Pang, Michael Backes; WWW 2018

pdf arxiv

Dissecting Privacy Risks in Biomedical Data

Pascal Berrang, Mathias Humbert, Yang Zhang, Irina Lehmann, Roland Eils, Michael Backes; EuroS&P 2018

pdf

An Active Learning-based Approach for Location-aware Acquaintance Inference

Bo-Heng Chen, Cheng-Te Li, Kun-Ta Chuang, Jun Pang, Yang Zhang; Knowledge and Information Systems

pdf

2017

Michael Backes, Mathias Humbert, Jun Pang, Yang Zhang; CCS 2017

pdf arxiv code

Semantic Annotation for Places in LBSN Using Graph Embedding

Yan Wang, Zongxu Qin, Jun Pang, Yang Zhang, Xin Jin; CIKM 2017

pdf

Does #like4like Indeed Provoke More Likes?

Yang Zhang, Minyue Ni, Weili Han, Jun Pang; WI 2017

pdf

Quantifying Location Sociality

Jun Pang, Yang Zhang; HT 2017

pdf arxiv

DeepCity: A Feature Learning Framework for Mining Location Check-ins

Jun Pang, Yang Zhang; ICWSM 2017

pdf arxiv

2016

On Impact of Weather on Human Mobility in Cities

Jun Pang, Polina Zablotskaia, Yang Zhang; WISE 2016

pdf

Minyue Ni, Yang Zhang, Weili Han, Jun Pang; SACMAT 2016

pdf

2015

Location Prediction: Communities Speak Louder than Friends

Jun Pang, Yang Zhang; COSN 2015

pdf arxiv

Yang Zhang, Jun Pang; APWeb 2015

pdf

Event Prediction with Community Leaders

Jun Pang, Yang Zhang; ARES 2015

pdf

Marcos Cramer, Jun Pang, Yang Zhang; SACMAT 2015

pdf

Cryptographic Protocols for Enforcing Topology-based Access Control Policies

Jun Pang, Yang Zhang; COMPSAC 2015

pdf

Jun Pang, Yang Zhang; Computers & Security

pdf arxiv

Exploring Communities for Effective Location Predication

Jun Pang, Yang Zhang; WWW 2015 (Poster)

pdf

Yang Zhang, Jun Pang; ICWE 2015 (PhD symposium)

pdf

2014

Jun Pang, Yang Zhang; ARES 2014

pdf
Best Paper Award

2026

SL-CBM: Enhancing Concept Bottleneck Models with Semantic Locality for Better Interpretability

2025

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification

Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions

UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns

From Meme to Threat: On the Hateful Meme Understanding and Induced Hateful Content Generation in Open-Source Vision Language Models

On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts

Synthetic Artifact Auditing: Tracing LLM-Generated Synthetic Data Usage in Downstream Applications

Data-Free Model-Related Attacks: Unleashing the Potential of Generative AI

Data Duplication: A Novel Multi-Purpose Attack Paradigm in Machine Unlearning

Enhanced Label-Only Membership Inference Attacks with Fewer Queries

Membership Inference Attacks Against Vision-Language Models

Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

On the Generalization Ability of Machine-Generated Text Detectors

JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs

When GPT Spills the Tea: Comprehensive Assessment of Knowledge File Leakage in GPTs

Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media

White-box Membership Inference Attacks against Diffusion Models

A Comprehensive Study of Privacy Risks in Curriculum Learning

The Ripple Effect: On Unforeseen Complications of Backdoor Attacks

Neeko: Model Hijacking Attacks Against Generative Adversarial Networks

GPTracker: A Large-Scale Measurement of Misused GPTs

On the Effectiveness of Prompt Stealing Attacks on In-The-Wild Prompts

SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

Towards Understanding Unsafe Video Generation

Understanding Data Importance in Machine Learning Attacks: Does Valuable Data Pose Greater Harm?

2024

The Death and Life of Great Prompts: Analyzing the Evolution of LLM Prompts from the Structural Perspective

ModScan: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language Modalities

Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models

Membership Inference Attacks Against In-Context Learning

Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution

BadMerging: Backdoor Attacks Against Model Merging

ZeroFake: Zero-Shot Detection of Fake Images Generated and Edited by Text-to-Image Generation Models

SeqMIA: Sequential-Metric Based Membership Inference Attack

MGTBench: Benchmarking Machine-Generated Text Detection

"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Instruction Backdoor Attacks Against Cutomized LLMs

Prompt Stealing Attacks Against Text-to-Image Generation Models

SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models

Quantifying Privacy Risks of Prompts in Visual Prompt Learning

Link Stealing Attacks Against Inductive Graph Neural Networks

Composite Backdoor Attacks Against Large Language Models

Games and Beyond: Analyzing the Bullet Chats of Esports Livestreaming

FAKEPCD: Fake Point Cloud Detection via Source Attribution

You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Test-Time Poisoning Attacks Against Test-Time Adaptation Models

Generated Distributions Are All You Need for Membership Inference Attacks Against Generative Models

VERITRAIN: Validating MLaaS Training Efforts via Anomaly Detection

2023

DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models

Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models

Differentially Private Resource Allocation

A Plot is Worth a Thousand Words: Model Information Stealing Attacks via Scientific Plots

Two-in-One: A Model Hijacking Attack Against Text Generation Models

UnGANable: Defending Against GAN-based Face Manipulation

FACE-AUDITOR: Data Auditing in Facial Recognition Systems

PrivTrace: Differentially Private Trajectory Synthesis by Adaptive Markov Model

Generated Graph Detection

Data Poisoning Attacks Against Multimodal Encoders

NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders

On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning

Is Adversarial Training Really a Silver Bullet for Mitigating Data Poisoning?

Backdoor Attacks Against Dataset Distillation

Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network

2022

Amplifying Membership Exposure via Data Poisoning

Why So Toxic?: Measuring and Triggering Toxic Behavior in Open-Domain Chatbots

On the Privacy Risks of Cell-Based NAS Architectures

Membership Inference Attacks by Exploiting Loss Trajectory

Auditing Membership Leakages of Multi-Exit Networks

Graph Unlearning

SSLGuard: A Watermarking Scheme for Self-supervised Learning Pre-trained Encoders