CVPR2023

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers

Yijiang Liu, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang

Abstract

Quantization-Aware Training (QAT) -Quantization 적용 후 pre-trained model의 train dataset으로 retraining/fine-tuning하는 방식 -Retraining/fine-tuning 과정이 많은 시간을 필요로 함 -PTQ에 비해 좋은 성능 ▪ Post-Training Quantization (PTQ) -소량의 데이터(calibration dataset)만으로 pre-trained model에서의 weight, activation 등의 파라미터들을 보정 -Inference 과정에서 quantization 적용 → inference time ↓ -소량의 데이터만을 사용하기 때문에 적은 시간만이 필요함 -QAT에 비해 낮은 성능 𝑥 𝑠 + 𝑧, 0,2 𝑏𝑖𝑡 -1 , 𝐷𝑄 ҧ 𝑥 = 2 -ҧ 𝑥 • 𝑠 -Power-law distribution과 같이 𝑥가 작은 값에 쏠려 있는 경우에 적합 -Transformer 기반 모델의 self-attention을 효율적으로 반영할 수 있어 ViT 기반 모델에서 주로 사용됨