ICML2024

ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

Yunshan Zhong, Jiawei Hu, You Huang, Yuxin Zhang, Rongrong Ji

被引用 14 次

摘要

Quantization-Aware Training (QAT) -Quantization 적용 후 pre-trained model의 train dataset으로 retraining/fine-tuning하는 방식 -Retraining/fine-tuning 과정이 많은 시간을 필요로 함 -PTQ에 비해 좋은 성능 ▪ Post-Training Quantization (PTQ) -소량의 데이터(calibration dataset)만으로 pre-trained model에서의 weight, activation 등의 파라미터들을 보정 -Inference 과정에서 quantization 적용 → inference time ↓ -소량의 데이터만을 사용하기 때문에 적은 시간만이 필요함 -QAT에 비해 낮은 성능 𝑥 𝑠 + 𝑧, 0,2 𝑏𝑖𝑡 -1 , 𝐷𝑄 ҧ 𝑥 = 2 -ҧ 𝑥 • 𝑠 -Power-law distribution과 같이 𝑥가 작은 값에 쏠려 있는 경우에 적합 -Transformer 기반 모델의 self-attention을 효율적으로 반영할 수 있어 ViT 기반 모델에서 주로 사용됨