PARO
# 基础知识
# CogVideo
3D full attention:把视频的每一帧都 concat 起来
# Paper
Main idea: 对 Attention Map 中出现的对角线结构进行重排序(reorder),按照 block 进行量化,以减少量化精度的损失
主要的技术:
Reoder
- 出现对角线的原因
- 对 QK 进行 reorder - 计算出 O - 恢复 reorder
- ,6 种 reorder 方案,对于不同的 QK 选择哪一种?
每一个 block 的量化精度的选择:
Block importance:block 平均的数值
Quantization Difficulty:使用 quantization error(如何计算)
整数规划,求解 integer programming problem
前导 0(LDZ):选最高位的 1,乘法之后再移位回去
Todo:研究一下每一部分的计算复杂度,以及改进后的计算复杂度
Q:怎么保证 block 的量化精度的选择是固定的呢?也就是说不会随着输入的不同而变化