编译优化选项（必选）

-O3 > -O2 > -O1 > -O0。O3优化效果最好，但编译速度最慢。O0无优化，编译最快。

输入数据来源（必选）

--input-source

--input-layout 和 --output-layout 分别指定模型输入和输出的数据排布。

NHWC：当输入C＞4时或输出时，C bytes对齐 256*{0,1,...} + {0, 16, 32, 64, 128} 当输入C
- NCHW：W bytes对齐256*{0,1,...} + {0, 16, 32, 64, 128}
- BPU_RAW：shape对齐到layout block。

非BPU_RAW 会有额外的数据转换开销，通常BPU_RAW性能最好，如果编译器决定的BPU_RAW导致padding很大时，NCHW、NHWC可能会好。

部分模型设置balance小于100后，FPS更大的原因：

建议：

当出现带宽瓶颈时可以尝试 --ddr 和 --balance选项，观察上板性能。

--split-by-input-dims 准备好部分输入就可以执行模型，模型执行时间会变长。不建议用。

--dump-layer-output 调试用选项，额外的输出必然会降低性能。

--max-time-per-fc 指定最长的BPU连续执行时间。限制执行时间会影响调度，导致性能下降。