您好,针对这种情况,请您先检查检查影响模型性能的yaml参数,包括:
layer_out_dump:指定模型转换过程中是否输出模型的中间结果,一般仅用于调试功能。 如果将其配置为 True,则会为每个卷积算子增加一个反量化输出节点,它会显著的降低模型上板后的性能。 所以在性能评测时,务必要将该参数配置为 False。
compile_mode:该参数用于选择模型编译时的优化方向为带宽还是时延,关注性能时请配置为 latency。
optimize_level:该参数用于选择编译器的优化等级,实际生产中应配置为 O3 获取最佳性能。
debug:配置为 True 将打开编译器的debug模式,能够输出性能仿真的相关信息,如帧率、DDR 带宽占用等。 一般用于性能评估阶段,在产品化交付时候,可关闭该参数减小模型大小,提高模型执行效率。
确认无误后,建议您选择使用地平线平台友好结构&模型,地平线芯片上的depthwise convolution的计算效率接近100%,所以对于MobileNet类的模型,BPU芯片具有效率优势。
可以参考OE开发包中`ddk/samples/ai_toolchain/horizon_model_train_samples/configs/segmentation`目录下的示例进行高效开发。