OE3.0.31版本,在输出层前置为argmax和concat算子时,torch.max函数输出的int64格式indices不会被自动量化成int8/int16,而去掉concat算子,就可以自动量化。代码和模型在附件里,麻烦帮忙定位问题。
你好,根据oe文档 Same as input, ReduceArgMax/ReduceArgMin's output can be of type int32 or int64, as long as the size of the reduced axis can be represented using an int16 number。你这里去掉concat算子就可以自动量化,量化成int8/int16了吗?
{ "model_config": { "model_output_type": "int16" }, "op_config": { "ArgMax":{"qtype": "int16"} } } 这是我在quant config里面配置的,但是并没有效果。op_config是只能指定算子的输入类型不能指定输出类型吗?