如上图所示, 想知道为什么同一种算子有的会在bpu上运行, 有的会在cpu上运行, 如果硬件支持这种算子为什么不全部跑在bpu上? 如果是checker工具显示的是CPU运行,还需要自己手动写实际的实现代码吗? 还是说已经有cpu的实现?