带宽受限下的DSA后端优化
0. 前言
目前对于许多端侧NPU来说,是由一个可编程操作但容量较小的SRAM进行数据调度,需要尽可能的减少数据搬运,
从而避免DSA中的计算单元处于空闲状态[^1]。
因此我们要解决的问题是: 1.
如何充分利用Local Memory并在其中计算尽可能多的kernel?
2.
如何调度Local Memory中的内存/指令从而充分利用计算单元?
本文主要分享关于Fused Layer内部的Buffer Schedule与Instruction Schedule的一些经验体会.