带宽受限下的DSA后端优化
0. 前言
目前对于许多端侧NPU
来说,是由一个可编程操作但容量较小的SRAM
进行数据调度,需要尽可能的减少数据搬运,
从而避免DSA
中的计算单元处于空闲状态[^1]。
因此我们要解决的问题是: 1.
如何充分利用Local Memory
并在其中计算尽可能多的kernel
?
2.
如何调度Local Memory
中的内存/指令从而充分利用计算单元?
本文主要分享关于Fused Layer
内部的Buffer Schedule
与Instruction Schedule
的一些经验体会.