Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers
这篇论文是陈天奇团队的成果,提出一个统一的硬件感知抽象(Axe Layout),将逻辑张量坐标映射到多维物理空间,并设计基于此的多粒度、分布式感知的编译器DSL。今天就来解析一下Axe Layout的设计思路和实现细节。
这篇论文是陈天奇团队的成果,提出一个统一的硬件感知抽象(Axe Layout),将逻辑张量坐标映射到多维物理空间,并设计基于此的多粒度、分布式感知的编译器DSL。今天就来解析一下Axe Layout的设计思路和实现细节。
这是zheng size的一篇分析建模的文章,思路和Model Driven Optimization类似,但是细节上有一些差异,简单总结一下。
这篇论文主要是介绍了一个分布式张量代数编译器, 它通过自定义的DSL可以帮助我们快速生成分布式计算代码。
分布式内存计算机的出现主要是为了满足大规模计算任务对计算能力和内存容量的需求, 但是由于物理限制与成本考虑, 单处理器的性能提升存在极限, 而分布式内存计算机通过使用多个相对简单/成本较低的处理器组成集群, 可以在不突破物理限制的情况下, 以较低的成本实现更高的计算性能.