Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers

这篇论文是陈天奇团队的成果,提出一个统一的硬件感知抽象(Axe Layout),将逻辑张量坐标映射到多维物理空间,并设计基于此的多粒度、分布式感知的编译器DSL。今天就来解析一下Axe Layout的设计思路和实现细节。

本文源码位于handson-polyhedral/17_axe.ipynb;

阅读全文

Cute概念速通

这篇文章将快速的介绍Cute中的一些基本概念、 layout algorithm、swizzle等,具体代码位于cute概念速通

阅读全文

探究jax reshard优化

Google在分布式系统上有非常深厚的积累,本文主要尝试检查jax的行为来探究数据重分布reshard算子的优化方案。

阅读全文

Flash Attention记录

简单记录一下flash attention的推导和实现。

阅读全文

Chimera: An Analytical Optimizing Framework for Effective Compute-intensive Operators Fusion

这是zheng size的一篇分析建模的文章,思路和Model Driven Optimization类似,但是细节上有一些差异,简单总结一下。

阅读全文

推理框架调研

记录一下学习vllm/trt llm等框架的内容。

阅读全文

DISTAL: The Distributed Tensor Algebra Compiler

这篇论文主要是介绍了一个分布式张量代数编译器, 它通过自定义的DSL可以帮助我们快速生成分布式计算代码。

阅读全文

triton-cpu初体验

体验一下triton cpu,看看是否有想象中的效果。

阅读全文

分布式存储架构下的矩阵乘与编译器

分布式内存计算机的出现主要是为了满足大规模计算任务对计算能力和内存容量的需求, 但是由于物理限制与成本考虑, 单处理器的性能提升存在极限, 而分布式内存计算机通过使用多个相对简单/成本较低的处理器组成集群, 可以在不突破物理限制的情况下, 以较低的成本实现更高的计算性能.

阅读全文

机器学习编译概念科普

带大家建立一个对机器学习编译的基本概念.

阅读全文