Chimera: An Analytical Optimizing Framework for Effective Compute-intensive Operators Fusion

这是zheng size的一篇分析建模的文章,思路和Model Driven Optimization类似,但是细节上有一些差异,简单总结一下。

阅读全文

推理框架调研

记录一下学习vllm/trt llm等框架的内容。

阅读全文

DISTAL: The Distributed Tensor Algebra Compiler

这篇论文主要是介绍了一个分布式张量代数编译器, 它通过自定义的DSL可以帮助我们快速生成分布式计算代码。

阅读全文

triton-cpu初体验

体验一下triton cpu,看看是否有想象中的效果。

阅读全文

分布式存储架构下的矩阵乘与编译器

分布式内存计算机的出现主要是为了满足大规模计算任务对计算能力和内存容量的需求, 但是由于物理限制与成本考虑, 单处理器的性能提升存在极限, 而分布式内存计算机通过使用多个相对简单/成本较低的处理器组成集群, 可以在不突破物理限制的情况下, 以较低的成本实现更高的计算性能.

阅读全文

机器学习编译概念科普

带大家建立一个对机器学习编译的基本概念.

阅读全文

benchmark的经验与技巧

为了公平对比性能都不是一件容易的事情. 各个框架的runtime都可能存在一些不同配置, 需要把他们安排到统一基准线去对比才有意义.

阅读全文

Ampl学习

熟悉一下ampl的语法.

阅读全文

Constraints Solver Internals

关于ortools中Constraints Solver的内部逻辑.

阅读全文

Model Driven Optimization

关于Model-Driven Optimization For Tensor Computations论文的阅读笔记.

阅读全文