推理框架调研

2025-02-14

记录一下学习vllm/trt llm等框架的内容。

DISTAL: The Distributed Tensor Algebra Compiler

2025-02-04

这篇论文主要是介绍了一个分布式张量代数编译器，它通过自定义的DSL可以帮助我们快速生成分布式计算代码。

2024-12-04

体验一下triton cpu，看看是否有想象中的效果。

2024-11-07

分布式内存计算机的出现主要是为了满足大规模计算任务对计算能力和内存容量的需求, 但是由于物理限制与成本考虑, 单处理器的性能提升存在极限, 而分布式内存计算机通过使用多个相对简单/成本较低的处理器组成集群, 可以在不突破物理限制的情况下, 以较低的成本实现更高的计算性能.

2024-08-08

带大家建立一个对机器学习编译的基本概念.

2024-08-08

为了公平对比性能都不是一件容易的事情. 各个框架的runtime都可能存在一些不同配置, 需要把他们安排到统一基准线去对比才有意义.

2024-06-14

熟悉一下ampl的语法.

2024-05-08

关于ortools中Constraints Solver的内部逻辑.

2024-04-30

关于Model-Driven Optimization For Tensor Computations论文的阅读笔记.

2024-04-23

自从2020年Apple发布的芯片M1/M2/M3, 至少提供了四种不同的方式可以执行高负载的计算任务:

在M1 Max上单核计算单精度浮点矩阵乘法时, 使用SIMD指令集可达到102 GFLOPS左右的性能, 而使用AMX指令集最多可达到1475 GFLOPS! 本文就来带领大家一同探索AMX指令集, 学习如何解锁这剩下的14倍算力.