Constraints Solver Internals

关于ortools中Constraints Solver的内部逻辑.

阅读全文

Model Driven Optimization

关于Model-Driven Optimization For Tensor Computations论文的阅读笔记.

阅读全文

探索AMX: 解锁Apple Silicon隐藏性能

自从2020年Apple发布的芯片M1/M2/M3, 至少提供了四种不同的方式可以执行高负载的计算任务:

  1. 标准的ARMv8 SIMD/NEON向量指令集.

  2. 苹果尚未公开文档的AMX(Apple Matrix Co-processor)指令集, 由CPU发射, 在特殊的加速器上运行.

  3. 神经网络处理器ANE(Apple Neural Engine)

  4. Metal GPU

在M1 Max上单核计算单精度浮点矩阵乘法时, 使用SIMD指令集可达到102 GFLOPS左右的性能, 而使用AMX指令集最多可达到1475 GFLOPS! 本文就来带领大家一同探索AMX指令集, 学习如何解锁这剩下的14倍算力.

阅读全文

macos中bundle的使用

研究一下在macos中如何编译bundle文件并动态加载并运行.

阅读全文

affine fusion pass浅析

学习mliraffine fusion pass, 主要关注依赖分析部分.

阅读全文

TileFlow: A Framework for Modeling Fusion Dataflow via Tree-based Analysis

学习TileFlow这篇论文中是如何进行多个内存层级的tiling.

阅读全文

hugging face llama使用

记录一下使用hugging face llama推理时遇到的问题.

阅读全文

Tensor DSL总结

本文旨在总结一些张量优化的DSL是如何设计的, 尝试从其中发现一些共同点. 接下来我将统一使用Matmul(Transpose(Conv(lhs)),rhs)的例子在不同的框架中进行测试.

阅读全文

MLIRSharp

记录一下MLIRSharp的开发总结.

阅读全文

tvm dynamic shape 学习

探究tvm dynamic shape的实现.

阅读全文