nothin Blog

「Don't Repeat Yourself. 为未来的自己存档解决方案。」

2025年终总结

2025年已经快要结束了，所以我仿照古圣先贤，来写一个年终总结。首先我要回顾一下上半年，考研这一年，臃肿了体态，也磨损了心志。不过好在是成功上岸，成为一位失败的研究生。但是这一年也认识了好多网友和朋友，后面会逐渐介绍。本科毕业之后的暑假，按照大部分人的说法，是狠狠玩的最后一个假期，但是我彻底失败，进组干活到了开学，在北京成功生活了几个月，体验了单程通勤一小时上下班，早十晚x的几个月。...

Posted by nothin on December 11, 2025

记录最近阅读的30篇论文

记录最近阅读的30篇论文 [toc] Attention Is All You Need 大模型的奠基之作，介绍了Scaled Dot-Product Attention，attention以及transformer架构，在 Attention is All You Need这篇论文中，作者首次提出了基于 Attention 的 Transformer 架构，并在机器翻译（M...

Posted by nothin on November 27, 2025

从ai编译器的角度理解FlashAttention

在深度学习领域，Transformer模型和自注意力机制（Attention）已经成为支撑自然语言处理、计算机视觉和其他领域的重要基石。随着模型规模的扩大，计算复杂度和内存需求也随之呈指数级增长，尤其是自注意力机制中的计算和存储需求。因此，如何高效地计算自注意力成为了深度学习编译器和硬件加速器优化的核心课题之一。 FlashAttention是一种为解决这一问题而提出的高效计算方法，它在保...

Posted by nothin on November 20, 2025

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 论文

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 本文的idea是MHA和MQA两种方案的折衷，正如文章中的描述GQA-1就是MQA，GQA-H就是MHA。本实验中使用的是MQA-8，因为实验结果表明这是一种最优的选择。 abstract 多查询注意力（M...

Posted by nothin on November 14, 2025

EFFICIENTLY SCALING TRANSFORMER INFERENCE 论文翻译

EFFICIENTLY SCALING TRANSFORMER INFERENCE 论文翻译（使用Claude）详细解读可参照佳瑞老师的知乎文章摘要我们研究了Transformer模型高效生成式推理的问题，特别是在最具挑战性的场景下：大型深度模型、严格的延迟目标和长序列长度。更好地理解大型基于Transformer模型推理的工程权衡非常重要，因为这些模型的应用场景正在...

Posted by nothin on November 13, 2025

Fast Transformer Decoding: One Write-Head is All You Need 论文阅读

Fast Transformer Decoding: One Write-Head is All You Need 论文阅读本篇文章在MHA的基础上做了修改，不使用多头注意力机制，而是使用多query机制，所有的query共享一个k，v头。所以这带来性能提升时必然的，因为减少了计算。所以在不降低原有的准确率似乎是重点。刚接触这个领域，如有错误，希望能得到您的指正。 in...

Posted by nothin on November 12, 2025

Python 中的广播机制 (Broadcasting)

Python 中的广播机制 (Broadcasting) 什么是广播广播 (Broadcasting) 是 NumPy 和 PyTorch 等科学计算库中的一种机制，允许不同形状的数组进行算术运算，而无需显式复制数据。核心思想广播通过虚拟扩展较小数组的形状来匹配较大数组，在计算时重复使用数据，而不实际占用额外内存。优势：内存高效：不创建数据副本代码简...

Posted by nothin on October 27, 2025

翻译《The Deep Learning Compiler: A Comprehensive Survey》

翻译《The Deep Learning Compiler: A Comprehensive Survey》，我看了前面的部分主要是在介绍不同的ai编译器主要使用了什么技术，我对以下的内容更加关心，于是只翻译了这部分内容。 4 深度学习编译器的通用设计 4.1 设计概述深度学习编译器的通用设计主要包含两个部分：编译器前端和编译器后端，如图2所示。中间表示(IR)横跨前端和后端...

Posted by nothin on October 24, 2025

记一个有趣的编译优化选项 `-enable-dfa-jump-thread`

记一个有趣的编译优化选项前言是师姐在测试coremark时，发现gcc和icx的性能比llvm的性能要好。查看汇编代码发现，gcc和icx能将coremark中的一个状态机代码优化为使用goto串联起来状态转换过程，从而不需要使用跳转表来执行跳转流程。然后交给我任务来调研llvm中是否有相关的优化。 coremark源代码 coremark中的代码位于https://gith...

Posted by nothin on September 22, 2025

Hello blog

“Yeah It’s on. ” hello world first blog 模板来自https://huangxuan.me/ 模板复制 1 2 3 4 5 6 7 8 --- title: "Hello blog" date: 2025-08-25 12:00:00 header-img: img/bg-little-universe.jpg ta...

Posted by nothin on August 25, 2025

FEATURED TAGS

llm 推理

ABOUT ME

for循环等不到return
while循环没有尽头
所以break打破循环
不要执着于continue

FRIENDS