LPU
Language Processing Unit
https://scrapbox.io/files/6626feed91487a0025419ada.png
https://wow.groq.com/groq-lpu-inference-engine-crushes-first-public-llm-benchmark/
Groqが開発しているAIチップ
既存のクラウドベースのトッププロバイダーと比較して、18倍はやい
なぜこんなに早いか?
LPUは、LLMの2つのボトルネックである
計算密度
メモリ帯域幅
を克服するように設計されている。
LPUは、LLMに関してGPUやCPUよりも大きな計算能力を持ちます。これにより、1単語あたりの計算時間が短縮され、テキストシーケンスの生成がより高速になります。さらに、外部メモリのボトルネックを排除することで、LPU推論エンジンはGPUと比較してLLMで桁違いの性能を発揮することができます。
https://wow.groq.com/groq-lpu-inference-engine-crushes-first-public-llm-benchmark/
LPUのアーキテクチャに関する詳細な技術情報
2020年
Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads
2022年
A Soware-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning
解説記事
GroqのLPUの基本アーキテクチャを深く掘り下げる
参考
https://wow.groq.com/why-groq/