RWKV - mrsekut-p

RWKV

るーくふ

RNNでTransformerレベルの性能を持つLLM

https://huggingface.co/BlinkDL

demo

https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio

RNNなので、Transformrerの課題である計算量(学習時間の長さ)を克服できる

そのため、RWKVは、RNNとTransformerの良いとこどりをしたようなものになってるとのこと

学習が高速、性能が良い、VRAMの節約

https://github.com/BlinkDL/ChatRWKV

https://zenn.dev/hikettei/articles/5d6c1318998411

Transformerの計算量は、文章長に対してO(n^2)

RNNの計算量は、文章長に対してO(n)

R, K, V, Wという4つのパラメータ

https://zenn.dev/hikettei/articles/5d6c1318998411#rwkv

https://blog.brainpad.co.jp/entry/2023/06/14/144554

https://www.youtube.com/watch?v=hnkiLlTiG6Y

https://johanwind.github.io/2023/03/23/rwkv_details.html

https://gigazine.net/news/20230709-rwkv-language-model/