RWKV
るーくふ
RNNでTransformerレベルの性能を持つLLM
github
https://huggingface.co/BlinkDL
demo
https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio
RNNなので、Transformrerの課題である計算量(学習時間の長さ)を克服できる
そのため、RWKVは、RNNとTransformerの良いとこどりをしたようなものになってるとのこと
学習が高速、性能が良い、VRAMの節約
ChatRWKV
https://github.com/BlinkDL/ChatRWKV
https://zenn.dev/hikettei/articles/5d6c1318998411
Transformerの計算量は、文章長に対してO(n^2)
RNNの計算量は、文章長に対してO(n)
R, K, V, Wという4つのパラメータ
https://zenn.dev/hikettei/articles/5d6c1318998411#rwkv
https://blog.brainpad.co.jp/entry/2023/06/14/144554
https://www.youtube.com/watch?v=hnkiLlTiG6Y
清水亮
https://johanwind.github.io/2023/03/23/rwkv_details.html
https://gigazine.net/news/20230709-rwkv-language-model/