大規模言語モデル入門
https://gihyo.jp/book/2023/978-4-297-13633-8
word2vecからChatGPTまでの理論の解説と、transformers等を使い手を動かしながら実践的な日本語NLP開発を学べることを目指した内容となっている
https://github.com/ghmagazine/llm-book
https://twitter.com/StudioOusia/status/1684785136502759424 より
GPT・BERT・T5のゼロショット推論
BPE
J-GLUE(BERT、RoBERTa、LUKE、DeBERTa v2)
NER(BERT)
要約生成(T5)
文埋め込み(BERT+SimCSE)
質問応答(ChatGPT)
Hugging Face Hubでモデルやデータセットが公開されている
https://huggingface.co/llm-book
第1章 はじめに(『大規模言語モデル入門』)
第4章 大規模言語モデルの進展
第5章 大規模言語モデルのファインチューニング
第6章 固有表現認識
第7章 要約生成
第8章 文埋め込み
感想ブログ
https://sites.google.com/view/ayako-sato/articles/llm-book-review
最新トピックもありつつ、言語モデルの基礎技術も網羅されていて入門書としてとても良かったです。LLM はこれから勉強するけど機械学習や自然言語処理に少しは触れたことがある!って方にちょうどヒットする内容だと思います。NLPをガッツリやっていてサーベイ目的で読む場合には物足りない気がします。