NLP2024 個人的なまとめ
https://gyazo.com/1806425d6705781f2c8944f86e4242fa
概要
神戸で開催された言語処理学会第30回年次大会(NLP2024)にスポンサー企業「株式会社Helpfeel」の一員として参加した。 このイベントは、日本国内で最も大きな言語処理に関する学会であり、言語学や言語処理技術を中心として、計算機科学、人文学、社会科学に至るまで、多岐にわたる分野の専門家が集まる。
30回目の年次大会であるNLP2024においても、最新の研究成果が発表された。
目にしたすべての研究の詳細に踏み込むことはできないので、読み物として面白くまとめるように書いてみた。
学び
初日のチュートリアル講演「デジタル・ヒューマニティーズ入門」がとても印象的だった。人文学の分野において、意外にも「地名」という地理空間情報が、古典などの文書空間と実体空間を結びつける重要な役割を担っている事が強調されていた。 https://gyazo.com/c109b546ac41d6c80d99dba0cb0e649d
https://gyazo.com/eab54e8ded9d20075beade1eb3fbb27b
https://gyazo.com/e601de372e2f000fe2addbf1aaf1684d
https://gyazo.com/de4626438eacc14917078714e0559d2d
また、それに続く「作って学ぶ大規模言語モデル」も大変勉強になった。実際にLLMsをファインチューニングする際の具体的なパラメーターとその意味などを具体的かつ詳細に知ることができた。
https://gyazo.com/faa202d89628ce7e4541ba90f6e691b9
https://gyazo.com/a752456ac9c64bfba0d17a93b9355858
https://gyazo.com/1e718b2ff5f03c0f2fb28d8cb18ef9c7
他にも、前回のNLP2023から個人的に関心を持ちつづけていた、創発言語や創発コミュニケーションの分野の発表からも刺激を受けた。 全体的な研究の傾向の変遷
さらに、NLP2023の会期中である2023年3月14日には、GPT-4が発表された。 2023年から2024年は、LLMという言葉が急速に広まっていった一年間だった。 また、この一年間で、GPT-4以外にも研究用途ではオープンなLLMがリリースされている。
NLP2024における研究の傾向もこのような状況に応じて素早く変化したように感じた。
NLP2024においては、
LLMを活用するための手法の提案
LLMを比較評価するためのタスクの提案やデータセットの構築と比較結果
LLMの出力を分析することを通じた研究
LLMを性能向上させるためのデータセットの構築と性能向上の評価
といった形で、LLMの存在が前提となった研究が圧倒的に増えた。
一方で、日本語・かつ・いくつかの特定のタスクにおいては、BERTやT5のようなGPT-3.5以前のモデルが引き続きGPT-4以上の性能であることを定量的に示す研究もあったことは特筆すべきだろう。 NLP2025に向けてテクノロジーと研究がどのように変化していくのか、大いに注目している。 テーマセッションと発表
私は今回はスポンサー参加のみではなく、テーマセッションの共同提案者としても参加していた。
二日目に行われたこのテーマセッションでは、様々な興味深い研究発表を聞くことができて、知的好奇心が高まった。
また、テーマセッション最後の総合討論の時間に、話のキッカケとして、私が開発しているGIS関係のAIを発表するという機会をいただけた。
学術界の方々の討論のキッカケになれることは私としても嬉しいことだった。
交流
初日に非公式の懇親会に招待して頂き、「デジタル・ヒューマニティーズ入門」で講演されていた北本先生と、人文学と地理空間情報に関してじっくりとお話しすることができた。
また、企業ブースへもたくさんの方が訪れて下さって、ご挨拶することができた。改めて感謝を申し上げたい。
感想
今回の学会では企業も多数研究発表をしていた。一緒に参加した同僚たちと、弊社においても業務を通じて得られた知見をアカデミックな形式で発信していくことができないだろうかという相談をしていた。
言語処理学会はとても重要なイベントで、毎年参加する度に研究発表のトレンドがめまぐるしく変化していく様子を観察することで、将来のプロダクト開発や技術習得の一つの指針としている。今回も大変勉強になった。