naltoma - ie-ryukyu

naltoma

#NAL研 #712 #ルートビア

e05, e13の年次指導してたらしい

Twitter: @naltoma

＾＾するのが趣味らしい。

#デザインスクール

受講生募集してるらしい。2017年テーマは「子どもの貧困」。

9月末現在は、テーマに関する補足記事を書いてます。

京大院生だけでなく、愛媛大学からも受講生来るという打診あり。

今回5年目で論文（？）か何かで運営側として得られた知見みたいな話を書くことになるらしい。（遠い目）

[気になる論文・事例・ニュース]

2018/5

機械翻訳関連

教師なし学習は機械翻訳に魔法をかけるか？

関連: tweet1, tweet2

2016年頃の例では、「ソース文(S文)をターゲット文(T文)に翻訳し、その逆翻訳が元のソース文に戻る」ように学習。この時点で教師なし学習ではあったけど、翻訳時点でのノイズが問題で、これをS文->T文翻訳時のノイズ除去と、逆方向翻訳時のノイズ除去も学習するようにしてたが、互いに独立していた。

Phrase-Based & Neural Unsupervised Machine Translation(2018)では、上記のノイズ除去学習時に「モデル（重み）を共有」という強い制約を導入したら、割とうまくいったという話らしい。

BLEUの評価時に本体の前処理(単語分割)を使うな

A Call for Clarity in Reporting BLEU Scores(2018)

2018/4

サブカルのためのword2vec

様々な略称が使われる＆生み出されるアニメタイトルを対象に、同義語判定を自動化したいという事例。

Deep Learning for NLP, advancements and trends in 2017

深層学習ベースの自然言語処理で、ここ最近（2017年）の流行を概要＆出典示しながら解説してる記事。

word2vecのオリジナル実装は層が浅すぎるということで様々な拡張がされ続けているという話と、学習済みの294ヶ国語分のベクトルデータが公開されてて、これをどう使うかという事例が増えてきてるっぽい。

深層学習に限らないですが、データ増えて学習時間増えると、ドメイン適合とか転移学習みたいな話も重要だよねという指摘も。

感情分析の話で「sentiment neuron」という「単一ニューロンで高精度出せた」という話が。アブスト読む限りでもそう書いてるけど、RNNで十分なデータセットと学習時間用意できればとかわざわざ書いてるので、そうとうな量＆時間かけてるのかも。

Twitterとかのソーシャルなデータでの時系列感情分析の話も。SemEvalで毎年タスク設定してるよという紹介も。

自動要約では、RNNベースが代表的だったけどそれだと文章の長さの制限が辛く、その点を改善したLSTMベースのアプローチにアテンションモデルと強化学習組み合わせたモデルが出てるっぽい？

機械翻訳では、「完全な教師なし学習」への取り組みが始まってるっぽい。

Yahoo!ニュースで起こった「ダルビッシュ論争」～編集とデータ活用の現場から

「ニュース記事を13文字で表現する」ことの現場の様子。虫の目＋鳥の目＋魚の目。データは必要だが、それを参照して利用する（調理する）スキルが必要なケースとしての紹介記事。自然言語処理でいうところの「理解しやすい文章って何？」みたいなものに近いか。

Deep Learningにおける知識の蒸留

表現能力の高い学習器（モデル）は、質の高いデータを大量に揃えて時間かけて学習させればそれだけ精度向上に繋がりやすいですが、「表現能力が高い≒膨大なパラメータを含む≒計算コストが高い」ということで学習後に使うモデルを利用するだけであったとしても遅い場合があります。

そこをどうにかしたい（高速なモデルを使いたい）という用途の場合に、モデルを圧縮しようという考え方があります。蒸留（knowledge distillation）とも呼ばれていて、一度精度の高い重いモデルを構築しておき、その後でそれを教師役として設定し、小さなモデルで改めて学習し直すというのが基本的なアプローチです。単純に圧縮するだけではなく、抽象化するという側面もあるため、速度向上だけではなく精度も上がるということもあります。何故そうなるのかといったことは上記記事を読んでみよう。

2017/10

AlphaGo Zero: Learning from scratch

機械学習で、良質で膨大なデータセットを用意するコストが大きすぎる。ここでいうコストは人手がかかるという意味。だから「creating algorithms that achieve superhuman performance in the most challenging domains with no human input.（その問題に関する知識を人手を借りずに目標を達成させたい）」

「Previous versions of AlphaGo initially trained on thousands of human amateur and professional games to learn how to play Go. AlphaGo Zero skips this step and learns to play simply by playing games against itself, starting from completely random play.」AlphaGoの前バージョンでは膨大な棋譜から「どう指すべきか」を学習させていたが、このステップを削除し、自分自身都の対戦だけから学ぶようにした。最初はランダムに指すだけの状態から。

教師信号なしで（自分自身相手の対戦結果のみから）学習するために強化学習使ってるのは良いとして、無駄な探索が膨大すぎる気がするのだけどMonte Carlo tree search (MCTS)でどうにかなったという話？もちろんハードの性能向上も含めた「今」だからやれてるという話なんだろうけど。

関連: 「ＡｌｐｈａＧｏ」が進化囲碁の打ち手教えずに従来型破る

Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learning

「Multi-Policy」という名前が格好良い（ぉ）