JW-10を構成するかな漢字変換技術とワードプロセッサの誕生
カナ漢字変換技術
かな漢字変換は、人工知能の一例として、1960年代から1970年代前半、九州大学とNHK総合技術研究所で実験的に行われていただけである。
JW-10には、天野真家の発明になる新機軸の二層型カナ漢字変換システムが実装され、この技術により実用化できた。第1層は天野の発明になる局所意味分析が、第2層には河田勉の開発した従来技術である正規文法による文節分析が使われている。なお、第2層の固有名詞変換は武田公人の作である。
https://www.ne.jp/asahi/kanmu/heishi/pic/towlayer2.jpg
九州大学工学部の栗原俊彦の「カナ漢字変換」初出論文。
https://livedoor.blogimg.jp/wp_story/imgs/b/0/b0566042.jpg
河田勉は、九州大学栗原と私的な知己により協力関係にあったNHK技研の相沢輝昭の論文を参考にして1975年にメインフレームの上のバッチ処理でFortranによりかな漢字変換パイロットモデルを開発した。
http://www.ne.jp/asahi/kanmu/heishi/pic/nhk1970.jpg
河田のシステムは九大とNHKの流れを汲む、定数としての自立語の後部に付属語が、ある規則によって膠着する文節モデルであり、正規文法形式と呼ばれる。これは、有限オートマトンシステムであった。
一次資料として「カナ漢字変換システム」河田勉、天野真家 昭和51年度電子通信学会総合全国大会 が存在する。
https://livedoor.blogimg.jp/wp_story/imgs/8/f/8fedcc40.jpg
河田はこの正規文法モデルモジュールを更にTOSBAC-40に移植し、天野に託すと1975年末には他のプロジェクトに移籍した。その後、一人になった天野を援助するため武田公人が人事異動されて参加した。移籍後の河田の1976年の研究は「漢字認識の後処理としての文脈情報処理」1977年 電子通信学会情報部門全国大会(甲32)として発表された。
天野、河田、武田が開発に用いたTOSBAC-40とほぼ同形のTOSBAC-40D
https://livedoor.blogimg.jp/wp_story/imgs/c/e/ce354b31.jpg
河田の正規文法形式の文節分析システムと、天野のエディタの分担で1974年度に始まった研究は1975年度で終了した。
1975年度以後、天野はこの正規文法形式の文節解析方式の上に、更に自立語生成モデルを創成し、「第31回総合全国大会」のように変数「31」をもつために、辞書に登録されていない自立語をも変換可能にして手持ちのデータで変換率を93%程度に保つことに成功した。この方式を二層型カナ漢字変換と呼び、中核技術を局所的意味分析法と名付けた。
このような事情の下、日本語ワードプロセッサの構想、二層型カナ漢字変換の発明、エディタの開発は天野単独で行なったものである。これらも一次資料が存在、公開されている。
1977年「カナ漢字変換機能を備えたワードプロセッサ」天野真家、河田勉、武田公人 昭和52年度電子通信学会情報部門全国大会。
日本語ワードプロセッサの初出論文
https://livedoor.blogimg.jp/wp_story/imgs/4/5/4521c424.jpg
1977年のこのペーパーはまだ二層型でない初期モデルであるが、93%はそこに記載されている値である。これは、自立語が辞書に存在している場合の値であり、存在しない場合、当然変換率は落ちる。それを支える技術が二層型なのである。
九大・NHK、そして河田の正規文法モデルは、文節の成立ちを検定するものである。「はしるない」は正しくないが「はしらない」は正しいと判定する機構である。正しい場合のみ、「走らない」と変換できる。また、「柱ない」は非文と認識され変換されない。
文節は1つの自立語と0以上の付属語が連なったものである。このモデルでは自立語は辞書で与えられる文字列に過ぎない。93%は、自立語と付属語、付属語と付属語の接続規則の正しさを表すものである。当然、自立語が辞書になければ、この過程は崩壊して変換できない。これを救ったのが二層型モデルなのである。
JW-10の最大の特徴は、暫定辞書学習を用いた同音語選択方式と、時々社内も含めた部外者に評価されるが、それはこの二層型かな漢字変換方式により文法解析が成功した後の事であり、そもそも解析に失敗して変換できない場合、同音語など出ないので選びようがない。あくまで二次的なエディタの機能である。
ワードプロセッサの誕生
1975年河田からTOSBAC-40上で稼働する正規文法モデルの文節解析モジュールを受けたった天野は、これを何に使うのかと戸惑った。おりしも、本社の知人からオフィスオートメーションの一環として英文ワードプロセッサというものがあり、見学に行くので同行するよう誘いを受けて各社に見学に行き、日本語ワードプロセッサを作ろうと思い付いたのである。
当時、IBMが、従来の数値計算ではなく、電子計算機で語を扱うという概念を提案していて、「ワードプロセッシング」と称していた。それを具現化したものが、IBM ST/MTである。Selectric Typewriterに計算機を介してMagneticTapeをつけ、一度作った文書を記憶し、校正・編集、再利用可能にするものであった。
天野は河田から受け取ったモジュールと、初期の分担として開発していたワードプロセッシング機能を結合したプロトタイプを作った。上記1977年の学会発表のモデルである。この時期、まだかな漢字変換モジュールは河田の開発した正規文法のもので二層型ではない。
このプロトタイプは、TOSBAC-40上で開発され、キーボードからかな入力し、変換されたかな漢字混じり文をリアルタイムでソニーテクトロの蓄積管型モニターに出力できた。
テストデータではなく実在のオフィス文書で実験を重ねると、変換率は推定、5、60%しかでなかった。原因はオフィス文書で使う用語は英数字、平仮名、片仮名、漢字、記号などからなる複雑な構造をもっており、事実上辞書に全てを登録できない事が原因であることに気がついた。接続規則の精度は93%であっても、自立語が辞書になければ前提が崩れるのである。二層型かな漢字変換の着想は76年までのこの実験からえられたのである。
二層型かな漢字変換は、77年発表のプロトタイプには載せることなく、79年のデータショウ(この後、上層部の戦略で78年に短縮された)に向けて青梅工場で開発することになったJW-10上で天野が開発した。この経緯は天野以外誰も知っていない。
75年に河田がかな漢字変換プロジェクトを離れて以来、78年の実機までかな漢字変換は天野が単独で研究開発していたからである。この経緯は、総合研究所図書館に保管されていた毎年の研究報告により知的財産高等裁判所で明らかにされた。
二層型かな漢字変換方式の初出論文は、「かな漢字変換における局所意味分析」昭和55年度電子通信学会総合全国大会。 連名著者は、 天野真家 河田勉 である。河田は第2層に関わっているので、天野は常に連名にしている。
https://livedoor.blogimg.jp/wp_story/imgs/3/0/30e6cdb7.jpg
河田に代わり武田公人が天野の開発を援助するため参加している。固有名詞変換プログラムは彼の担当である。また、JW-10実機開発は総研からは天野と武田が青梅工場で行い、その時期に武田は、ファイルシステムと、天野のエディタ中のファイルシステムとのインタフェース部分の仮想記憶化をも担当した。
なお、実機のハードウェア、OSなどは青梅工場がスクラッチから開発したものである。
総研で実験用に作ったTOSPICS-Lは、星野弘、麻田治男、天野真家の連携作品であるがシングルタスクであった。マルチタスクOSが必要になり、青梅工場のメインフレームチームがスクラッチから作ったのである。
1974年〜1979年(1号機出荷はこの年)のJW-10全研究開発工程を行なった者は天野真家一人である。
天野、東芝共に受け入れた「和解勧告 平成23年(ネ) 第10034号 報酬金請求控訴事件 知的財産高等裁判所 第2部」では、更に東芝総研の内部資料も援用してJW-10は天野単独の発明としている。
https://livedoor.blogimg.jp/wp_story/imgs/b/6/b6206245.png
https://livedoor.blogimg.jp/wp_story/imgs/1/7/1774a346.jpg
金額に関わる記述は東芝の提案で削除してある。
和解勧告 平成23年(ネ) 第10034号 報酬金請求控訴事件 知的財産高等裁判所 第2部
要点:
「本件発明1の技術的思想は…原告の単独発明と認められる。
本件発明2の発明者については、原判決の認定と同じく、原告の単独発明である」
発明1 暫定辞書
発明2 局所意味分析
河田が天野に通知してきた彼のブログでは、カナ漢字変換を研究テーマとして提案したのは自分であると主張している。
河田が京大の研究生時代に行なった研究は日本語文の統語解析であった。文法解析とも言う。これは一次資料が存在する。形態素解析であるかな漢字変換変換という言葉が所内で初めて出たのは彼が言うように1974年のことであった。河田の主張は時期的に符合する。1974年以前には、かな漢字変換は東芝内では知られていなかった。
https://livedoor.blogimg.jp/wp_story/imgs/8/3/83613d30.jpg
以上、担当を纏めると、
天野真家 日本語ワードプロセッサ構想の立案、二層型カナ漢字変換の発明、ワードプロセッサ(エディタ)機能の開発。以上の実装。なお、暫定辞書はエディタの機能である。
河田勉 カナ漢字変換研究の提案、正規文法によるカナ漢字変換の開発。
武田公人 固有名詞変換プログラム、ワードプロセッサの仮想記憶型ファイルシステム。
森健一 AIによる日本語処理研究の立案、グループリーダとして予算、人事、事業部との折衝。
青梅工場 ハードウェア、 専用OS、その他アプリケーション。