激安オープンモデルとGPTを比べたい

from 2024/05/03

激安オープンモデルとGPTを比べたい

フィードバックを頂きたいですblu3mo.icon*3

全部のサンプルに目を通す必要はないので、興味持った部分だけでも覗いてもらえるとめちゃくちゃ助かりますblu3mo.icon*3

タイプAのサンプル

/shokai/階層型Wikiはスケールしない https://www.fractal-reader.com/view/2fead1d8-79e2-4109-8a2b-2f98b6f00a02

コロンビアの抗議活動まとめ(ニュース) https://www.fractal-reader.com/view/7f8ce9f2-265a-43cc-aaf8-f517c3a9b0d6

東アジアの歴史(Wikipedia) https://www.fractal-reader.com/view/d84d3632-979f-452d-9542-3c6e05c5034c

タイプBのサンプル

/shokai/階層型Wikiはスケールしない https://fractal-reader.com/view/153aa829-3ec5-4184-9246-b276cd67df0f

コロンビアの抗議活動まとめ(ニュース) https://www.fractal-reader.com/view/c54d3cd4-8318-4a41-8d1d-d2d243fddb09

東アジアの歴史(Wikipedia) https://fractal-reader.com/view/371980c8-99f1-4bfc-9548-20b48f9b86f5

一方は従来のgpt-4 + gpt-3.5、もう一方はqwen1.5 + llama 3

どっちがどのモデルかは明日まで伏せておく

投票

タイプAの方が良いcFQ2f7LRuLYP.icontakker.iconcak.iconsta.icon基素.iconbsahd.iconnishio.icon

タイプBの方が良い

違いを感じなかった

違いを感じたが、どっちがいいのか判断に困った

感想

どちらの要約を好むか、どんな違いを見出したか、など知りたいですblu3mo.icon

いちおう理由を曇りガラス記法で隠しておくcFQ2f7LRuLYP.icon

くもりガラスにしたのは後の人の先入観に影響を与えたくなかったからでした

感謝blu3mo.icon

答えも出たことだしくもりガラスを無くしときます～cFQ2f7LRuLYP.icon

全部読んだcFQ2f7LRuLYP.icon

Bの方の要約レベル3には関係ない中国語や韓国語が散見され、ノイズに感じるためAを使いたくなるcFQ2f7LRuLYP.icon

あれ、どのサンプルに混じってますかblu3mo.icon

目視でざっくり確認した時には見つけられなかったblu3mo.icon

2024/05/03#66348ed179e11300001b73e6cFQ2f7LRuLYP.icon

原文の「こういうのを場当たり的に対処していって暗黙のルールが増える」の、要約レベル3の箇所

同じく要約レベル3の下から七段目のセクション、「ページ間のリンクを～」のあとに中国語

2024/05/03#66348b2379e113000047af2acFQ2f7LRuLYP.icon

4月23日のところ「48時間」のあとcFQ2f7LRuLYP.icon

ほんとだ、文の途中に簡体字やハングルが混ざっているなblu3mo.icon

ご指摘ありがとうございますblu3mo.icon

cFQ2f7LRuLYP.icon👍️

Bの東アジア史の要約レベル1の二段落目が、Aに比べるとすごい長いcFQ2f7LRuLYP.icon

「東アジア史」という観点から見るとAの方がよりマクロな視点に思えるので良いcFQ2f7LRuLYP.icon

*one sentence*と何度も伝えているのにBが長文を返してきて困っている。制御が難しいblu3mo.icon

なるほど～cFQ2f7LRuLYP.icon

（与太）2024/05/03#66348ed179e11300001b73e6の「1と2を足すと破滅に至るという不思議な計算が存在する。」という要約すきseibe.icon

逆わかる〜！！.iconcFQ2f7LRuLYP.icontakker.icon

Aと比べるとBは一文にいろんな角度から？のテキストが入っていて理解が難しいと感じるcak.icon

Aは句点で区切られた前後の関連が比較的強く、Bはそれが弱いと感じる、そのため理解が難しく感じる

shokai.iconさんの記事の分だけ読んだsta.icon基素.icon

曇らせる必要性はよくわからないので、そのまま書く（まずそうなら曇らせてください）sta.icon

Aの方がフォントが読みやすかったのと、一文一文が短くて読みやすかった

Bは要約レベル3の冒頭で間違っている「人間力や新製品開発が続ける会社以外は」。てにおはもおかしい。AよりもBの方がいいところもあるけれど全体としての品質に埋め難いレベル差を感じる基素.icon

nishio.icon

(違いを感じたが、どっちがいいのか判断に困った) Bがまどろっこしいなと感じた、Aが簡潔。しかし同量の分量でAが簡潔に感じるということはそれだけ情報を捨てているということだからどちらがいいのかは自明ではないなと思った。要約がそもそも情報を捨てることなので、捨て方に関してAIと自分の気が合うかというとても主観的な感覚。選択肢が与えられると「どっちがいいかな、どっちともいいづらいな」と感じるが、どちらかしか提供されなかったらそういうもんだと思って使う気がするので安い方にしたらいいんじゃないかな

ああ〜、推荐=推薦, 直后=直後, 简单的=簡単, 同じ意味の日本語と中国語の使い分けに失敗してるのか、こっちが小さいモデルだな。僕もぱっと見では気づかなかったけど、読もうとしたら気づいてイラッとしただろうな、「タイプAの方が良い」に変更した

現実的な用途で比較実験の被験者を体験できて、とても勉強になった。自分の今後の企業内研究者としての身の振り方にも影響しそうな話。

オープンモデルが十分な精度に到達する速度が思ったより速いかと思ったが、現実的には日本語というマイノリティ言語を中国語というマジョリティ言語と区別して使うことに困難があると感じた。

こういうところはLLMが進化してどうでもよくなるところなので僕がどうこうしたくないが、ユーザテストをしたらみて欲しいUIとか将来のユースケースとかではなく「中国語が混ざってて意味がわからない」というクレームの処理に追われることになるだろうな。

そのクレームに対処する方法、良いモデルを使うくらいしかないので不毛。。

なるほど、とても役にたつフィードバックblu3mo.icon*3

ありがとうございますblu3mo.icon

もうバレバレだと思うが一応書いておくと、AがGPTでBがオープンモデル

英語でオープンモデルを使った時は上で指摘されているような問題は起きていない

英語版はオープンモデルでいいかなblu3mo.icon

日本語版はどうしよう

小手先のテクニックで仕組みをこねくり回せば解決できる気はするが、めんどくさいblu3mo.icon*2

こうやってマイノリティ言語向けのAIサービスが割高になっていくのかblu3mo.icon

https://prtimes.jp/main/html/rd/p/000000057.000038247.html

こういうQwen1.5の日本語ファインチューン版を使うと良いのかな

これをデプロイするのは金がかかりそう

とりあえずオープンモデルにやらせて、問題があったらgpt-4-turboに尻拭いをさせる実装が良いかな

「中国語が混じっている」とかは簡単に検知できるので

無料版をオープンモデルにして、有料版の機能としてGPTを使うようにする?bsahd.icon

GPT-4o-miniとか結構低コストらしい