激安オープンモデルとGPTを比べたい
激安オープンモデルとGPTを比べたい
フィードバックを頂きたいですblu3mo.icon*3
全部のサンプルに目を通す必要はないので、興味持った部分だけでも覗いてもらえるとめちゃくちゃ助かりますblu3mo.icon*3
タイプAのサンプル
タイプBのサンプル
一方は従来のgpt-4 + gpt-3.5、もう一方はqwen1.5 + llama 3
どっちがどのモデルかは明日まで伏せておく
投票
タイプAの方が良いcFQ2f7LRuLYP.icontakker.iconcak.iconsta.icon基素.iconbsahd.iconnishio.icon
タイプBの方が良い
違いを感じなかった
違いを感じたが、どっちがいいのか判断に困った
感想
どちらの要約を好むか、どんな違いを見出したか、など知りたいですblu3mo.icon
いちおう理由を曇りガラス記法で隠しておくcFQ2f7LRuLYP.icon
くもりガラスにしたのは後の人の先入観に影響を与えたくなかったからでした
感謝blu3mo.icon
答えも出たことだしくもりガラスを無くしときます~cFQ2f7LRuLYP.icon
全部読んだcFQ2f7LRuLYP.icon
Bの方の要約レベル3には関係ない中国語や韓国語が散見され、ノイズに感じるためAを使いたくなるcFQ2f7LRuLYP.icon
あれ、どのサンプルに混じってますかblu3mo.icon
目視でざっくり確認した時には見つけられなかったblu3mo.icon
原文の「こういうのを場当たり的に対処していって暗黙のルールが増える」の、要約レベル3の箇所
同じく要約レベル3の下から七段目のセクション、「ページ間のリンクを~」のあとに中国語
4月23日のところ「48時間」のあとcFQ2f7LRuLYP.icon
ほんとだ、文の途中に簡体字やハングルが混ざっているなblu3mo.icon
ご指摘ありがとうございますblu3mo.icon
cFQ2f7LRuLYP.icon👍️
Bの東アジア史の要約レベル1の二段落目が、Aに比べるとすごい長いcFQ2f7LRuLYP.icon
「東アジア史」という観点から見るとAの方がよりマクロな視点に思えるので良いcFQ2f7LRuLYP.icon
*one sentence*と何度も伝えているのにBが長文を返してきて困っている。制御が難しいblu3mo.icon
なるほど~cFQ2f7LRuLYP.icon
逆わかる〜!!.iconcFQ2f7LRuLYP.icontakker.icon
Aと比べるとBは一文にいろんな角度から?のテキストが入っていて理解が難しいと感じるcak.icon
Aは句点で区切られた前後の関連が比較的強く、Bはそれが弱いと感じる、そのため理解が難しく感じる
shokai.iconさんの記事の分だけ読んだsta.icon基素.icon
曇らせる必要性はよくわからないので、そのまま書く(まずそうなら曇らせてください)sta.icon
Aの方がフォントが読みやすかったのと、一文一文が短くて読みやすかった
Bは要約レベル3の冒頭で間違っている「人間力や新製品開発が続ける会社以外は」。てにおはもおかしい。AよりもBの方がいいところもあるけれど全体としての品質に埋め難いレベル差を感じる基素.icon
nishio.icon
(違いを感じたが、どっちがいいのか判断に困った) Bがまどろっこしいなと感じた、Aが簡潔。しかし同量の分量でAが簡潔に感じるということはそれだけ情報を捨てているということだからどちらがいいのかは自明ではないなと思った。要約がそもそも情報を捨てることなので、捨て方に関してAIと自分の気が合うかというとても主観的な感覚。選択肢が与えられると「どっちがいいかな、どっちともいいづらいな」と感じるが、どちらかしか提供されなかったらそういうもんだと思って使う気がするので安い方にしたらいいんじゃないかな
ああ〜、推荐=推薦, 直后=直後, 简单的=簡単, 同じ意味の日本語と中国語の使い分けに失敗してるのか、こっちが小さいモデルだな。僕もぱっと見では気づかなかったけど、読もうとしたら気づいてイラッとしただろうな、「タイプAの方が良い」に変更した
現実的な用途で比較実験の被験者を体験できて、とても勉強になった。自分の今後の企業内研究者としての身の振り方にも影響しそうな話。
オープンモデルが十分な精度に到達する速度が思ったより速いかと思ったが、現実的には日本語というマイノリティ言語を中国語というマジョリティ言語と区別して使うことに困難があると感じた。
こういうところはLLMが進化してどうでもよくなるところなので僕がどうこうしたくないが、ユーザテストをしたらみて欲しいUIとか将来のユースケースとかではなく「中国語が混ざってて意味がわからない」というクレームの処理に追われることになるだろうな。
オープンモデル使ったことあるが、ある程度日本語で話せるので別にそういうクレームは感じなかったbsahd.icon
ニューラルネットがそういうものだと理解していたからかな
(日本語に公式対応してるモデル)
そのクレームに対処する方法、良いモデルを使うくらいしかないので不毛。。
なるほど、とても役にたつフィードバックblu3mo.icon*3
ありがとうございますblu3mo.icon
もうバレバレだと思うが一応書いておくと、AがGPTでBがオープンモデル
英語でオープンモデルを使った時は上で指摘されているような問題は起きていない
英語版はオープンモデルでいいかなblu3mo.icon
日本語版はどうしよう
小手先のテクニックで仕組みをこねくり回せば解決できる気はするが、めんどくさいblu3mo.icon*2
こうやってマイノリティ言語向けのAIサービスが割高になっていくのかblu3mo.icon
こういうQwen1.5の日本語ファインチューン版を使うと良いのかな
これをデプロイするのは金がかかりそう
とりあえずオープンモデルにやらせて、問題があったらgpt-4-turboに尻拭いをさせる実装が良いかな
「中国語が混じっている」とかは簡単に検知できるので
13bまではApache2.0
Google CloudかAmazon SageMakerでデプロイできる