DeepSeek-R1
繰り返すがMITライセンス、つまり出力を何に使っても良いしライセンスの縛りも受けない(つまり蒸留しても何の問題もない)morisoba65536.icon
https://gyazo.com/6a1cc10d41634eed0bc2ac36cf4b83f8
DeepSeek-Zeroは強化学習のみで推論能力を手に入れている。(その為か色々な検閲的な事も施されていない)
ただし、下記のような問題があった
・可読性の低さ
出力されたテキストが人間にとって理解しにくい場合がある。
・言語の混在
複数の言語が混在した出力が生成される場合がある。
・終わりのない繰り返し
終わりのない繰り返しが出力される場合がある。
そこで、「DeepSeek-V3-Base」に対して、少量のCoT(Chain of Thought)データセットを用いて、SFT(教師付き微調整)を行います。このデータは、著者らが収集・構築したものになります。
その後、SFT後のモデルに対して、大規模強化学習を行います。
このとき、「DeepSeek-R1-Zero」を作成した際の報酬に加え、「言語一貫性報酬」を導入して、上述した言語の不一致の問題を緩和させます。
その後、得られたモデル(チェックポイント)を利用して、さらなるSFT(教師付き微調整)学習データを収集し、追加SFTを行います。
さらに、その後、改めて2段階目の大規模強化学習を実施することで、最終的に「DeepSeek-R1」が得られます。
🔥 Bonus: Open-Source Distilled Models!
🔬 Distilled from DeepSeek-R1, 6 small models fully open-sourced
📏 32B & 70B models on par with OpenAI-o1-mini
🤝 Empowering the open-source community
🌍 Pushing the boundaries of **open AI**!
🐋 2/n
https://gyazo.com/578b2f49a7857839f994ecf92a25e474
なんか、蒸留された32Bモデルでo1-mini並み(しかもApache2.0ライセンス)とかとんでもない事ゆってるのだが…?morisoba65536.icon
14Bの4BIT量子化でマルバツゲーム位なら一発でエラーなくコード出せたらしい…morisoba65536.icon
deepseek R1、少公式サイトのチャット機能で軽く使った感想。長考モデルとしては指示が甘いと割とズレた回答するものの、ちゃんと指示プロンプトを書けばかなり無茶振りな回答も可能。
2020年代ギャル風にsafetensorsフォーマットの説明して、だとsafetensorsとギャル風をバラバラに説明するけど、2020年代ギャル風口調でsafetensorsフォーマットの説明をして、だとギャル風口調でsafetensorsフォーマットの説明を返してくれるなどしてますね…(ただし政治関連はお国の都合中華志向強火なのでそっちの話題は基本NGと考えるべき)morisoba65536.icon
NG話題の地雷原踏まなければ結構自由にやり取りできる
エ□方面はサービス側で規制してるようでモデル自体の自主規制はかなり制限ゆるそうである
ただし、WebUI場で提供してるサービスでは監視してるようでモデルがノリノリで応えようとしたら突然止められるなどするmorisoba65536.icon
取り急ぎのご報告となりますが、DeepSeek-R1-Distill-Qwen-32B-GGUF iq3_xxsのローカル動作で、叡智な話が削除されずに最後まで語ってくれる事象を確認しました。
先日クリスタで作った悪堕ちCGの台詞テキストだけを入れて、登場人物の設定をまとめるよう指示したところ、人間時代と女怪人悪堕ち後の比較表まで生成いただきました。予感がします。こいつ官能小説いける。
@_kaiinui: DeepSeekはDGXを使わず、独自設計したハードを使ってるらしい CPUはEPYC、DGXではないのでGPUはSXMではなくPCIe!(通常流通してるA100 80GB)
NVLinkはGPUペア間のみで、ペア外とはPCIe経由での通信。
ノード間はConnectX-6で200Gbps
全部、流通で手に入る汎用品で構成
ほんとにソフトもハードも常識をぶち壊して行くなDeepseekは…morisoba65536.icon
しかも量化投資(AIによる自動取引)による自己資金で運営してるのでVCとかからの資金調達だの利益還元だのの金回りの足かせが全く無い。なので客がいない、投資家がいない、資金がある、技術がある、こいつ無敵の人ならぬ無敵の企業か…morisoba65536.icon 調査不足によるハルシネーション疑惑が出てきたので取り消し線追加、自己資金取引がメインならこうだがクオンツ企業は銀行などを顧客に持つことも多いらしい。(ただ、DeepSeekショックのせいで情報ノイズが多くなりすぎて親会社の企業形態がまともに調べられなくなってしまってる…)morisoba65536.icon
資本主義の特異点すぎるwogikaze.icon
このrepoの目標は、R1パイプラインの不足している部分を構築して、誰もがその上に再現して構築できるようにすることです。
分散コンピューティングで参加できるようになったら面白そうwogikaze.icon
最早なんでもありなのでは