o1 - mrsekut-p

Reasoning models

https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning

Claude 3 Haiku.icon

## OpenAI APIにおけるリーズニング機能

OpenAIのo1シリーズのモデルは、強化学習により訓練された新しい大規模言語モデルで、複雑な推論を行うことができます。これらのモデルは、科学的推論、コーディング、数学、その他の深い理解と問題解決を必要とするタスクに優れています。

### 主なポイント

- o1モデルは、長い内的思考プロセスを経てから応答することができ、複雑な問題に取り組むことができます。

- o1-previewとo1-miniは現在ベータ版で機能が限られていますが、以前のモデルと比べて推論能力に大幅な進歩があります。

- o1モデルは、長い応答時間に耐えられるアプリケーションで深い推論を必要とする場合に適しています。一方、GPT-4oモデルは、高速な応答時間や多様なインプットを必要とするタスクに適しています。

https://azure.microsoft.com/en-us/blog/introducing-o1-openais-new-reasoning-model-series-for-developers-and-enterprises-on-azure/

Claude 3 Haiku.icon

## OpenAIの高度な推論モデルがAzureに登場

Microsoftのアジュールは、OpenAIの最新モデルであるo1-previewとo1-miniをAzure OpenAI Service、Azure AI Studio、GitHubモデルに追加することをうれしく思っています。これらの高度な推論モデルは、複雑なコーディング、数学的推論、ブレインストーミング、文書比較分析など、AI駆動ソリューションの新基準を設定する機能を提供します。

### 主なポイント

- o1シリーズモデルは、高度で微妙な問題領域に優れています。これには、高度なコーディングタスク、包括的なブレインストーミング、複雑な文書比較、指示の追跡/ワークフロー管理などが含まれます。

- GitHub Copilot、Harvey、Cognitionなどの先行ユーザーは、o1モデルを既に統合しており、アプリケーションに新たな機能をもたらすことに期待しています。

- MicrosoftとOpenAIは、安全性の向上に投資しており、モデルが安全でない要求を拒否する新しい方法を導入しています。これにより、o1シリーズは最も堅牢なモデルの1つとなりました。

GitHub Copilotでも使えるようになるらしい(?)

Daisuke Okanohara / 岡野原大輔 (@hillbig)

OpenAI o1は強化学習で学習された大規模言語モデルで数学、コーディング、科学など複雑な推論タスクに強い。回答する前に考え、複雑な問題を分解し、自分の考えに間違えがあれば修正し、今のアプローチがうまくいかないなら別の方法を試すようにする。 https://openai.com/index/learning-to-reason-with-llms/…

学習時だけでなく推論時の投入計算量に対し性能は改善され、これまでのスケール則と異なる傾向がみられる

数学、コード）、サイエンスの難しいタスクでベンチマークでSOTAを大きく改善している。数学ではAIME（高校生向けの難しい数学の問題）でGPT-4oで12%しか解けなかったのを74%、1000候補出して再評価するのを使うと93%まで解けるようになる。これはUSAの数学オリンピックの通過条件を越えている。またGPQA-diamond（GPQAの中でも難しい問題）でも大きく改善している

サイエンス、特に化学、数学、物理で大きく性能が改善されたのは、今までのLLMが知識不足のためではなく推論能力不足であったためだったからといえる。

o1は推論方法を強化学習で獲得している点が他と違う点になる。他は推論方法自体はうまく工夫して作った学習データを使って次トークン予測で学習させたりしていた。

モデル自身が報酬を作れるようになっており、自分より良い教師信号を作れるようになっていれば（推論時計算量を増やせば賢くなるのでそうなっている）、それを元にブートストラップ的に自動的に賢くなっていくようになっていくと考えられる。

/work4ai/OpenAI o1

https://platform.openai.com/docs/guides/reasoning

ML_Bear (@MLBear2)

o1のAPIの仕様読んだ。

o1が長考してる部分も出力トークンとして課金されるみたいね。そしてそれは外から見えないと。頭良くなるなら良いんだけど、膨大な出力トークンの分の費用負担しないといけないのならまぁまぁコスト嵩みそう？

以下、仕様書該当部分の日本語訳:

How reasoning works (推論の仕組み)

o1モデルは推論トークンを導入しています。モデルはこれらの推論トークンを使用して「考える」ことができ、プロンプトの理解を分解し、応答を生成するための複数のアプローチを検討します。推論トークンを生成した後、モデルは可視的な完了トークンとして回答を生成し、推論トークンをコンテキストから破棄します。

以下は、ユーザーとアシスタントの間の複数ステップの会話の例です。各ステップの入力トークンと出力トークンは引き継がれますが、推論トークンは破棄されます。