entropix
https://github.com/xjdr-alt/entropixxjdr-alt/entropix
エントロピーベースのサンプリングと並列CoTデコード(Parallel CoT Decoding)
目標は、エントロピーを使用してコンテキスト認識サンプリングを行うことです。これにより、o1のCoTやAnthropicsに似たものをシミュレートして、推論時間計算を使用してはるかに優れた結果を得ることができるはずです。
https://note.com/shi3zblog/n/n3a8944695680?sub_rt=share_pb物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く
https://www.reddit.com/r/LocalLLaMA/comments/1g4blp8/entropix_llama_cpp_python_gguf/GGUFモデルで動かした例(ここではQwen2.5)が出た
https://github.com/EdwardDali/EntropixLabEdwardDali/EntropixLab
オリジナルの実装より少し古い(attention head entropyを考慮しない)らしい(GGUFで出来るかもわかんないとのこと)
DeepSeek-R1蒸留モデル版のQwen2.5とかでこれやったらどの程度性能が上がるんだろmorisoba65536.icon
関連しているらしい
https://arxiv.org/abs/2402.10200Chain-of-Thought Reasoning Without Prompting
AIモデルには本来、複雑な問題を解決するための推論能力が備わっているが、greedy decodingに頼ると途中の思考過程を省略して直接答えを出そうとする傾向があり、ハルシネーションを引き起こす可能性がある
OpenAI o1