MongoDBのCursor not foundエラーやnoCursorTimeoutオプションとの向き合い方

前提知識

mongooseのfind query cursorは色々な回し方があるけどどれ使えばいいの？

noCursorTimeout: trueオプションは、多くの場合必要ではないshokai.icon

cursorを回してgetMoreする間隔が10分を超えるなら必要

そして、少なくともwebサーバーではnoCursorTimeoutは使うな

getMoreの間隔が10分以上かかるケースとは

cursorで取得したdocumentの処理に時間がかかる

CPU処理やI/O待ち時間が長い

まずQuery.prototype.batchSizeを小さくして、1度のgetMoreで取得するdocumentの数を減らすべき

mongooseの場合

10件ずつにする

model.find(condition).batchSize(10)

https://mongoosejs.com/docs/api/query.html#Query.prototype.batchSize()

デフォルトは101件、もしくは合計16MBまで、の小さい方が選択される

1回の取得量が減ると

アプリケーション側のメモリ上に乗るdocument数が減る

batch処理では使ってもいいけど、webサーバーではnoCursorTimeoutは使うべきではないshokai.icon

前提：cursorのcloseは失敗する可能性がある

mongooseのfind query cursorは色々な回し方があるけどどれ使えばいいの？で説明している通り

noCursorTimeoutを使っていると、MongoDBサーバー側にcursorが残ってしまう

noCursorTimeout: trueがついていても

TCPの接続が切断されれば、紐づいたcursorは即座にkillされる

batch処理であれば、プロセス終了でkillされるが

webサーバーはプロセス終了しない

TCPの接続が保たれ、長時間MongoDBサーバー内にcursorが残り続ける（＝メモリリーク）

noCursorTimeout以外の方法を検討しよう

すごくがんばってプログラム書いても、ちょっとしたミスでcloseできない経路ができる事はあるだろうし

そもそもwebサーバーのようなrequest/responseするシステムであれば、batchSizeを指定してgetMore間隔を調整する所からやった方が、全体の処理効率は良くなるはずだ

もちろん、そんな長い処理はwebサーバーでやるな、batch処理でやれというのもある

上で登場する「TCPの接続・切断」はMongoDB Unified Topologyの事ではなく、本当にTCPのコネクションの事らしいshokai.icon

TCPコネクションはわりとよく切断している

failover、Atlas名物の定期的なprimary/secondar切り替え(failover test)、clusterの構成変更など

つまり、noCursorTimeoutを設定したとしても、cursorは消滅する

TCP切断したらcursorがkillされる、の実装を読む by Codex CLI.icon

find/aggregate/count 等のコマンドは実行直後に CommandHelpers::handleMarkKillOnClientDisconnect(opCtx) を呼び出して、クライアント切断時にその OperationContext を強制終了してよいとマークしています

例: src/mongo/db/commands/query_cmd/find_cmd.cpp:616 → src/mongo/db/commands.cpp:866-880

handleMarkKillOnClientDisconnect() は OperationContext::markKillOnClientDisconnect() を叩き、_markKillOnClientDisconnect フラグを立てたうえで、現在の transport session を監視するネットワーク Baton に「このソケットで POLLRDHUP（TCP 切断）が来たら opCtx を kill せよ」と登録します

src/mongo/db/operation_context.cpp:434-457

実際の監視ロジックは ASIO Baton で、AsioNetworkingBaton::markKillOnClientDisconnect() が session に POLLRDHUP ウォッチを付け、切断検知時に _opCtx->markKilled(code) を呼び出します

src/mongo/transport/asio/asio_networking_baton.cpp:249-258

markKilled() により、その OperationContext で実行中だった getMore などの処理は ErrorCodes::ClientDisconnect で中断されます。

もしその時点でサーバー側 ClientCursor がオペレーションに “pin” されていれば、CursorManager::_killCursor() が _operationUsingCursor（実行中の opCtx）を killOperation してカーソルを killPending にし、後段でderegisterAndDestroyCursor() が走るため、最終的にカーソルは破棄されます

src/mongo/db/query/client_cursor/cursor_manager.cpp:486-524

以上が「TCP 接続（transport session）が落ちた瞬間に、実行中のカーソル操作がサーバー側で kill される」ためのコードパスです

cursor消滅前提で、レジューム・リトライして解決できる機構を用意しておくべきshokai.icon

どこまで処理していたか_idをメモしておく

次回のbatch実行で修正されるので気にしない方針とする

未完了フラグを立てておく

など