オープンリーディングフレーム
https://gyazo.com/d98805e163f71e6e67b9a394101ff346
https://gyazo.com/6777b8fef76718da616de9e641580076
SARS-CoV-2のORFを検索してみたスクショ
ランダムな塩基配列ではコドンは$ 4^3=64通りなので$ 3/64の確率で終止コドンが現れる
ランダムに終止コドンが現れる確率を$ \alphaとすると、ランダムな配列の任意のATGから$ n \mathrm{bp}の長さのORFが得られる確率は$ \alpha(1-\alpha)^{n-1}
つまり、ランダムなゲノム配列の任意のATGからは、平均して$ (64/3 \fallingdotseq)21 アミノ酸のORFが得られる
一方通常のタンパク質は100アミノ酸残基以上の長さを持つ
したがって、そのような長さのORFは、もしそれぞれの塩基がランダムに並んでいたと仮定すると、偶然では現れにくいものだと思われる
つまり、ゲノム配列の中に長いORFを見つけた場合には、そのORFは実際にタンパク質として翻訳されている可能性が高い
ヒトゲノムの中の既知タンパク質をコードするORFの長さは、平均すると約 1.3kbp
遺伝子予測アルゴリズムを用いてDNA の断片配列から遺伝子の場所を探索する場合、ORF の長さが長いと遺伝子が存在している良い指標となる。ただ長いORF が存在しても必ずタンパク質に翻訳されているとは限らないので、長いORF が遺伝子であるかは実際にそのタンパク質が合成されているかを調べる必要がある。