オープンリーディングフレーム
alias: Open Reading Frame; ORF
https://gyazo.com/d98805e163f71e6e67b9a394101ff346
https://gyazo.com/6777b8fef76718da616de9e641580076
SARS-CoV-2のORFを検索してみたスクショ
ゲノム配列やcDNA配列のなかで、翻訳開始点(ATG)から終止コドン(TGA/TAG/TAA)までの領域
ランダムな塩基配列ではコドンは$ 4^3=64通りなので$ 3/64の確率で終止コドンが現れる
ランダムに終止コドンが現れる確率を$ \alphaとすると、ランダムな配列の任意のATGから$ n \mathrm{bp}の長さのORFが得られる確率は$ \alpha(1-\alpha)^{n-1}
この確率分布(probabilistic distribution)は幾何分布(geometric distribution)として知られており、その期待値(平均値)は$ 1/\alpha
つまり、ランダムなゲノム配列の任意のATGからは、平均して$ (64/3 \fallingdotseq)21 アミノ酸のORFが得られる
一方通常のタンパク質は100アミノ酸残基以上の長さを持つ
したがって、そのような長さのORFは、もしそれぞれの塩基がランダムに並んでいたと仮定すると、偶然では現れにくいものだと思われる
つまり、ゲノム配列の中に長いORFを見つけた場合には、そのORFは実際にタンパク質として翻訳されている可能性が高い
ヒトゲノムの中の既知タンパク質をコードするORFの長さは、平均すると約 1.3kbp
オープンリーディングフレーム - Wikipedia
オープンリーディングフレーム (Open Reading Frame; ORF) とは、DNA またはRNA 配列をアミノ酸に翻訳した場合に終了コード配列(termination codon; 終止コドン)を含まない読み取り枠(Reading Frame)がオープンな(Open)状態にある(タンパク質に翻訳される可能性がある)塩基配列を指す。
遺伝子予測アルゴリズムを用いてDNA の断片配列から遺伝子の場所を探索する場合、ORF の長さが長いと遺伝子が存在している良い指標となる。ただ長いORF が存在しても必ずタンパク質に翻訳されているとは限らないので、長いORF が遺伝子であるかは実際にそのタンパク質が合成されているかを調べる必要がある。