DNA複製はゲノムのどこで始まるのか（後編）

🎯 学習目標

この講義では、以下について学びます：

実際のゲノムへの頻出語問題の適用
逆相補鎖（Reverse Complement）の重要性
異なる細菌種での複製起点の違い
塊探し問題（Clump Finding Problem）
より大規模なゲノムでの課題

🦠 実際のゲノムへの適用

コレラ菌（Vibrio cholerae）の例

頻出語問題を実際のコレラ菌の複製起点（約500塩基）に適用してみましょう。

結果

4つの頻出9-merが発見された
500塩基中で9-merが3回以上出現するのは統計的に驚くべきこと

重要な発見：逆相補鎖

4つの候補のうち、2つが特別な性質を持っていました：

候補1: ATGATCAAG
候補2: CTTGATCAT （候補1の逆相補鎖）

なぜ逆相補鎖が重要か？

DNAの二重らせん構造
- 2本の鎖は反対方向（5'→3' と3'→5'）
- 相補的な塩基対（A-T、G-C）
DnaAタンパク質の結合
- タンパク質は両方の鎖を認識可能
- 逆相補鎖も同じ機能を持つ

逆相補鎖の計算

def ReverseComplement(Pattern):
    """
    DNA配列の逆相補鎖を計算

    Args:
        Pattern: DNA配列

    Returns:
        逆相補鎖
    """
    complement = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
    reverse_complement = ''

    # 逆順にして相補塩基に変換
    for base in Pattern[::-1]:
        reverse_complement += complement[base]

    return reverse_complement

# 例
pattern = "ATGATCAAG"
rc = ReverseComplement(pattern)
print(f"元の配列: {pattern}")
print(f"逆相補鎖: {rc}")
# 出力: 逆相補鎖: CTTGATCAT

結論：コレラ菌のDnaAボックス

ATGATCAAG とその逆相補鎖 CTTGATCAT が合計6回出現
この高頻度は偶然とは考えにくい
これらが真のDnaAボックスである可能性が高い

🔥 異なる細菌での探索

サーモトガ・ペトロフィラ（Thermotoga petrophila）

摂氏80度前後の高温環境で生息する好熱菌での探索：

結果

6つの頻出9-merが発見
コレラ菌とは異なるパターン
重要な観察：ゲノムが異なれば、隠れたメッセージも異なる

課題

何千もの細菌種それぞれで新しい隠れたメッセージを探す必要がある
頻出語問題は汎用的なアプローチを提供
しかし、どの候補が真のDnaAボックスかの判断は難しい

🔍 より大きな問題：複製起点の位置が不明な場合

問題の再定義

これまでの前提：

複製起点（約500塩基の領域）が既知
その中で頻出語を探す

現実の課題：

数百万塩基のゲノム中から500塩基の領域を見つける必要がある
どこが複製起点かわからない

💡 塊探し問題（Clump Finding Problem）

アイデア：隠れたメッセージの「塊」

複製起点には頻出語が集中して現れる傾向があります。

定義

(L, t)-clump：長さLのウィンドウ内で、少なくともt回出現するk-mer

塊探し問題の定式化

Input:
  - Genome: ゲノム配列
  - k: k-merの長さ
  - L: ウィンドウサイズ
  - t: 最小出現回数

Output:
  - ゲノム内のすべての(L, t)-clumpを形成するk-merのリスト

アルゴリズムの概要

def FindClumps(Genome, k, L, t):
    """
    ゲノム内で(L, t)-clumpを形成するすべてのk-merを見つける

    Args:
        Genome: ゲノム配列
        k: k-merの長さ
        L: ウィンドウサイズ
        t: 最小出現回数

    Returns:
        (L, t)-clumpを形成するk-merのリスト
    """
    patterns = set()

    # 各ウィンドウをチェック
    for i in range(len(Genome) - L + 1):
        window = Genome[i:i+L]
        frequent_patterns = FrequentWords(window, k)

        # 頻度がt以上のパターンを追加
        for pattern in frequent_patterns:
            if PatternCount(window, pattern) >= t:
                patterns.add(pattern)

    return list(patterns)

📊 大腸菌ゲノムでの実行結果

パラメータ

ゲノムサイズ：約500万塩基
k = 9
L = 500
t = 3

結果

約2,000個の(500, 3)-clumpが発見された
あまりにも多すぎて、真の複製起点を特定できない

🤔 新たな課題と次のステップ

現状の問題

候補が多すぎる
- 2,000個の候補から真の複製起点を選べない
- より洗練されたフィルタリングが必要
追加の生物学的知識が必要
- 統計的アプローチだけでは限界
- 他の生物学的特徴を考慮する必要

今後の方向性

より厳しい条件
- tの値を増やす
- 複数のkで同時に条件を満たすパターンを探す
追加の特徴
- GC含量の偏り（GC skew）
- DNA変性の起きやすさ
- 他の結合タンパク質の認識配列
比較ゲノム学
- 近縁種での保存性
- 進化的な制約

📈 改良されたアプローチ

GCスキュー分析

def GCSkew(Genome):
    """
    ゲノムのGCスキューを計算
    複製起点付近でスキューが最小になる傾向がある

    Args:
        Genome: ゲノム配列

    Returns:
        各位置でのスキュー値のリスト
    """
    skew = [0]

    for nucleotide in Genome:
        if nucleotide == 'G':
            skew.append(skew[-1] + 1)
        elif nucleotide == 'C':
            skew.append(skew[-1] - 1)
        else:
            skew.append(skew[-1])

    return skew

🎓 まとめ

実際のゲノムは複雑
- 単純な頻出語探索では不十分
- 逆相補鎖の考慮が重要
塊探し問題
- より大規模なゲノムに対応
- しかし、候補が多すぎる問題が発生
統合的アプローチの必要性
- 複数の手法を組み合わせる
- 生物学的知識の活用

🚀 次のステップ

GCスキュー分析

📚 参考文献

Ori-Finder: A web-based system for finding oriCs in unannotated bacterial genomes
Bioinformatics Algorithms: An Active Learning Approach
Rosalind - Finding a Clump

🎯 学習目標​

🦠 実際のゲノムへの適用​

コレラ菌（Vibrio cholerae）の例​

結果​

重要な発見：逆相補鎖​

逆相補鎖の計算​

結論：コレラ菌のDnaAボックス​

🔥 異なる細菌での探索​

サーモトガ・ペトロフィラ（Thermotoga petrophila）​

結果​

課題​

🔍 より大きな問題：複製起点の位置が不明な場合​

問題の再定義​

💡 塊探し問題（Clump Finding Problem）​

アイデア：隠れたメッセージの「塊」​

定義​

塊探し問題の定式化​

アルゴリズムの概要​

📊 大腸菌ゲノムでの実行結果​

パラメータ​

結果​

🤔 新たな課題と次のステップ​

現状の問題​

今後の方向性​

📈 改良されたアプローチ​

GCスキュー分析​

🎓 まとめ​

🚀 次のステップ​

📚 参考文献​