明らかに「機能的」コード(つまり、何らかの選択的優位性の結果として進化的に固定されたコード)が見られないゲノムの部分においてさえ、一種のコードが存在することは驚くことではありませんが、これまでそのように考えられてきたものには似ていません。 また、ATGCコードの1次元だけでなく、3次元で何かを行っているとしたらどうだろうか? BioEssaysに掲載されたばかりの論文では、この興味深い可能性を探っています。
本当に不可解な問題をかじっていると、ほとんど無限の説明の可能性が生まれるものですが、それは素晴らしいことだと思いませんか。 例えば、「ゲノムの中の非コード化DNAは何をしているのか」、つまり、タンパク質を生成しないヒトの遺伝物質の98.5%は何なのか、というのはどうでしょう。 非コードDNAの解読は、遺伝子発現を調節するRNAに転写され、世代を超えて受け継がれ(エピジェネティクス)、幹細胞や特定の組織細胞の遺伝子発現プログラムを設定する配列の特定によって、大きく前進している。 多くのゲノムから大量の繰り返し配列(古代のレトロウイルスの名残)が見つかっており、やはりこれらはタンパク質をコードしていない。しかし、少なくとも進化の観点からは、これらが何をしているかについての信頼できるモデルがある(ゲノム寄生から共生、さらには進化の作用する遺伝的多様性を生み出す宿主ゲノムによる「利用」まである)。 ちなみに、非コードDNAの中には、これらのレトロウイルス配列を沈黙させるRNAを作るものがあり、ゲノムへのレトロウイルスの侵入は、RNA干渉(いわゆるRNAi)の進化の選択的圧力になったと考えられている。また、様々な名前の付いたタイプの反復要素やタンデムリピートも多く、イントロン(その多くは前述のタイプの非コード配列を含む)は遺伝子の発現と制御に重要で、特にコーディングセグメントとの分離によるオルタナティブスプライシングによって重要視されていることが明らかになった。
さて、2 つのメッセージを経済的にコード化することが進化上有利であるとすれば、ウイルス・ゲノムのように、情報量の点で最小限の複雑さに向かって進化し、その結果繁殖に必要な資源を減らす傾向があるので、メッセージ自体が高度な制約を受けて進化しているのだと考えられます。 これはどういうことだろうか? 例えば、「RUSH-STEM IMPEDES CURRENT」というメッセージは、「REED STOPS FLOW」と同じ本質的な情報を表現しています。 しかし、このメッセージを逆に読んでも(あるいは、同じ意味でも異なるチャンクで読んでも)、特に意味のある追加的なものは符号化されません。 おそらく、元のメッセージに含まれる2つの情報を同時に伝える唯一の方法は、まさにREEDSTOPSFLOWという言葉であり、これは非常に制約の多いシステムなのです 実際、英語の逆ペアフレーズを十分に研究してみると、全体的にかなり短い単語で構成されており、冠詞(the、a)のような言語単位が欠落していることがわかる。 これらは単語や文字の使い方に偏りがあるため、先験的にそのような「二重機能」情報を特定することができるのです。
さて、ここでゲノムにコード化された「文字」「単語」「情報」に戻りましょう。 同じ遺伝子配列に2つの異なる情報がコード化されている場合、同様に、制約が単語と文字の使い方の偏りに現れると予想される。これはそれぞれ、タンパク質を構成するアミノ酸配列とその3文字コードに類似している。 したがって、DNAの配列は、タンパク質をコードすることもできるし、それ以外のものをコードすることもできるのです。 ジョルジオ・ベルナルディによれば、この「何か他のもの」とは、細胞内の膨大な長さのDNAを比較的小さな核にパッケージすることを指示する情報である。 主に、ヒストンと呼ばれるDNAパッケージングタンパク質の結合を誘導するコードである。 ベルナルディはこれを「ゲノムコード」、つまり、DNAを「クロマチン」と呼ばれる高度に凝縮された形にするための形と圧縮を定義する構造コードと呼んでいます
しかし、私たちは、タンパク質をコードする配列ではなく、非コード化DNAについての説明から始めたのではないですか? そうです。そして、長く伸びた非コード化DNAには、単なる繰り返しやタンデムリピート、古代のレトロウイルスの名残を超える情報が見られます。化学DNA塩基のGC対をATと比較して好むというレベルで、一種のコードが存在するのです。 ベルナルディが、彼や他の研究者の画期的な研究を総合して論評したように、真核生物ゲノムのコア配列では、いわゆる冷血生物と温血動物の間の進化的移行期に、「アイソコア」と呼ばれるゲノムの構造組織単位におけるGC含有量が増加したのである。 そして、興味深いことに、この配列の偏りは、機能においてはるかに制約のある配列と重なっています。これらはまさに前述のタンパク質コード配列であり、介在する非コード配列以上に、「ゲノムコード」の手がかりとなるものです。 しかし、アミノ酸の正確な位置に関する比較的不変の情報も含んでおり、そうでなければ、タンパク質を正しくコードできないことになります。 しかし、DNAのアミノ酸コードには、数十億年前に最も単純な単細胞生物(バクテリアと古細菌)で進化した、ちょっとした「ひっかけ」がある。それは、コードの一部が冗長であることだ。 例えば、スレオニンというアミノ酸は、真核生物のDNAでは4つ以上の方法でコード化される。 ACT、ACC、ACA、ACGである。 3番目の文字は可変であり、それゆえ余分な情報をコード化するために「利用可能」なのである。 この場合、温血動物ではACCとACGに偏りがある。 したがって、この付加的な「コード」に対する高い制約(タンパク質コード配列のような制約を受けないゲノムの部分にも見られる)は、2つの情報セットを同時に具現化するタンパク質コード配列のパッケージ化によってもたらされるのである。 これは、高度に制約された二重情報配列 REEDSTOPSFLOW の例と類似しています。
しかし、重要なことに、アミノ酸の三重項コードの 3 位は冗長なので、制約は英語の例ほど厳しくありません。よりよい類似性は SHE*ATE*STU* で、アスタリスクは 4 文字メッセージの 3 文字コンポーネントを読む機械にとって違いを生じない可変文字を表しています。 そして、このアスタリスクの位置に “D “を加えてSHEDATEDSTUD(SHE DATED STUD)という第二レベルの情報を想像することができる。 次に、Dが平均より多く含まれる「センシティブな性質」を持つ意味のあるフレーズを探す第2の読取装置を想像してみよう。 この読み取り機には折り畳み機が搭載されており、各Dに釘のようなものを打ち、メッセージを平面上で120度折り曲げる。メッセージが同じ平面上で120度折り曲げられるべき点で、よりコンパクトな三角形のバージョンが完成する。 真核生物ゲノムでは、構造的凝縮を引き起こすと提唱されたGC配列のバイアスは、タンパク質をコードするDNAよりも配列の制約が少ないものの、活性が確認されている非コード配列にも及んでいます。 そこで、GCはヒストンを含むヌクレオソームを介して、クロマチンを形成するためにそれらの凝縮を指示する。 単語ベースのメッセージの凝縮と細胞核内のゲノムDNAの凝縮のアナロジー。 パネルA:情報の中の情報、第4のスペースが可変の単語の列で、特定の文字で埋められると、さらなるメッセージが生成される。 一方のメッセージは3文字の読み取り機で読み取られ、もう一方はシーケンスの第4可変位置までの情報を解釈することができる読み取り機で読み取られる。 2番目の読み取り機は、隠すべき「機密」情報を認識し、4番目の位置に「D」が現れる箇所で文字列を折りたたみ、「機密」部分を圧縮して見えないようにする。 これはクロマチンを介したゲノム3次元圧縮の原理を類推させる。パネルBは細胞核の蛍光像(蛍光in-situ hybridization-FISHによる)である。 冷血動物から温血動物への進化の過程でGC含量が増加したH2/H3アイソコアはクロマチンコアに圧縮され、周辺部のL1アイソコア(GC含量が低い)はあまり圧縮されていない状態にある。 ベルナルディによれば、ゲノムの高GC領域に含まれる「ゲノムコード」は、細胞のヌクレオソーム位置決め装置によって読み取られ、ユークロマチンに高度に圧縮された配列として解釈されるのだという。 謝辞 パネル A:コンセプトおよび図の作成。 パネルB:PHAで誘導されたリンパ球のH2/H3およびL1アイソコアのFISHパターン(S. Saccone提供、文献に掲載)] 。
このようなDNA領域は、非コード配列が持つ他のいかなる可能な機能にも関係なく、ゲノム内で凝縮したコード配列の正しい形と分離を形成する上で構造的に重要な要素であるとみなすことができます。
最後のアナロジーは、今回はより密接に関連していますが、大きなタンパク質のアミノ酸配列で、さまざまなねじれ、回転、折り畳みなどを行うことかもしれません。 このような複雑な構造に驚嘆し、「しかし、機能上、これほどまでに複雑である必要があるのだろうか」と問うかもしれません。 まあ、進化によってうまく選択された立体構造を生み出すために、タンパク質の一部を正確な方向と場所に凝縮して配置する必要があるのかもしれませんね。 しかし、「ゲノムコード」がタンパク質のコード配列と重なっていることを知ると、別の選択圧が働いているのではないかとさえ思えてくるのです…
Andrew Moore, Ph.D.
Editor-in-chief, BioEssays