遺伝子発現解析
この例では,ニューラルネットワークを使用してパン酵母の遺伝子発現プロファイルのパターンを探す方法を示します。
問題:パン酵母(出芽酵母)の遺伝子発現の解析
目標は,一般にパン酵母または醸造用酵母として知られる出芽酵母の遺伝子発現にいて理解することです。出芽酵母は,パンを焼いたり,ブドウからワesc escンを発酵させたりするのに使用する菌類です。
出芽酵母をブドウ糖が豊富な培地に加えると,ブドウ糖はエタノ,ルに変換されます。酵母は,まず“発酵”と呼ばれる代謝プロセスによってブドウ糖をエタノ,ルに変換します。ただし,ブドウ糖の供給が尽きると,酵母は,ブドウ糖の嫌気性発酵からエタノールの好気呼吸に移行します。このプロセスは,ジオキシックシフトと呼ばれます。これは,遺伝子発現の大きな変化が伴うため、非常に興味深いプロセスです。
この例では,DNAマイクロアレイデータを使用し,ジオキシックシフト中の出芽酵母におけるほぼすべての遺伝子の一時的な遺伝子発現を調べます。
この例を実行するには,生物信息学工具箱™が必要です。
如果~ nnDependency。bioInfoAvailable errordlg (“这个例子需要生物信息学工具箱。”);返回;结束
デタ
この例では,次のデ,タを使用します。德里西,JL,艾耶,VR,布朗,PO。“在基因组尺度上探索基因表达的代谢和遗传控制。”科学,1997年10月24日;278(5338):680-6。PMID: 9381177
デ,タセット全体は,基因表达OmnibusのWebサ,トhttps://www.yeastgenome.orgからダウンロ,ドできます。
最初に,デ,タをmatlab®に読み込みます。
负载yeastdata.mat
遺伝子発現レベルはジオキシックシフト中に7の時間点で測定されました。変数次
には,実験で発現レベルが測定された時間が含まれます。変数基因
には,発現レベルが測定された遺伝子の名前が含まれます。変数yeastvalues
には,“价值”データか,LOG_RAT2N_MEAN(実験における7つのタイムステップから取得したCH2DN_MEANとCH1DN_MEANの比率のlog2)が含まれます。
デタのサズを把握するには,元素个数(基因)
を使用してデ,タセットに含まれる遺伝子の数を表示します。
元素个数(基因)
Ans = 6400
基因は遺伝子の名前の细胞配列です。MATLABの cell 配列のインデックス付けを使用してエントリにアクセスできます。
基因{15}
ans = 'YAL054C'
これは,変数yeastvalues
の15行目にorfYAL054C
の発現レベルが含まれていることを示しています。
遺伝子のフィルタ,処理
デ,タセットはかなり大きく,情報の多くは,実験中に興味深い変化を示さない遺伝子に対応しています。興味深い遺伝子を簡単に見つけるためには,まず最初に興味深い変化を示さない発現プロファイルの遺伝子を削除して,データセットのサイズを小さくします。6400個の発現プロファ电子邮箱ルがあります。複数の手法を使用し,これを最も重要な遺伝子を含むいくかのサブセットに減らすことができます。
遺伝子リストに目を通すと,' empty 'としてマクされたいくかのスポットを確認できます。これらは配列の空のスポットであり,データが関連付けられている可能性もありますが,この例ではこれらのポイントをノイズと見なすことができます。これらのポ@ @ントを関数比较字符串
を使用して検出し,。
空点= strcmp(“空”,基因);yeastvalues(emptySpots,:) = [];基因(emptySpots) = [];元素个数(基因)
Ans = 6314
yeastvaluesのデータで,発現レベルが南としてマークされている場所もいくつか確認できます。これは,特定のタ。これらの欠損値を処理する1つの方法は,特定の遺伝子のデータの平均値または中央値を使用して,欠損値を経時的に補完することです。この例では1つ以上の発現レベルが測定されなかった遺伝子のデータを破棄するだけという,あまり厳密ではないアプローチを使用します。
関数isnan
を使用して欠損データをもつ遺伝子を特定し,インデックス付けのコマンドを使用して欠損データをもつ遺伝子を削除します。
nanIndices = any(isnan(yeastvalues),2);yeastvalues(nanIndices,:) = [];基因(nanIndices) = [];元素个数(基因)
Ans = 6276
残りのプロファイルすべての発現プロファイルをプロットすると,ほとんどのプロファイルはフラットで,他のプロファイルと大きく異ならないことを確認できます。このフラットデータは,これらのプロファイルと関連付けられている遺伝子が,ジオキシックシフトの影響をあまり受けないことを示す点で確かに役立ちます。しかし,この例では,ジオキシックシフトに伴う発現の変化が大きい遺伝子に注目します。生物信息工具箱™のフィルター処理関数を使用し,代謝の変化の影響を受ける遺伝子に関する有用な情報が得られない,さまざまなタイプのプロファイルをもつ遺伝子を削除できます。
関数genevarfilter
を使用し,時間の経過に沿って分散が小さい遺伝子を除外できます。この関数は,可変遺伝子と同じサaaplズの逻辑配列を返します。1は分散が10番目の百分位数よりも大きいyeastvaluesの行に,0はこのしきい値を下回るyeastvaluesの行に対応します。
掩码= genevarfilter(yeastvalues);%使用掩码作为值的索引,以删除过滤的基因。Yeastvalues = Yeastvalues (mask,:);基因=基因(面具);元素个数(基因)
Ans = 5648
関数genelowvalfilter
は,非常に低い絶対発現値をも遺伝子を削除します。遺伝子フィルター関数は,フィルター処理されたデータおよび名前の自動計算もできることに注意してください。
[掩膜,酵母值,基因]=...genelowvalfilter (yeastvalues基因,“absval”log2 (3));元素个数(基因)
Ans = 822
geneentropyfilter
を使用してプロファ▪▪ルのエントロピ▪▪が低い遺伝子を削除します。
[掩膜,酵母值,基因]=...geneentropyfilter (yeastvalues基因,“prctile”15);元素个数(基因)
Ans = 614
主成分分析
扱いやすい遺伝子リストができたので,プロファ。
データの標準偏差と平均を正規化することで,ネットワークは,各入力をその値の範囲全体で等しく重要なものとして扱うことができます。
主成分分析(PCA)はマイクロアレイ解析などからの大規模なデータセットの次元を削減するために使用できる便利な手法です。この手法は,デ,タセットの主成分を分離し,デ,タセットの変動への影響が最も少ない成分を削除します。
2の設定変数を使用してmapstd
とprocesspca
を新しいデ、タに適用し、整合性を保、ことができます。
[x,std_settings] = mapstd(yeastvalues');规范化数据[x,pca_settings] = processpca(x,0.15);% PCA
まず,入力ベクトルがゼロ平均と単位分散をもようにmapstd
を使用して正規化されます。processpca
は,pcaアルゴリズムを実装する関数です。processpca
に渡される2番目の引数は0.15です。これは,processpca
によって,デ,タセットの全変動への影響が15%未満の主成分が排除されることを意味します。ここで,変数个人电脑
はyeastvaluesデ,タの主成分を含みます。
主成分は関数散射
を使用して可視化できます。
图散射(x (1:), (2,:));包含(“第一主成分”);ylabel (“第二主成分”);标题(“主成分散点图”);
クラスタ,分析:自己組織化マップ
自己組織化マップ(SOM)クラスタリングアルゴリズムを使用して主成分をクラスター化できるようになりました。
関数selforgmap
は,自己組織化マップネットワ,クを作成します。その後,関数火车
を使用してこのネットワ,クの学習を行うことができます。
ネットワクはまだ入力デタに一致するように構成されていないため,入力のサズは0です。ネットワ,クの学習時にはこのようになります。
Net = selforgmap([5 3]);视图(净)
これでネットワ,クの学習の準備が整いました。
神经网络训练工具を使用すると,学習するネットワークと,学習に使用されているアルゴリズムが表示されます。さらに,学習中には学習の状態が表示され,学習を停止した条件が緑で強調表示されます。
下部にあるボタンを使用すると,便利なプロットを開くことができます。これらのプロットは,学習中および学習後に開くことができます。アルゴリズム名およびプロットボタンの隣のリンクを使用すると,これらに関するドキュメンテーションを開くことができます。
Net = train(Net,x);
plotsompos
を使用し、デ、タの最初の2の次元に関する散布図にネットワ、クを重ねて表示します。
图plotsompos(净,x);
データセットの各ポイントに最も近いノードを見つけることにより,SOMを使用してクラスターを割り当てることができます。
Y = net(x);cluster_indexes = vec2ind(y);
plotsomhits
を使用し,マップの各ニュ,ロンに割り当てられているベクトルの数を確認します。
图plotsomhits(净,x);
クラスター分析には,階層クラスタリングやk - meansなど,统计和机器学习工具箱™で利用可能な他のクラスタリングアルゴリズムも使用できます。
用語
羊痘疮——オープンリーディングフレーム(ORF)は終止配列によって中断されない,塩基配列を含む遺伝子配列の一部であり,タンパク質を符号化する可能性があります。