名前 : 家入雄樹

学年 : 一貫制博士課程3年

所属学会 : 日本遺伝学会

連絡先 :

In English


研究内容

生物集団が分化してきた歴史を推定することを研究のテーマとしており、現在はクラスタリングと判別分析を用いた推定方法の開発を行っています。


<1>2集団分化と3集団分化との区別


図1のような2つの集団分化のモデルにおいて、それぞれ2集団からDNA配列を得た時に、それがどちらのモデルに由来するのか判別することを目的とします。言い換えれば得られたDNA配列から、それが経験してきた集団分化の歴史を推定することです。


さまざまなパラメーター(N1、T、M12など)のもとでシミュレーションを行ったところ、DNA配列から計算される要約統計量(多型サイト数ST、塩基多様性π)にはモデル間で分布が重なるところ、異なるところがありました(図2)。



これらをクラスタリングによって分類することで、それぞれのモデルのデータのみで構成されるクラスターと両方が混じったクラスターに分けることができます(図3a)。さらに後者のクラスターにおいてフィッシャーの判別分析を行うことでデータが由来するモデルを区別することができます(図3b)。



この方法がどれくらい上手く働くのか調べるために、改めてシミュレーションデータをつくり、それらがどのクラスターに入るか、また、入ったクラスターで正しく判別できるかテストを行いました。
まず、クラスタリングの結果、2集団モデルのテストデータ2000個のうち203個が2集団モデルのデータのみで構成されるクラスターに入りました。これはつまり、クラスタリングの段階で正しいモデルを選ぶことができたということです。しかしながら、27個のデータは3集団モデルのデータのみで構成されるクラスターに入り、1770個のデータは両モデルのデータが混ざったクラスターに入りました。このうち68個はフィッシャーの判別分析ができないクラスターでした。 次に3集団モデルのテストデータ2000個では、194個が3集団モデルのクラスターに、14個のデータは2集団モデルのクラスターに、1792個のデータは両モデルのデータが混ざったクラスターに入りました。そして、うち45個はフィッシャーの判別分析ができないクラスターでした。(図4)



そして3449個のデータに対して判別分析による判定を行って正解率を調べました。全体、クラスタリング、判別分析の結果とあわせたものが図の5です。判別分析により2537個のデータに対しては正しいモデルを選択することができ、正解率は73.6%となりました。必ずしも高い正解率とは言えないかもしれませんが、モデルとパラメータの組み合わせによってはそもそも区別することができないデータがあることを考慮すれば決して不十分な結果ではないでしょう。むしろ、実際のデータの中でおよそ26%程度はモデルを見分けにくいものがあるという点が重要な発見です。



今後、この方法を用いて実際のDNA配列データでモデルの判別を行っていきたいと考えています。つまり、実際のDNAデータがどのクラスターに入るのか、入ったクラスターで判別関数を適用した場合にどのモデルへと判別されるのか。それによりこの手法の有効性が確認できます。


<2>単一集団、2島モデル、3島モデル、融合モデル、分化モデルの区別

この場合では、ある1つの集団からDNAをサンプルしてきたときに、5つのモデル(図6)の中でどれが最も適しているの判定することを目的としています。


それぞれのモデルのもとでシミュレーションを行ってDNAから要約統計量を計算したところ、各モデルで分布が重なるところと重ならないところがありました(図7)。こうした分布の異なるデータはクラスタリングによって分離することができます。クラスタリングで250個のクラスターに分けた結果、それぞれのモデルのデータのみで構成されるものと、複数のモデルのデータで構成されるものとに分かれました。後者のクラスターに対してはロジスティック判別関数を作ることにより、モデルの選択を行えるようにしました。




このアプローチの有効性を試すために、新たにシミュレーションデータを得て、出来たクラスターや判別関数に対してテストを行いました。
クラスタリングではテストデータがどのクラスターに入るか1つずつテストしました。その結果、5000個のうち38%にあたる1876個のデータが対応するモデルのデータで構成されるクラスターに入りました。多くのデータは複数モデルのデータが混在するクラスターに入ったのでこれらについては判別関数によって識別することにしました。また、その中でも20個はもともとそれと同じモデルに由来するデータが含まれないクラスターに入りました。(表1)



判別関数はロジスティック回帰に基づいて作られました(図8)。図8では視覚化するために2変数で判別関数を作りましたが、実際にはすべての統計量を用いています。



判別関数で識別された3075個のデータのうち55%にあたる1686個のデータについて正しいモデルを選ぶことが出来ました。特に単一集団モデルと融合モデルについては他よりも正解率が高くなりました。これは他のモデルとは異なる個体群動態だからだと考えられます。逆に2集団モデル、3集団モデル、分化モデルについては正解率がおよそ50%という結果となりました。これはモデルの形が非常に似ており、パラメーターによってはそもそも区別できないくらい近しいものだからだと考えられます。
最終的にクラスタリングと判別分析をあわせて、5000個のデータのうち3562個のデータ(71%)を正しく見分けることが出来ました。 今後この手法を用いて実際の生物集団についてモデルの選択を行いたいと考えています。



業績

とくになし