TTCバイオカフェ「計算機による新しい生物学への招待」
2017年2月10日、TTCバイオカフェを開きました。お話は東京農工大学特任教授 石井一夫さんによる「計算機による新しい生物学への招待~バイオインフォマティクスから見えてくる新しいバイオの世界」でした。
初めに岩澤葵さんと杉浦夏美さんよるクラリネット、フルート演奏がありました。
石井一夫さん
岩澤葵さんと杉浦夏美さん
主なお話の内容
当日のスライド http://www.slideshare.net/KazuoIshii1/ss-72045857
自己紹介
私は薬学部を卒業後、遺伝学を学び、計算機統計学、データマイニング、機械学習に関心をもった。今はバイオインフォマティシャンの養成を行っている。
臨床データ、農作物のデータを計算機で分析することで、病気の判定や農作物の生育予測ができるようになるだろう。今では、データサイエンティストという言葉もできて、注目されている分野。人工知能というと、人の仕事を奪うという人もいるが、私はこういう方法を利用できるようになると、世界が広がることを伝えたい。
計算機と生物学
人工知能、IoT(Internet of Things)、ビッグデータなどが注目されている。私も書いているが、本もたくさん出ている。
生命現象を数学でとらえるととても面白い。統計学、解析学、数理モデルリングなどを使う。微積分は不得手な人もいるかもしれないが、使っていると慣れる、ある種の言葉(英会話のような)のようなものだ。生命現象を数学で捉え、規則性が導き出せると、予測ができるようになる。例えば、患者さんの情報を集め、いろいろな視点からグループ分けをしながら、特徴をみつけ、規則性があることがわかると、次の患者さんの情報を入力することで、病名が診断できたり、よりよい治療法を示せたりできる。
次世代シーケンサーとデータ分析
次世代シーケンサー(NGS)は偉大なブレークスルーになった。NGSからは多くのデータが出てきてそれを眺めていると、いろいろなことがわかってきて、私は楽しくなります。
ゲノムを断片化して解読し、それらの情報を集めると、ゲノムDNA配列がわかったり、ゲノムRNA発現解析ができたりする。
微生物叢をゲノム集団とみて、まるごと解析(メタゲノム)することもできる。
次世代シーケンサーでは統計学、解析学、線形代数学、数理モデリングでつなぎあわせていくことで、見えなかったものが解析を通して見えるようになり、将来予測もできる。
オックスフォード・ナノポア社は、ポケットに入る次世代シーケンサーを開発した。
( https://nanoporetech.com/ )
およそ10万円。この値段なら個人でも手が届く。例えば、ワシントン条約に指定されている希少動物のDNA解析を頼まれたがサンプルをとりよせるのに2年かかった。ポケットに入るNGSがあれば、現地でサンプルをとってその場で解析できる。海外に希少生物を連れ出さなくてもよい。
予測分析
データ分析で、最も威力を発揮し、魅力的なものの代表は予測分析。
薬剤とタンパク質の結合の仕方から薬剤の効き方や病気の予後を予測したり、診療方法に関する意思決定の支援をしたりできるようになるかもしれない。天気予報、株価予測にも応用できるはずで、データを扱う技術と知識を身につけると、色々な分野やビジネスで活用できる。
ディープラーニングとは、データ分析を組み合わせて分析していくことで、今までわからなかったことを引き出せる。グーグルの画像認識や囲碁の世界チャンピオンをやぶる人工知能をつくりだしたのはその代表例。
大規模データ解析と個別化医療
寝たきりとなった高齢者の枕元で DNAなどの検体を採取し次世代シーケンサーを使って得られたゲノム情報をもとに治療のヒントを得ることもできるかもしれない。
個別化医療のために、環境要因(地域、家族歴など)、患者固有の情報(人種、身長、体重、ライフスタイルなど)、バイオ技術で得られた患者固有の情報(ゲノム情報、バイオマーカーの情報)を統合する。
これまでは、ある病気の患者は決められたひとつの治療を受け、効く人も副作用が出る人もいた。同じ病気をもつ多数の患者から集めた情報を均一な集団ごとにグループ分けして整理してみると(大規模データ解析)、共通の特徴などが見つかり、きめ細かい治療ができるのではないかと思う。
がんゲノムアトラス The Cancer Genome Atlas (TCGA)
米国国立がん研究所(NIC)はYouTubeで「がんゲノムアトラス」を公開している。これの和訳を私が監修した。がんについて複数の研究者がわかりやすく説明している。
「がんの分子機構」編
患者に共通の特徴をみつけると、それが目印(がんのバイオマーカー)になる。
断片的な情報をつなげてがんの全体像を描き、がんができるときの要素をリスト化する。多数の標本を解析すると、遺伝子の修飾とがんができる関係がわかってくる。TCGAでは、がんの標本収集と解析が進んでいる。
「個別化医療との関連」編
同じ部位にできたがんでも、同一のがんではない。例えば世界で一番多いがんは非小細胞肺がん(non small cell lung cancer(NSCLC))だが、小細胞性か非小細胞肺がんか、これ以上には分類ができない。
がんになるとゲノムに変化が起こるので、TCGAデータと突き合わせて、遺伝子発現、コピー数の変化を調べ、がん細胞の亜種、受容体が発見された。
その結果、薬にあう患者を選抜することができる。多数の遺伝子変異を調べるTCGAの解析結果を治療に活かす医師が増えている。
20年前に腎がんの研究を始めた研究者が、「私は10年かかって原因遺伝子を見つけてがんの早期発見ができるようになり、6つの進行性腎がんの薬ができた。今ならTGCAがあるので、2-3年でできると思う」といっている。
「がんゲノムアトラスのパワー」編
がんと関係する遺伝子の異常の関係を解明するのがTCGAの目的。
がんのデータを蓄積していくといろいろなことができるようになるだろう。TCGAはがんの概念を変えるだろう。がんには複数の遺伝子が関係しているようだ。ゲノムのどこに異常が起きたかを探す。ためには、数多くのがんを網羅した大量データが扱えることが重要。計算生物学、細胞生物学を駆使してシステム生物学ができた。
ヒトゲノムプロジェクトは終わったが、それはがん研究とはかけ離れていた。今は遺伝子の働き、経路を調べられるようになってきた。がんの遺伝子の変化がどうなるとがんになるのか。万の数の遺伝子の変化をモデルにして、どんながんになるのか。どんな薬が効くとか予測ができる。
話し合い
- 次世代シーケンサーではどんなことができるのか。 → サンプルをいれると配列がでてくる 数千、数億のデータがでる。農作物の病気を現場でサンプルをとって現場で調べる。
- RNAもできるのか → 塩基配列情報は少しならその場でできる。
- ベイズ統計学はどのくらい使われているか → 教えられる人がいない。人材が育成されていない。
- 次世代シーケンサーには何をいれるのか → DNAをとりだし、断片にして酵素で処理したものを用いる。
- がんゲノムアトラスでは、カルテの情報(生活環境などの形態の違うデータ)などをどう扱うのか → 電子カルテ情報にゲノム情報をとりこんでいる医師もいるかもしれない。方法論として、取り込むのはそう難しくない。
- 生物学に進む人はこれまでウエット(生物をサンプルとして用いる実験)が好きな人だったが、今後計算機が好きな人が生物学を専攻するようになるだろうか → その人の要望によってウエット、ドライ(情報という形で扱う)のバランスは様々だろう。ドライ分野の人間が関わるは可能性が大きい。
- 人工知能で油絵を描く、楽器を演奏するのはできるか → やろうとしている人はいる。小説を書かせている。ある程度創作的な試みが始まっている。
- 人工知能はこれからどうなるのか。人々の生活に入ってくるのか、大企業だけが使うのか → 人工知能といっても広い。普通に使えるものも大規模なものもある。それによって使う人、団体も変わってくるだろう。
- 教育では、ウエットからドライへ、ドライからウエットへの流れがあると思う → 例えばマイクロアレイ(ウエット)がうまくいかないときに「R」をやってみる(ドライ)。高校の数学を蓄積してきたことが自分の歩んだ道。やりたかったわけでなく、やらないといけなくなった。今は最初から「R」を学べるようなコースも整ってきている。
- がんゲノムアトラスが身近になって人工知能が使われる。天気予報、作物生育予測、自動車品質管理などいろいろな分野に広がってきている。遺伝子解析からフィールドが広がってきているのを感じる。コンサル、画像認識など、分野がひろがり、とても楽しい。
「バイオカフェとは」
「結びのことば」
結びのことば
最後に髙瀨恵悟TTC校長から結びのことばありました。
「TTCは建築科、情報処理科でAIの教材を使っており、いろいろな分野にAIを取り入れられるような人材育成を目指している。建築でいうと、鉄塔の修理をするかどうかを画像診断したり、トンネルの崩落リスクをセンサーで診断したりしている。
例えば、遺伝子解析に日本板硝子が参入してきた。インフルエンザを水際で食い止めるための検査キットをつくって販売するそうだ。
最先端の学問やSFが身近な世界に入ってきているのを感じる。
TTCでは、建築、自動車、バイオにAIを取り入れ、学生の力をつなげたい。倫理問題の議論も並行して考えていきたい」。
会場風景