Memo

20230507

https://tech.preferred.jp/wp-content/uploads/2017/04/869ee370242fb23c3cfb1c2cd9a86c51.pdf

バイオや医療の世界での二つ目の問題は、正解 データが少ない場合が多いことである。ゲノムの データが利用できたとしても、現実にはそのゲノ ムを持つ人の詳細な疾患データなどが得られない ことが多い。特に、がんゲノムの研究を行う場合、 個人情報保護の問題もあり、きちんとした疾患情 報が紐付いているゲノムデータ数は少ないことが ほとんどであろう。このような正解データが少な い場合は、ディープラーニングは学習できず無力 だと思い込んでいる医師や研究者が多く見られる が、実はこのような場合においてもディープラー ニングは、ここ数年で大きな飛躍を遂げている。 特に半教師あり学習と呼ばれる手法は、正解ラベ ルがないデータも利用して、わずか数%の正解ラベル付きデータを利用するだけで、精度を飛躍的 に向上させることに成功している[3]。また最 近では、人間がただ一つのサンプルを学習するだ けでも多くの分類や推論を行えることから、 one­shot learningと呼ばれる手法[4]も出てき ており、このような正解ラベルがない医療データ に対しても、精度を上げるために利用できる手法 の開発が進んでいることを知っておいてほしい。

ニューラルネットの 内部はブラックボックスであり、どうしてこの患 者のゲノムから乳がんと判断したのか?など、人 間が解釈可能な理由がうまく提示できないという ことが言われてきた。薬事法の認可や、PMDAな どからディープラーニング分析法が医療機器とし て認可⿠承認を得るためには、ある程度の科学的 理由付けがないと難しいという問題もある。 これらの問題についても、最近大きな可能性を 秘めた新手法が提案されてきている。LSTMのよ うな複雑なユニットではなく、解析しやすく、理 解しやすく、制御しやすい非常に単純な計算要素 の組み合わせで同じ計算能力を獲得できるように なっている。例えば近年提唱されたQRNN(Quasi Recurrent Neural Net)[5]はCNNを使いながら も、擬似的にRNNの時系列データを分析できる能 力を持てるように作られたニューラルネットとい える。

 

3.Kingma,Diederik P., et al.ʠSemi-supervised learning with deep generative models.ʡ Advances in Neural Information Processing Systems. 2014

4.Salakhutdinov, R., et al.ʠLearning with HierarchicalDeep Models, IEEE Transactions on Pattern Analysis and Machine Intelligence,35, 8, 1958-1971 2013.

5.Bradbury, J., et al.ʠQuasi-Recurrent Neural Networksʡ https://arxiv.org/abs/1611.01576

6.ディープラーニングオープンソースプラット フォーム「Chainer(チェイナー)」 http://chainer.org/