機械学習 (Machine Learning)

矢向研究室では、機械学習に関する研究を行っています。

特に、画像処理と深層学習を組み合わせたコンピュータビジョンや、弊学薬学部と共同で医療データの分析を行う研究を行っています。

医薬品の有害事象予測

近年、データ量の増加、計算機の性能向上、深層学習の登場等により、ビッグデータ分析技術が発展しています。

本研究室では、薬学部との共同研究として、機械学習を用いて蓄積された医療データから有害事象(患者に生じる意図しない傷病)を予測することを目的とした研究を行っています。

pharm_process.png

 

分析には、主に自然言語処理で使用される手法を用いています。

その一つが分散表現 (Distributed representation) です。分散表現は単語を高次元の実数ベクトルで表現する技術です。これにより、医療データを意味や文脈を捉えた数値表現に変換することができます。

また、予測には、主に深層ニューラルネットワーク (Deep Nueral Network)、Long short-term memory (LSTM)、自己注意機構 (Self-attention) などの深層学習モデルを使用しています。

以下は作成した分散表現の分析結果の一例と、Transformerと呼ばれる自然言語処理用のモデルを元にした予測モデルです。

 

pharm_dr2.png pharm_model.png

 

三次元物体検出

深層学習の応用先の一つとして,自動運転分野が挙げられます.自動運転車の実用化には,車両自身が周囲の車両・自転車・歩行者などの物体を高速かつ高精度に検出する技術が必須となります.近年は,画像とCNNを利用した物体検出に加えて,LiDAR (Light Detection and Ranging)から得られる三次元点群をDNNに入力することで物体を三次元で検出する研究が盛んに行われています.下の画像は,LiDARによって取得された点群データを可視化したものです.

point_cloud.png

座標変換により三次元点群に画像が持つ色情報を付与することで,高速な処理速度を維持したまま,検出難易度が高い歩行者・自転車に対する精度を向上する研究に取り組んでいます.

 

クラスタリングアルゴリズム

機械学習手法の1つに,クラスタリングと呼ばれるものがあります.クラスタリングとはデータ間の類似度に基づいてデータをグループ分けする手法です.一般的なクラスタリングでは,データの分布がガウス分布に従うと仮定したり,クラスタ数や密度などのパラメータを設定してクラスタリングを行いますが,一般的にはデータセットのクラスタ数や分布というのは未知であるため,データセットの概形によっては精度の高いクラスタリング結果を得ることが出来ないことがあります.

  

そこでデータセットの概形に対して柔軟な,クラスタ数などのパラメータを自動設定してくれる汎用的なクラスタリング手法についての研究に取り組んでいます.

主な業績

  • 西川景太、種村菜奈枝、矢向高弘、漆原尚巳、機械学習を用いた医薬品の潜在的リスク予測、第39回医療情報学連合大会、11月21-24日、2019. 国際展示場(東京都・江東区)
  • 町井湧介、種村菜奈枝、漆原尚巳、矢向高弘、小児における医薬品開発および安全性評価の向上に向けた医療用ビッグデータ分析による新手法の検討、第24回日本薬剤疫学会学術総会、10月13-14日, 2018. 東北大学(宮城県・仙台市)
  • Tomoki Ishikawa, Takahiro Yakoh, Hisashi Urushihara, An NLP-Inspired Data Augmentation Method for Adverse Event Prediction Using an Imbalanced Healthcare Dataset, IEEE Access, 01 August, 2022