自然言語処理技術を応用した化学情報のマルチモーダル学習と予測

プロジェクト概要

化学論文において、ポジティブな薬剤活性や新規化合物の発見は分かりやすい形で報告されています。一方で、ネガティブな情報や定性的な情報についてはそうではなく、見過ごされることが多いです。本プロジェクトでは、既存の研究に含まれる有用な情報を余すことなく利用し、化学的な予測を向上させることを目指します。

研究内容

🎯 主要な研究テーマ

1. 化学情報と論文情報の同時予測による、化合物表現の向上

  • 論文の文字列と化学情報を同時にマルチモーダル学習
  • 学習した化合物表現により、複雑な活性を予測
  • それぞれの学習表現による予測よりも、精度が向上したことを報告

2. 分子説明文の自然言語処理による化合物の生物学的役割の予測と解釈

  • 3926個の分子の生物学的役割の有無の予測
  • 文書情報と分子の構造情報を組み合わせることによる埋め込み表現の作成
  • 重要度解析による構造活性相関の解明

🔬 研究手法・アプローチ

Word2Vec

  1. 化学論文の解析: 化学論文をモデルに学習させることで、化合物表現と物性を比較
  2. 物性による補正: 物性を学習過程に予測対象として使用することで、化合物表現を補正

Doc2Vec

  1. 化合物データベースの学習: 化合物に関する説明文をデータベースから取得し、学習

BERT

  1. ここに手法を挿入: 簡易的な説明を挿入

LLM

  1. 知識グラフの作成: 化合物に関する知識グラフの作成

その他の技術

  1. SHAP: 予測の影響を説明可能。化合物の部分構造の重要性を示す。
  2. 次元削減: PCAやUMAPなど。次元削減により化合物がマッピングできる

研究成果

📊 定性的成果

活性予測への応用可能性

  • 化合物表現空間の可視化: 化合物の特徴を識別した化合物表現を作成し、可視化
  • 部分構造ごとの表現作成: 部分構造ごとで、活性に関与する表現を作成
  • 言語的化合物特性の反映: 論文の文章に、化学的特性が反映されることを示唆

📄 定量的成果

  • 既存の記述子よりも予測精度を向上(6.2%↑)
  • 少ない学習回数での学習に成功

応用・展開

🚀 実用化への展開

医薬・創薬分野

  1. 創薬候補のスクリーニング: 新規薬剤候補を作成したモデルによりスクリーニング。論文追加によるアプデも可能
  2. 新規分子の生成: スクリーニング技術から、生成の評価関数として使用可能

関連論文

(※presented by ChatGPT-4o)