|
【講座主旨】
本講座は、医薬品・化学・材料系の研究開発者を対象に、これまでExcelで行っていた実験データの管理やデータ整理をPython(Pandas)に置き換え、業務の効率化を図るための入門講座です。
近年、ケモインフォマティクス(CI)やマテリアルズインフォマティクス(MI)の導入が進んでいますが、解析ツールやアルゴリズムにデータを投入する前段階として、機械が読み込める「構造化データ」へと整理(前処理)する実務が必要となります。本講座では、数式や統計学の解説ではなく、手元のExcel形式の実験データをPython(Pandas)を用いて利活用できる形式に整える具体的なコード記述と手順を解説します。
なお、講義内では、実務で頻出するデータ構造(化合物ID、反応条件、物性値など)を再現した演習用の疑似データを使用しながら、具体的なデータ解析手順やエラーへの対処法を説明します。
複数の実験条件が記録されたExcelデータの読み込みから開始し、手入力に伴う空欄(欠損値)の検出・処理、日付やロットごとに分かれた「複数シート・複数ファイル」の自動一括統合、条件ごとの集計(平均・最大・最小など)を解説します。最終的に、整理後のデータをExcel形式で出力し、日常の定型解析業務を自動化するための一連のプログラム構成の習得を目指します。
【講座内容】
◆CI/MI推進におけるPython活用と実験データの利活用
・化学・材料研究におけるデータ処理をPythonへ移行する目的
・インフォマティクス(CI/MI)の入力データとして必要なデータ形式
・開発環境「Google Colaboratory」の基本操作と演習の準備
◆実験Excelデータの読み込みとデータフレーム形式への整理
・実験データの読み込み
・行名・列名による指定やデータ抽出
・数値データに応じた昇順・降順の並び替え
◆手入力Excelに生じるデータ欠損・重複への対処
・Excelシート内の空欄の検出方法と除外
・空欄データへの置換・穴埋め処理
・系列や条件ごとの平均値・最大値・最小値の自動集計
◆シート別・ファイル別に分かれた「大量データの一括処理」
・「実験日別」「ロット別」に分かれた複数シートおよび複数ファイルのディレクトリ構造
・複数シート(または複数ファイル)の自動読み込み
・読み込んだ複数の実験データの結合・統合
◆データの可視化とExcelへの書き出し処理
・実験データの傾向を把握するための可視化
・整理・集計したデータをExcel形式で保存
・日常の定型処理を自動化するためのプログラム構成と運用の進め方
【質疑応答】
◆◆講師プロフィール◆◆◆
専門分野:ケモインフォマティクス、バイオインフォマティクス
略歴・活動・著書など:
理化学研究所、医薬基盤・健康・栄養研究所を経て現職。データから医薬品候補を探索する手法の開発を目指した研究、データサイエンス教育に従事。
・『まるっと解説 Python×ケモインフォマティクス データ収集から予測・生成まで』, 科学情報出版,
江崎 剛史、池田 和由、清水 祐吾
・『Pythonではじめる異常検知入門 ―基礎から実践まで―』, 科学情報出版, 江崎 剛史,
李 鍾賛(編:笛田 薫)
・Data curation in cheminformatics: importance
and implementation, Tsuyoshi Esaki, Kazuyoshi
Ikeda, J. Cheminform., 18: 43, 2026
|