大規模言語モデルを活用した材料開発の効率化とその事例

■　講師

１．	日本電気(株)　みらい価値共創部門　ビジネスイノベーション統括部　田中修吉氏、吉田登氏
２．	(株)日立製作所　研究開発グループ　先端AIイノベーションセンタ　主任研究員　博士(理学)　露木雅文氏
３．	MISTEM(同)　代表　向田志保氏

■　開催要領

日　時	：	２０２６年９月１８日(金)　１０：３０～１６：１５
会　場	：	Zoomを利用したLive配信　※会場での講義は行いません Live配信セミナーの接続確認・受講手順は「こちら」をご確認下さい。
聴講料	：	1名につき６０,５００円（消費税込、資料付）〔１社２名以上同時申込の場合のみ１名につき５５,０００円〕〔大学、公的機関、医療機関の方には割引制度があります。詳しくは上部の「アカデミック価格」をご覧下さい〕

■　プログラム

【10:30-12:00】

１．大規模言語モデルを活用した材料探索の高度化とそれを支えるAIプラットフォームサービス

日本電気(株)　みらい価値共創部門　ビジネスイノベーション統括部　田中修吉氏、吉田登氏

【講座の趣旨】
　高分子素材は、身の回りのあらゆる箇所で使用されている素材であり、さまざまな機能を満たす素材を素早く開発することが求められています。しかし、膨大な過去の社内資料が死蔵されていて、調査が満足にできないケースも散見します。また、試作検討についても、大規模なオープンデータベースがなく、シミュレーションやハイスループット実験（実験自動化）もハードルが高く、十分なデータを得られないといった課題も存在しています。
　本講では大規模言語モデルをはじめとする生成AI技術を素材開発分野に応用して、これらの課題を解決する素材開発プラットフォームについて解説します。

１．はじめに

２．素材開発プラットフォームとは？

３．素材開発プラットフォームにおけるコア技術
　3.1 素材候補の背景情報検索・絞り込み
　3.2 高分子の特徴を組み込んだ機械学習モデルと分子生成技術

４．バイオプラスチック開発への適用事例

【質疑応答】

【13:00-14:30】

２．大規模言語モデルによる特許からの実験データ抽出と活用

(株)日立製作所　研究開発グループ　先端AIイノベーションセンタ　主任研究員　博士(理学)　露木雅文氏

【講座の趣旨】
　本講演では、特許公報に含まれる材料開発データの抽出・活用方法について解説します。材料開発 (マテリアルズ・インフォマティクス) では、機械学習に利用可能な実験データの不足が大きな課題となっています。一方、特許公報には、材料組成、製造条件、評価方法、物性値など、実験に基づく有用な情報が多数含まれています。
　近年の大規模言語モデルの発展により、従来は人手で読み解く必要があった特許文献から、実験データを始めとした技術情報を効率的に抽出できるようになってきました。本講演では、特許公報の構造や特徴、大規模言語モデルの基本的な使い方を踏まえ、材料開発に必要な実験データをどのように抽出し、活用するかを具体的に紹介します。
　また、抽出精度を高めるためのプロンプト設計、スキーマ定義、抽出結果の検証方法、利用上の注意点についても取り上げます。特許文献を研究開発のためのデータとして活用したい技術者、研究者にとって実務に役立つ内容を目指します。

【習得できる知識】
・大規模言語モデルを用いた特許公報の解析、データ抽出方法
・特許公報から抽出できるデータの活用方法
・大規模言語モデル、特許公報の活用における注意事項

１．はじめに

２．マテリアルズ・インフォマティクスにおけるデータ不足の課題
　2.1 材料開発における機械学習の活用
　2.2 社内の実験データ不足の問題
　2.3 公開データの活用
　2.4 特許公報が持つデータ源としての可能性
　2.5 特許公報の活用における課題

３．特許公報の活用事例
　3.1 分子構造・材料組成データの抽出と活用事例
　3.2 合成条件・製造条件の抽出と活用事例
　3.3 物性値・評価結果の抽出と活用事例

４．特許公報の基礎
　4.1 特許公報の種類と位置づけ
　4.2 特許公報に含まれる主な情報
　4.3 データが記載されやすい箇所
　4.4 特許特有の表現
　4.5 国・地域ごとの特徴

５．大規模言語モデルの基礎
　5.1 大規模言語モデルの基本的な仕組み
　5.2 大規模言語モデルが得意な処理と不得意な処理
　5.3 大規模言語モデルによるデータ抽出の概要
　5.4 大量データの処理に適したモデルの選択

６．特許公報からのデータ抽出のテクニック
　6.1 処理の全体像
　6.2 特許公報データの取得方法
　6.3 特許公報の前処理
　6.4 抽出対象のスキーマ定義
　6.5 出力フォーマットの選定 (JSON、CSVなど)
　6.6 テキストからのデータ抽出
　6.7 表・画像からのデータ抽出
　6.8 抽出データの統合
　　・正規化 (物性名、単位、物質名、略称など)
　　・抽出漏れ・誤抽出を減らすプロンプト設計
　6.9 ハルシネーション対策
　・ルールベース処理との組み合わせ
　・AIエージェントの活用
　・プロンプト最適化
　6.10 抽出結果の検証と人手確認のポイント

７．抽出したデータの活用テクニック
　7.1 抽出データのクレンジング (欠損値、外れ値、重複の処理)
　7.2 抽出データのデータベース化
　7.3 機械学習モデルへの入力データ作成
　7.4 データ分布の可視化
　7.5 応用
　・性能予測モデル
　・技術トレンド分析
　・候補材料探索

８．注意事項
　8.1 特許公報データベースの利用規約
　8.2 LLM利用時の機密情報管理
　8.3 抽出データの利用に関する権利関係
　8.4 抽出データの信頼性

９．まとめと将来展望
　9.1 LLMによるデータ抽出の今後の発展
　9.2 特許公報を活用した材料開発の可能性

【質疑応答】

【14:45-16:15】

３．化学分野における大規模言語モデルの活用事例

MISTEM(同)　代表　向田志保氏
【兼務】信州大学工学部特任教授　/　東北大学材料科学高等研究所特任教授（客員）
　　　　　大阪大学基礎工学研究科招聘教授　/　広島大学工学部客員教授

１．大規模言語モデルの概要

２．ChatGPTの登場
　2.1 GPT-4モデルの登場

３．大規模言語モデルの活用
　3.1 環境の導入
　3.2 活用のポイント
　3.3 注意すべきポイント

４．化学における大規模言語モデルの活用
　4.1 GPT-4が苦手とする化学分野のタスク
　　・化学分野の基本的な知識
　　・名称の予測
　　・反応の予測
　4.2 GPT-4が得意とする化学分野のタスク
　　・物性予測
　　・テキストベースの分子設計

５．化学分野に特化した大規模言語モデルの活用事例
　5.1 ChatExtract
　　・ChatExtractの特徴
　5.2 ChemCrow
　　・ChemCrowの特徴
　　・ChemCrowの機能

６．創薬分野とChatGPT
　6.1 ChatDrugの構成

７．生成AIの進化と材料探索の展望
　7.1 大規模言語モデルの活用
　7.2 特化型の大規模言語モデル
　7.3 マルチモーダルモデル

【質疑応答】