No.2302

進化するヒトと機械の音声コミュニケーション Vol.2

～AIの活用と感情に寄り添う音声認識・合成の新展開～

発刊　：　2025年4月　　　体　裁　：　B5判 280頁　　　定　価：49,500円(税込）

発行：（株）エヌ・ティー・エス　　　販売：（株）技術情報協会　　　ＩＳＢＮ：978-4-86043-936-1 C3004

【アカデミック価格対象外書籍です】
アカデミック価格は技術情報協会が発行元、主催元である商品のみです。技術情報協会以外の発行元、主催元の商品はアカデミック価格の対象外となりますのでご了承ください。

◆人工知能の発展に伴い、飛躍的に進歩している音声認識・合成技術！

◆聴覚・発声のメカニズムから音声の認識・合成の最新技術、今後の展望まで網羅＆詳解！

◆娯楽・情報・福祉等、実用化事例も満載！　より豊かな生活に向けたコミュニケーションの実現へ!!

■　著者紹介

【執筆者】】（掲載順）
伊藤　彰則	東北大学　大学院工学研究科　教授
森川　大輔	富山県立大学　情報工学部　講師
上江洲安史	北陸先端科学技術大学院大学　先端科学技術研究科　特任助教
鳥谷　輝樹	山梨大学　大学院総合研究部　特任助教
高野佐代子	金沢工業大学　メディア情報学部メディア情報学科　准教授
河原　達也	京都大学　情報学研究科　教授
鵜木　祐史	北陸先端科学技術大学院大学　先端科学技術研究科　教授
齊藤　剛史	九州工業大学　大学院情報工学研究院　教授
吉村奈津江	東京科学大学　情報理工学院情報工学系　教授
平井　重行	京都産業大学　情報理工学部情報理工学科　教授
中島佐和子	秋田大学　情報データ科学部　准教授
大河内直之	東京大学　先端科学技術研究センター　特任研究員
中臺　一博	東京科学大学　工学院システム制御系　教授
糸山　克寿	株式会社ホンダ・リサーチ・インスティチュート・ジャパン Research Division Senior Scientist
福森　隆寛	立命館大学　情報理工学部　講師
周藤　　唯	(執筆当時)株式会社ホンダ・リサーチ・インスティチュート・ジャパン Research Division　Senior Engineer／ (現)SB Intuitions株式会社
松田　裕之	Nishika株式会社　代表取締役CTO
渡辺光太朗	Nishika株式会社　データサイエンティスト
白土　浩司	三菱電機株式会社　先端技術総合研究所ロボティクス技術部知能ロボティクスグループ　グループマネージャー
三井　祥幹	三菱電機株式会社情報技術総合研究所AI研究開発センター言語処理技術グループ主任
鳥居　　崇	NTTテクノクロス株式会社　IOWNデジタルツインサービス事業部　マネージャー
中川　達也	NTTテクノクロス株式会社　IOWNデジタルツインサービス事業部　アシスタントマネージャー
高橋　　敏	NTTテクノクロス株式会社　IOWNデジタルツインサービス事業部　ビジネスユニット長
加藤　集平	株式会社RevComm　リサーチ部門　シニアリサーチエンジニア
栗原　　清	日本放送協会　経営企画局デジタル業務改革室
小坂　哲夫	山形大学大学院理工学研究科教授
井上　昂治	京都大学大学院情報学研究科助教
森　　大毅	宇都宮大学　工学部　准教授
小林　彰夫	大和大学　情報学部　教授
松田　　健	阪南大学　総合情報学部　教授

■　目　　次

序論　音声処理研究の動向と今後の展望　〈伊藤　彰則〉

　1. 音声処理研究の変遷の概観
　2. 音声の分析合成
　3. 音声認識
　4. 音声合成
　5. 今後の展望

第1編　聴覚・発声のメカニズムと音声認識・合成の最新技術

第1章　聴覚・発声のメカニズム

　第1節　聴覚のメカニズム　〈森川　大輔／上江洲　安史／鳥谷　輝樹〉
　1. はじめに
　2. 振動の伝達と電気信号への変換
　3. 情報の抽出
　4. 情報の統合
　5. まとめ

　第2節　音声生成のメカニズム　〈高野　佐代子〉
　1. 音声生成のメカニズムの基礎
　2. 発　声
　3. 調音運動
　4. 言語情報・パラ言語情報・非言語情報　

第2章　音声認識の最新技術

　第1節　End-to-Endモデルによる音声認識　〈河原　達也〉
　1. はじめに
　2. 音声認識のための End-to-End モデルの分類
　3. Connectionist Temporal Classification（CTC）
　4. RNN トランスデューサ（RNN transducer）
　5. アテンションモデル（Attention model）
　6. トランスフォーマ（Transformer）
　7. 自己教師付き学習に基づく大規模事前学習モデル
　8. 主な大規模事前学習モデル
　9. おわりに

　第2節　骨導デバイスを利用した音声コミュニケーション：人と機械による音声認識　〈鵜木　祐史〉
　1. はじめに
　2. 骨導音声の伝搬
　3. 集音した骨導音声の認識
　4. 骨導提示した音声の認識
　5. おわりに

　第3節　読唇技術：音声情報を利用せずに映像情報のみを用いた音声認識技術　〈齊藤　剛史〉
　1. はじめに
　2. 関連研究
　3. 基本モデル
　4. 検討モデル
　5. 評価実験
　6. おわりに　

第3章　音声合成の最新技術

　第1節　脳活動信号を用いた言語情報の抽出と音声合成技術の動向　〈吉村　奈津江〉
　1. はじめに
　2. 脳活動信号の計測方法
　3. 意思伝達を目的としたブレイン・マシン・インタフェース（BMI）
　4. 脳活動信号を用いた音声・言語情報の抽出
　5. 脳活動信号を用いた言語情報抽出と音声合成の展望

　第2節　口真似による模倣音声からの効果音合成技術　〈平井　重行〉
　1. はじめに
　2. 非音声・非音楽な音響合成関連技術
　3. 擬音的模倣音声のみに基づく効果音合成
　4. おわりに

　第3節　視覚障害者の映像鑑賞における音声合成利用　〈中島　佐和子／大河内　直之〉
　1. はじめに
　2. 視覚障害者の映像鑑賞の歴史と音声合成の導入
　3. 音声合成を用いた音声ガイドの心理学的評価
　4. 音声合成を用いた音声ガイド制作の課題と音の作用
　5. 音声ガイドの自動生成技術の発展
　6. 課題と展望

第2編　音声認識・合成・コミュニケーションの応用技術

第1章　音声認識の応用技術

　第1節　ロボット聴覚のためのオープンソースソフトウェアHARK とPyHARK　〈中臺　一博／糸山　克寿〉
　1. はじめに
　2. ロボット聴覚オープンソースソフトウェアHARK
　3. HARKの課題とPython化
　4. PyHARKアーキテクチャ
　5. PyHARKを用いた実装例
　6. PyHARKの性能
　7. おわりに

　第2節　叫び声から危機を検知するための音声コーパス構築　〈福森　隆寛〉
　1. はじめに
　2. 叫び声コーパスRISCの構築
　3. RISCを用いた評価実験
　4. おわりに

　第3節　聴覚障がい者向け音声認識システムの開発　〈周藤　唯〉
　1. Honda CAシステム
　2. 従来の音声認識技術の課題
　3. 語彙拡張を実現する音声認識モデル
　4. 性能評価
　5. まとめと今後の展望

　第4節　世界最高水準の高精度音声認識AI「shirushi」の開発　〈松田　裕之／渡辺　光太朗〉
　1. はじめに
　2. 音声認識の課題と昨今の技術発展
　3. Whisper実用化のための取り組み
　4. 大規模言語モデル（LLM）との組み合わせによるさらなる性能向上
　5. 今後の展望

　第5節　音声認識AIを搭載したティーチングレスロボットシステムの開発　〈白土　浩司／三井　祥幹〉
　1. 概　要
　2. ティーチングレスロボットシステム
　3. 音声認識AI 技術の特徴
　4. まとめ

第2章　音声合成の応用技術

　第1節　生成AI時代の音声合成プロダクト「FutureVoice Crayon」　〈鳥居　崇／中川　達也／高橋　敏〉
　1. はじめに
　2. 会社紹介
　3. FutureVoice Crayon のプロダクト構成と技術動向
　4. FutureVoice Crayon の導入事例
　5. 今後の適用業界の拡大
　6. 今後の課題

　第2節　落語を演じる音声合成　〈加藤　集平〉
　1. はじめに
　2. 情報伝達を超えた音声合成としての落語を演じる音声合成
　3. 落　語
　4. リサーチ・クエスチョンと技術的課題
　5. 落語を演じる音声合成を作る
　6. 落語の音声合成は前座・二ツ目・真打ならどの水準に相当するのか
　7. おわりに

　第3節　日本放送協会における音声合成の研究開発と実用化　〈栗原　清〉
　1. はじめに
　2. 研究開発
　3. NHKにおける音声合成の実用化
　4. おわりに　

第3章　音声によるコミュニケーション技術

　第1節　音声による感情認識の開発　〈小坂　哲夫〉
　1. はじめに
　2. 感情音声コーパス
　3. 言語特徴と音響特徴を併用した音声感情認識
　4. まとめと今後の展望

　第2節　共感的な傾聴対話ロボットの開発　〈井上　昂治〉
　1. はじめに
　2. 傾聴対話システム
　3. 高齢者との対話実験
　4. 同調笑いの生成
　5. おわりに

　第3節　聞き手の反応によって発話タイミングを変える音声ガイダンス　〈森　大毅〉
　1. はじめに
　2. 聞き手反応の実時間検出
　3. 聞き手アウェアな音声ガイドシステムの開発
　4. 音声ガイドシステムとのインタラクション実験
　5. 考　察
　6. おわりに

　第4節　ろう・難聴者や盲ろう者のコミュニケーションを支援する音声処理　〈小林　彰夫〉
　1. はじめに
　2. 音声認識を用いた字幕による情報保障
　3. ろう・難聴者を対象とした音声認識
　4. 盲ろう者のための音声点訳
　5. ろう・難聴者の聞き取り支援
　6. おわりに

　第5節　音声認識AI を搭載したコミュニケーションロボットの開発　〈松田　健〉
　1. はじめに
　2. 音声認識技術とは
　3. 音声認識技術の実装上の課題
　4. おわりに

音声 コミュニケーション 書籍

音声　コミュニケーション　書籍