シラバス参照

講義概要/Course Information
2024/07/19 現在

科目基礎情報/General Information
授業科目名
/Course title (Japanese)
音声対話処理
英文授業科目名
/Course title (English)
Advanced Theory on Spoken Dialog Processing
科目番号
/Code
開講年度
/Academic year
2024年度 開講年次
/Year offered
全学年
開講学期
/Semester(s) offered
後学期 開講コース・課程
/Faculty offering the course
博士前期課程、博士後期課程
授業の方法
/Teaching method
講義 単位数
/Credits
2
科目区分
/Category
大学院専門教育科目 - 専門科目Ⅱ
開講類・専攻
/Cluster/Department
情報・ネットワーク工学専攻
担当教員名
/Lecturer(s)
南 泰浩
居室
/Office
IS-831
公開E-mail
/e-mail
minami.yasuhiro@is.uec.ac.jp
授業関連Webページ
/Course website
google classroom 参照
更新日
/Last update
2024/03/18 00:09:26 更新状況
/Update status
公開中
/now open to public
講義情報/Course Description
主題および
達成目標(2,000文字以内)
/Themes and goals(up to 2,000 letters)
音声対話システムを設計する際にこれから必要となるであろう基本的な概念を心理学的,哲学的,工学的な立場から講義していく.最初に,従来のタスク達成型対話システムを概観し,現在使われている対話システムとして携帯などに使われている対話システム(しゃべってコンシェルやSiriの基となるシステムであるCALO)を取り上げる.最後に,深層学習を利用する対話システムを取り上げる.また,要素技術に関しても,従来手法から最新手法までを取り上げていく.これらのシステムを参考に対話ができるシステムを構築できるようになることを目標にする.
This lecture will cover the basic concepts that are necessary for designing spoken dialogue systems from viewpoints of psychological, philosophical, and engineering perspectives. First, conventional task-driven dialogue systems will be reviewed, followed by a discussion of dialogue systems currently in use, such as those used in cell phones (CALO, which is the basis of the "Chattering Concierge" and Siri). Finally, we will discuss dialogue systems that use deep learning. We will also discuss primitive technologies for spoken dialogue systems, ranging from conventional methods to state-of-the-art methods. The goal is to enable students to have the knowledges for building a spoken dialogue system using the technologies described int this lecture.
前もって履修
しておくべき科目(1,000文字以内)
/Prerequisites(up to 1,000 letters)
プログラミングやアルゴリズムに関する科目
Subjects related to programing and algorithm.
前もって履修しておくこ
とが望ましい科目(1,000文字以内)
/Recommended prerequisites and preparation(up to 1,000 letters)
認知科学,機械学習に関する科目
Subjects related to machine learning.
教科書等(1,000文字以内)
/Course textbooks and materials(up to 1,000 letters)
基本的に資料を配布するが、必要な場合は、参考書などを講義中に適宜指示する。
Basically, I will hand out the slides used in this lecture.
But if necessary, I will give an instruction to refer to books or some papers etc
授業内容と
その進め方(2,000文字以内)
/Course outline and weekly schedule(up to 2,000 letters)
英語タイプ(Ba)により講義を実施, 基本的に英語ベースでの授業を行う.
1.イントロダクション
2.哲学的背景:規律訓練型社会から環境管理型社会へ  
3.心理学的背景:メディアの等式,情報システムに対する心理的考察
4.技術的背景:ルールベースから統計的手法を経て,深層学習へ
5.従来の対話システム:タスク達成型対話システム
  天気予報案内システムを題材として
6.現在の商用対話システムI
  CALO(Siriの基礎となるシステム)やしゃべってコンシェルを題材として

7.対話システムの要素技術I
  音声認識1
8.対話システムの要素技術II
  音声認識II
9.対話システムの要素技術III
  言語処理I
10.対話システムの要素技術IV
  言語処理II
11.対話システムの要素技術 V
  音声合成I
12.対話システムの要素技術VI
  音声合成II 
13.DNNを利用する対話処理I
14.DNNを利用する対話処理II
15.当該分野の発展的課題と今後の展望について紹介
ただし、最近の研究動向、受講者の興味・理解度に応じて、順序を変更したり、解説を追加・省略する可能性がある。
Lectures will be conducted in English type (Ba). Basically, English-based lectures will be given.
1. Introduction
2. Philosophical Background: From Discipline-Training Society to Environment-Managed Society.  
3. Psychological Background: Media Equation, Psychological Considerations on Information Systems.
4. Technological Background: From Rule-Based methods via Statistical Methods to Deep Learning.
5. Conventional Dialogue Systems: Task-oriented Dialogue Systems
  A Case Study of a Weather Forecast Information System.
6. Current Commercial Dialogue Systems
  CALO (the basis of Siri) and Shabete Concierge as examples.

7. Elemental Technologies for Dialogue Systems I
  Speech Recognition 1.
8. Elemental Technologies for Dialogue Systems II
  Speech Recognition II.
9. Elemental technologies for dialogue systems III
  Language Processing I.
10. Elemental Technologies for Dialogue Systems IV
  Language Processing II.
11. Elemental Technologies for Dialogue Systems V
  Speech Synthesis I.
12. elemental technologies for dialogue systems VI
  Speech Synthesis II. 
13. Dialogue Processing Using DNN I
14. Dialogue Processing Using DNN II
15. Introduction of developmental issues and prospects in the field
However, the order of the lectures may be changed, or explanations may be added or omitted, depending on recent research trends and the level of interest, and understanding of the participants.
実務経験を活かした
授業内容
(実務経験内容も含む)
/Course content utilizing practical experience
担当者のNTTでの実務に基づき,音声認識や音声合成,マルチモーダル対話システムなどの講義を行う.
Lectures on speech recognition, speech synthesis, and multimodal dialogue systems will be given based on the lecturer's practical experience at NTT.
授業時間外の学習
(予習・復習等)(1,000文字以内)
/Preparation and review outside class(up to 1,000 letters)
実習などで,プログラミングを行うので,OSやインターネット,プログラミングに関する知識を各自で習得すること.
Learning for OS, internet and programing is required.
成績評価方法
および評価基準
(最低達成基準を含む)
(1,000文字以内)
/Evaluation and grading
(up to 1,000 letters)
・数回のデータ作成課題,プログラミング課題とレポートを総合的に判断する.
Data preparation tasks, programming tasks, and the final report will be judged comprehensively.
・データ作成・プログラミング課題が期限内にすべて提出されていること。データやプログラムの完成度を評価する
・レポート期限内に提出されていること. レポートに関しては,音声対話で学んだ知識を理解し適切に表現できていること.
All data creation and programming assignments must be submitted by the due date. Completeness of the data and the programs will be evaluated.
The report must be submitted by the due date. The report must show that the student understands and can appropriately express the knowledge learned in these lectures.
オフィスアワー:
授業相談(1,000文字以内)
/Office hours(up to 1,000 letters)
わからないことはどんどん質問すること。講義中に聞けなかった質問はメールでアポイントの上居室まで。
学生へのメッセージ(1,000文字以内)
/Message for students(up to 1,000 letters)
近年,各企業は,音声対話処理を利用したロボットの開発を推し進めている.本授業では,担当者が携わってきた対話システムを例に挙げながら,最新の音声対話システムがどのような仕組みで構成されているのかについて学んでいく
その他
/Others
授業内容は,若干変わる可能性があります.
キーワード
/Keywords
環境管理,インタラクション,対話システム,音声認識,言語処理,識別学習
Interaction, dialogue systems, speech recognition, language processing, discriminative learning