シラバス参照

講義概要/Course Information
2024/07/19 現在

科目基礎情報/General Information
授業科目名
/Course title (Japanese)
データ工学原論2
英文授業科目名
/Course title (English)
Principles of Data Engineering 2
科目番号
/Code
開講年度
/Academic year
2024年度 開講年次
/Year offered
全学年
開講学期
/Semester(s) offered
前学期 開講コース・課程
/Faculty offering the course
博士前期課程、博士後期課程
授業の方法
/Teaching method
講義 単位数
/Credits
2
科目区分
/Category
大学院専門教育科目 - 専門科目Ⅱ
開講類・専攻
/Cluster/Department
情報・ネットワーク工学専攻
担当教員名
/Lecturer(s)
大森 匡
居室
/Office
西10-529
公開E-mail
/e-mail
omori@is.uec.ac.jp
授業関連Webページ
/Course website
http://home.hol.is.uec.ac.jp/omori Google Classroom (遠隔授業の欄を見よ) に授業資料掲載
更新日
/Last update
2024/07/12 15:31:26 更新状況
/Update status
公開中
/now open to public
講義情報/Course Description
主題および
達成目標(2,000文字以内)
/Themes and goals(up to 2,000 letters)
*** 講義は対面で行います.時々状況に応じてzoom/hybridあり ***
本講義では2010年代以後のデータベース研究における巨大データの記憶・変換・データ管理・情報抽出利用に関する主要技法を解説する.ここ数年の例では,分散・巨大化したデータ永続記憶の作り方,大量データからの情報抽出・検索・変形を行うデータ処理システムの原理,一貫性維持,多様な新しいデータの検索と利用,最近の分散データ管理機構の原理,などを扱う.
//
New-era database platform techniques and fundamental data-architectures appeared since 2010's are introduced in this lecture.  Examples are: distributed data stores, ultra-scale data analysis platforms with respect to parallel database machines, search indexing and mining for massive multi-dimensional data and sequence scalar data, consistency and concurrency over distributed shared databases.
前もって履修
しておくべき科目(1,000文字以内)
/Prerequisites(up to 1,000 letters)
情報系学部科目のうち,アルゴリズム論,データベース論,オペレーティングシステム論,の3つ.分野外から始める学生でも分かるように注意しますが,良く理解するには重要.
// undergraduate level classes of algorithms, database systems, operating systems
前もって履修しておくこ
とが望ましい科目(1,000文字以内)
/Recommended prerequisites and preparation(up to 1,000 letters)
関係データベースに関する学部科目の履修経験があるほうが話は理解しやすい.なくても一部入門的な内容は含むのであとは入門書などで自習してほしい.
// undergraduate course of relational database systems is helpful.
教科書等(1,000文字以内)
/Course textbooks and materials(up to 1,000 letters)
配布資料を使って行う.Google Classroom(遠隔授業の欄にクラスコード掲載)に掲載する.学生にとっての参考書は下記のとおり:
// materials are supplied in each topic. References are as follows:

入門基礎的な内容
川越恭二 著  「楽しく学べるデータベース」オーム社.(2007) 良くまとまっていて初心者が分野研究の方向を知るには推薦できる良書.

標準的な学部教科書:北川  「データベースシステム」(オーム社から再販中,第2版) (正確で論述が堅いが中身は普通の学部3年向け程度.元は昭晃堂から発刊.) 最近新版が改編執筆されたが本質は同じなので新版・旧版いずれでも良い.

先進編
1.グレイ、ロイター著 喜連川監訳 「トランザクション処理 概念と技法」
(J.Gray, A.Reuter, "Transaction Processing: Concepts and Techniques, Morgan Kaufmann Pub.) (並行分散トランザクション処理技術の専門書).

2.DBLPサイトからACM SIGMOD, VLDB, ICDE国際会議の論文を宿題に出すかもしれない.
  (DBLP site, the bibliography of database research papers. All papers of ACM SIGMOD, VLDB, ICDE can be downloaded freely.)

3.Mining of Massive Datasets, 2nd edition,  A.Rajaraman, J.D.Ullman.Cambridge Univ. Press, 2015. (All materials and slides are accessible from the authors' web site. ) これも3rd ed.など改版が2~3年おきにあるが母体は同じ.

その他:英語の古典的なDB教科書.大学院初年次くらいの内容で良くまとまっている.
- Ramakrishnan, Gehrke, "Database Management Systems," 3rd edition, McGrawHill Pub.
授業内容と
その進め方(2,000文字以内)
/Course outline and weekly schedule(up to 2,000 letters)
英語タイプ(Cb).出典引用する資料は元が英語論文・教科書からだが,ほぼ全部を日本語訳に直している.独自作成資料は日本語か英語資料に日本語でコメントを入れたもの.元論文などへの英語の出典は必ずつけてある.クラスルームに先行して載せるので,英語資料は元資料をあたってほしい.講義は日本語で解説する.

 本講義は長年,大学院情報システム学研究科でデータベース分野の巨大データ管理・処理システムソフトウェアの設計原理とデータベース処理のアルゴリズム・処理演算系の研究を行うための基本を教える大学院講義として編成されてきた.これを元に2018以後は,2010年代以降に登場した新しいデータ処理基盤システムの原理・技法を概説して,2020年代のデータベース研究の代表的国際会議の論文を読める程度になることを目指す.

1. ガイダンス(第1回)
2.大規模データ記憶システムの原理 
 (第2回.ストレージシステムの現在,第3回.分散ストレージ,第4回.Amazon Dynamo)

3.関係データベースの原理と演算系再訪 (第5回).
       
4.並列分散データベース処理の原理 
 (第6回.並列ハッシュ結合,  第7回.並列データベースマシン,
    第8回.MapReduceシステム,第9回.MapReduceと並列データベース処理)

5.空間・時系列・多次元・距離空間のデータ
(第10回.R木と距離木,多次元データの近傍検索,第11回.時系列データの類似検索)

6.各種データ応用とデータベース研究の話題 
(第12回.パターンマイニングや機械学習とDB研究から,第13回.グラフとDB研究 )

7.データ共有システムの一貫性維持の原理
(第14回.データベースの一貫性,並行トランザクション処理など)
(第15回.分散データシステムの一貫性,まとめ.)
   
頻出アイテムセット計算やクラスタリングなど古典的なデータマイニングの話題についてはデータ工学原論1(新谷)が扱うため,この講義では主には扱いません.セマンティックウェブ,自然言語処理,統計的機械学習など,他の大学院講義が主題とするはずの内容も,関連したDB研究側の論文で優れた事例がある場合の他は,扱わないことにしています.第14・15回の中身は履修学生の関心に合わせて毎年調整しています.

This lecture introduces new database technologies and their principles,  algorithms and designs which appeared since 2010's.   Examples are: distributed data stores, ultra-scale data analysis platforms with respect to parallel database machines, search indexing and mining for massive multi-dimensional data and sequence scalar data, consistency and concurrency over distributed shared databases.  Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others.  Students may be required to submit their understanding of these papers and discussion.


実務経験を活かした
授業内容
(実務経験内容も含む)
/Course content utilizing practical experience
授業時間外の学習
(予習・復習等)(1,000文字以内)
/Preparation and review outside class(up to 1,000 letters)
データベース研究を代表する国際会議はACM SIGMOD, VLDB, IEEE ICDEの3つですが,論文内容の影響力は巨大IT系の研究なので大きい.一方,内容は必要以上に複雑になり過ぎて間口を狭くしていると思う.授業では巨大データ基盤機構の基本や背景の説明を入門編として前半重視して,後半か最後のレポートなどの課題で論文解説などを出して,授業資料を基に履修学生に思考してもらう予定.
// today's database research issues are widely spread. Some backgrounds and reasons of these issues need to be understood in order to proceed into advanced data researches. Major materials and international conference papers will be introduced in the lecture as a guidance.
成績評価方法
および評価基準
(最低達成基準を含む)
(1,000文字以内)
/Evaluation and grading
(up to 1,000 letters)
履修学生と相談の上で,最近のデータベースの国際会議から論文概要を作る課題を宿題かレポート課題として後半または最後に出す.それらの各課題と最終レポートで総合成績.

Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others.  Students may be required to submit their understanding of these papers and discussion.
オフィスアワー:
授業相談(1,000文字以内)
/Office hours(up to 1,000 letters)
講義終了後の時間帯.// contact via e-mail after each time of the lecture ends
学生へのメッセージ(1,000文字以内)
/Message for students(up to 1,000 letters)
データベース研究を代表する国際会議であるACM SIGMOD, VLDB,の2017~2023年の論文一覧などをDBLPサイトで見て,巨大データの記憶・検索・情報抽出や現在のデータ応用との相互関係についての知見を深めてもらいたい.Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others.
その他
/Others
2019年から情報学専攻の学部3年前期で「データベース論」を教えており,データベースの学部入門編として位置づけていますが,それとの対比として,本大学院講義では,データベース研究の現代版として,発展した,入門編の時とは相当違った現代のDB研究の諸原理を紹介します.毎年の履修学生が3~7人程度と少ないのでそこを活かして最近のデータベース研究から見た周辺との関連テーマも時々とりあげます.米国の著名な最近のDB系のテキストに沿ってやることも毎年考えていますが,今期終了時に履修学生の意見随時質問や意見などをお聞かせください.
// In order to pass the lecture, students are required to understand top-level database conference papers and technical topics specified in the lecture.
キーワード
/Keywords
データベース研究,データ工学,データ処理基盤,アルゴリズム,高価値情報抽出,トランザクション処理とデータ共有更新システムの原理,時空間データ応用,など.
//
database research, data-platform systems, distributed data-stores, ultra-scale data analysis,  new index, concurrency and consistency over distributed data