![]() ![]() |
講義概要/Course Information |
科目基礎情報/General Information |
授業科目名 /Course title (Japanese) |
データ工学原論2 | ||
---|---|---|---|
英文授業科目名 /Course title (English) |
Principles of Data Engineering 2 | ||
科目番号 /Code |
|||
開講年度 /Academic year |
2025年度 | 開講年次 /Year offered |
全学年 |
開講学期 /Semester(s) offered |
前学期 | 開講コース・課程 /Faculty offering the course |
博士前期課程、博士後期課程 |
授業の方法 /Teaching method |
講義 | 単位数 /Credits |
2 |
科目区分 /Category |
大学院専門教育科目 - 専門科目Ⅱ | ||
開講類・専攻 /Cluster/Department |
情報・ネットワーク工学専攻 | ||
担当教員名 /Lecturer(s) |
大森 匡 | ||
居室 /Office |
西10-529 | ||
公開E-mail |
omori@is.uec.ac.jp | ||
授業関連Webページ /Course website |
http://home.hol.is.uec.ac.jp/omori Google Classroom(遠隔講義の欄に掲載)に資料掲載中. | ||
更新日 /Last update |
2025/04/21 15:48:31 | 更新状況 /Update status |
公開中 /now open to public |
講義情報/Course Description |
主題および 達成目標(2,000文字以内) /Themes and goals(up to 2,000 letters) |
*** 講義は対面で行うが今季はzoom同時放送・録画掲載を適宜併用する.zoomIDはGoogle Classroomに掲載してあります.履修する学生は必ずClassroom(遠隔講義の欄に掲載)に登録してください.*** 本講義では2010年代以後のデータベース研究における巨大データの記憶・変換・データ管理・情報抽出利用に関する主要技法を解説する.例えば,分散・巨大化したデータ永続記憶機構の作り方,大量データからの情報抽出・検索・変形を行うデータ処理システムの原理,一貫性維持,多様な新しいデータの検索と利用,最近の分散データ管理機構の原理,などを扱う.これらを通して,現代の巨大データ企業が提示している新データ応用とそれを支えるデータエンジンの技術の両面を理解してほしい. // New-era database platform techniques and fundamental data-architectures appeared since 2010's are introduced in this lecture. Examples are: distributed data stores, ultra-scale data analysis platforms with respect to parallel database machines, search indexing and mining for massive multi-dimensional data and sequence scalar data, consistency and concurrency over distributed shared databases. |
---|---|
前もって履修 しておくべき科目(1,000文字以内) /Prerequisites(up to 1,000 letters) |
情報系学部科目のうち,アルゴリズム論,オペレーティングシステム論,データベース論,の3つ.分野外から始める学生でも分かるように注意します.SQLはほぼ関係ないので,(I類の)学部データベース論を履修していなくてもあまり困らない.講義は主に現在の巨大データ基盤システムの機構や原理,今のAI的・先端的なデータ利用技法の原理と巨大データ計算との関連,を紹介するので,トランザクション処理,関係代数演算のjoinなど巨大データ処理系アルゴリズムと問い合わせ最適化原理,など学部で必ずやるはずのエンジン系の技術はわかっていたほうが良い. // undergraduate level classes of algorithms, database systems, operating systems |
前もって履修しておくこ とが望ましい科目(1,000文字以内) /Recommended prerequisites and preparation(up to 1,000 letters) |
関係データベースに関する学部科目の履修経験があるほうが話は理解しやすい.なくても一部入門的な内容は含み,学部のデータベース講義をとっていなくても本講義の本質は分かるようにする. // undergraduate course of relational database systems is helpful. |
教科書等(1,000文字以内) /Course textbooks and materials(up to 1,000 letters) |
配布資料を使って行う.学生にとっての参考書は下記のとおり: // materials are supplied in each topic. References are as follows: 入門基礎的な内容 川越恭二 著 「楽しく学べるデータベース」共立出版.(2014) 良くまとまっていて初心者が分野研究の方向やその後の展開を知るには推薦できる良書.学部DB論を未履修の学生はこの教科書が助けになる.(昭こう堂から2007出版で共立出版で移動したので中身は同じ). 標準的な学部教科書:北川 「データベースシステム」(オーム社から新装再販中,第2版) (正確で論述が堅いが中身は普通の学部3年向け程度.元は昭晃堂から発刊.) 最近新版が改編執筆されたが本質は同じなので新版・旧版いずれでも良い. 先進編 1.グレイ、ロイター著 喜連川監訳 「トランザクション処理 概念と技法」 (J.Gray, A.Reuter, "Transaction Processing: Concepts and Techniques, Morgan Kaufmann Pub.) (並行分散トランザクション処理技術の専門書). 2.DBLPサイトからACM SIGMOD, VLDB, ICDE国際会議の論文を宿題に出すかもしれない. (DBLP site, the bibliography of database research papers. All papers of ACM SIGMOD, VLDB, ICDE can be downloaded freely.) 3.Mining of Massive Datasets, 2nd edition, A.Rajaraman, J.D.Ullman.Cambridge Univ. Press, 2015. (All materials and slides are accessible from the authors' web site. ) これも3rd ed.など改版が2~3年おきにあるが母体は同じ. その他:英語の古典的なDB教科書.大学院初年次くらいの内容で良くまとまっている. - Ramakrishnan, Gehrke, "Database Management Systems," 3rd edition, McGrawHill Pub. |
授業内容と その進め方(2,000文字以内) /Course outline and weekly schedule(up to 2,000 letters) |
英語タイプ(Cb).出典引用する資料は元が英語論文・教科書からだが,ほぼ全部を日本語訳に直している.独自作成資料は日本語か英語資料に日本語でコメントを入れたもの.元論文などへの英語の出典は必ずつけてある.英語資料は元資料をあたってほしい.講義は日本語で解説する. 講義編成は以下を基本とし,特に第10回以後は現在のデータ応用研究の実例やその原理を,履修者の関心も聞きつつtopicを選び,紹介するように努めます. 1. ガイダンス(第1回) 2.大規模データ記憶システムの原理 (第2回.ストレージシステムの現在,第3回.分散ストレージ,第4回.Amazon Dynamo protocol) 3.関係データベースの原理と演算系再訪 (第5回). 4.並列データベース処理機構の原理 (第6回.並列ハッシュ結合, 第7回.並列データベースマシン, 第8回.MapReduceシステム,第9回.MapReduceと並列データベース処理) 5.空間・時系列・多次元・距離空間のデータ (第10回.R木と距離木,多次元データの近傍検索,第11回.時系列データの類似検索) 6.各種データ応用とデータベース研究の話題 (第12回.パターンマイニングや機械学習などを扱う巨大データ応用の話題から,第13回.グラフとDB研究tutorialなどから) 7.データ共有システムの一貫性維持の原理 (第14回.データベースの一貫性,並行トランザクション処理など) (第15回.分散データシステムの一貫性,まとめ.) 頻出アイテムセット計算やクラスタリングなど古典的なデータマイニングの話題についてはデータ工学原論1(新谷)が扱うため,この講義ではあまり主には扱いません.セマンティック ウェブ,自然言語処理,統計的機械学習なども同じ.ただし,こうしたデータ応用を,内側のデータエンジン側からどう扱うか,その相互作用が何か,などの視点から,関連したDB研究側の論文や海外のtutorialから優れたものがあればそれを選んで後半で紹介します. This lecture introduces new database technologies and their principles, algorithms and designs which appeared since 2010's. Examples are: distributed data stores, ultra-scale data analysis platforms with respect to parallel database machines, search indexing and mining for massive multi-dimensional data and sequence scalar data, consistency and concurrency over distributed shared databases. Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others. Students may be required to submit their understanding of these papers and discussion. |
実務経験を活かした 授業内容 (実務経験内容も含む) /Course content utilizing practical experience |
|
授業時間外の学習 (予習・復習等)(1,000文字以内) /Preparation and review outside class(up to 1,000 letters) |
データベース研究を代表する国際会議はACM SIGMOD, VLDB, IEEE ICDEの3つですが,論文内容の影響力は巨大IT系の研究なので大きい.一方,内容は必要以上に複雑になり過ぎて間口を狭くしていると思う.授業では巨大データ基盤機構の基本や背景の説明を入門編として前半重視して,後半か最後のレポートなどの課題で論文解説などを出して,授業資料を基に履修学生に思考してもらう予定. // today's database research issues are widely spread. Some backgrounds and reasons of these issues need to be understood in order to proceed into advanced data researches. Major materials and international conference papers will be introduced in the lecture as a guidance. |
成績評価方法 および評価基準 (最低達成基準を含む) (1,000文字以内) /Evaluation and grading (up to 1,000 letters) |
講義で紹介した各項目に関する理解度や簡略化した要素の追求をしてもらうか,関連論文から総合的な調査概要を作る,あるいは,項目に関して紹介したデータベース系統の国際会議から調べて概要を作る,などで最終的なレポートを出す.同様の中身を途中で出す場合もある.これらの総合点で判定. なお,ー今季は特に,対面の出席者が0~1名,オンラインが2~0名,などが予想されるため,講義の各項目ごとに,履修学生の理解を促すためのレポートか課題を出し,その報告と最終のレポートで成績判定とします. Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others. Students may be required to submit their understanding of these papers and discussion. In this year 2025, only a few students are expected to participate in the lecture, whether or not their participation are physical or on-line. Thus, for each unit of related topics of the lecture, an exercise or a short report is required, in addition to the final report. |
オフィスアワー: 授業相談(1,000文字以内) /Office hours(up to 1,000 letters) |
講義終了後の時間帯.// contact via e-mail after each time of the lecture ends |
学生へのメッセージ(1,000文字以内) /Message for students(up to 1,000 letters) |
データベース研究を代表する国際会議であるACM SIGMOD, VLDB,の2017~2023年の論文一覧などをDBLPサイトで見て,巨大データの記憶・検索・情報抽出や現在のデータ応用との相互関係についての知見を深めてもらいたい.Major materials of lectures are chosen from top-level conferences w.r.t. database researches and data-mining such as ACM SIGMOD, VLDB, IEEE ICDE, and others. |
その他 /Others |
2019年から情報学専攻のII類・学部3年前期で「データベース論」を教えており,データベースの学部入門編として位置づけていますが,本大学院講義では,データベース研究の現代版として,発展した,入門編の時とは相当違った現代のDB研究の諸原理を紹介します.毎年の履修学生が2~5人程度と少なくなる傾向が最近高いのでそこを活かして最近のデータベース研究から見た周辺との関連テーマも時々とりあげます. // In order to pass the lecture, students are required to understand top-level database conference papers and technical topics specified in the lecture. |
キーワード /Keywords |
データベース研究,データ工学,データ処理基盤,データエンジン,データベース応用の各アルゴリズム,高価値情報抽出,トランザクション処理とデータ共有更新システムの原理,時空間データ応用,など. // database research, data-platform systems, distributed data-stores, ultra-scale data analysis, new index, concurrency and consistency over distributed data |