シラバス参照

講義概要/Course Information
2024/06/20 現在

科目基礎情報/General Information
授業科目名
/Course title (Japanese)
データサイエンス演習
英文授業科目名
/Course title (English)
Data Science Studies
科目番号
/Code
開講年度
/Academic year
2024年度 開講年次
/Year offered
3
開講学期
/Semester(s) offered
前学期 開講コース・課程
/Faculty offering the course
情報理工学域
授業の方法
/Teaching method
演習 単位数
/Credits
1
科目区分
/Category
実践教育科目
開講類・専攻
/Cluster/Department
情報理工学域
担当教員名
/Lecturer(s)
庄野 逸
居室
/Office
東7-213
公開E-mail
/e-mail
ryotaro.sano@uec.ac.jp
授業関連Webページ
/Course website
Google Classroomを設定する.クラスコードは pcvrdwf
更新日
/Last update
2024/03/13 18:09:03 更新状況
/Update status
公開中
/now open to public
講義情報/Course Description
主題および
達成目標(2,000文字以内)
/Themes and goals(up to 2,000 letters)
本授業では、今後、社会人として重要な素養となる、データサイエンスの実践的な教育を行う(就職の際にも、必須のスキルとなる)。具体的には、実際のデータサイエンスの課題に取り組むことによって、基本的なデータ分析スキルを向上させることを第一の目的とする。さらに、データサイエンスが社会でどのように活用されているのかを知ることを第二の目的とする。本授業では、国際的なデータサイエンス関連サイトKaggleの過去のコンペに参加することを目指す。(すでにコンペは締め切られているので、良い成績を上げても賞金を受け取ることはできないが、非常に良い練習になる。)
前もって履修
しておくべき科目(1,000文字以内)
/Prerequisites(up to 1,000 letters)
総合コミュニケーション科学
前もって履修しておくこ
とが望ましい科目(1,000文字以内)
/Recommended prerequisites and preparation(up to 1,000 letters)
確率・統計関係の科目
教科書等(1,000文字以内)
/Course textbooks and materials(up to 1,000 letters)
斉藤・西野・庄野:「実践AI・データサイエンス入門」, 学術図書出版(2022刊行予定)
授業内容と
その進め方(2,000文字以内)
/Course outline and weekly schedule(up to 2,000 letters)
第1回 Pythonの復習(1)・Pythonプログラミング入門
第2回 Pythonの復習(2)・実際のデータの集計方法
第3回 Pythonの復習(3)・データの可視化
第4回 HomeCreditDefaultRiskコンペについて
第5回 コンペのデータ外観
第6回 Kaggleサイトの使い方
第7回 データサイエンスの社会実装(1), データ倫理(1):個人情報の活用と保護(日本の法制度の展開)
第8回 テストデータの特徴理解とリーク(validationと予測モデル)
第9回 lightgbmの使い方
第10回 データサイエンスの社会実装(2), データ倫理(2):個人情報保護の国際的展開とビジネスの変貌
第11回 特徴量エンジニアリング(1)・コンペデータを使った新しい特徴の作り方
第12回 データサイエンスの社会実装(3), データ倫理(3):データサイエンスのFairness, Accountability, Reproductivity
第13回 特徴量エンジニアリング(2)・コンペデータを使った新しい特徴量の作り方:別の視点
第14回 データサイエンスの社会実装(4), データ倫理(4):データセキュリティ
第15回 優秀モデル報告会
実務経験を活かした
授業内容
(実務経験内容も含む)
/Course content utilizing practical experience
講師は全て実務家であり、データサイエンスの実務で必要となる座学と演習を行う。
授業時間外の学習
(予習・復習等)(1,000文字以内)
/Preparation and review outside class(up to 1,000 letters)
毎週の小課題とKaggle Competitionへの投稿を実施すること。
Weekly small assignments, and submissions to the Kaggle Competition.
成績評価方法
および評価基準
(最低達成基準を含む)
(1,000文字以内)
/Evaluation and grading
(up to 1,000 letters)
講義内容について一定程度理解した上で、機械学習による予測を一通り実行できることをもって最低達成基準とする。
具体的には、毎週の小課題の正解率(60点満点)とCompetitionに投稿した結果の精度(40点満点)により評価する。Competitionに期限内に提出できていない場合は、小課題の正解率によらず不可となるので注意すること。全ての小課題に期限内に回答して、サンプルの精度を上回った場合は原則「可」以上の評価とする。
モデル精度(40点満点)については配布するサンプルと同精度以下を0点、講義内容を踏まえた特に工夫のない想定解の精度を20点、色々と工夫した解と同精度以上を40点を原則とし、相対評価する。
オフィスアワー:
授業相談(1,000文字以内)
/Office hours(up to 1,000 letters)
Google Classroomにて質問を適宜受け付ける。Zoomでの個別相談も可能だが、あらかじめ連絡して予約をすること。(ryotaro.sano@uec.ac.jpへメールすること。)
学生へのメッセージ(1,000文字以内)
/Message for students(up to 1,000 letters)
オンデマンドの講義資料は順次アップされる。
一部の講義はオンライン(Zoom)で行う、可能であればリアルタイムでの参加を推奨する。

その他
/Others
(1)Kaggleのアカウントを用意すること
(2)データ分析の環境
・わかっている人は、どんな環境を使っても構わない。ローカルのanacondaでも、あるいはローカルに構築したPython環境でも、GoogleColaboratory、kaggleのカーネルでも構わない。
・実際にPythonでデータ分析をやるのが初めてだという人のために、最初の3回の復習講義では、GoogleのColaboratoryでデータを操作することを前提に映像資料を作ってある。初めての人、慣れてない人はColaboratoryを使うこと。Colaboratoryの使い方については、ガイドのPDF資料と映像資料を用意してある。

2021年度以前入学生が履修した場合は、理工系教養科目となる。
キーワード
/Keywords
データサイエンス、人工知能、機械学習
Data science, Artificial Intelligence, Machine learning