21026114

情報科学INSa01b  INSa01f  INSa03a  INSa03e 

前学期火4

データマイニング(大学院連携科目)

Data Mining

岡本 一志、原田 慧、高木 正則

単位区分

単位数: 2単位
必修
課程・類・プログラム
種別
先端工学基礎課程

関連Webサイト

See WebClass.

主題および達成目標

Data mining is a meeting point of statistical science and computer science. There are a lot of techniques which have been developed in computer science and are new to statisticians. Each technique has its genuine origin. But when they are used for data analysis, or data mining, a philosophy should be shared in common. It is most important to view their performances through statistical ones, i.e. estimation and testing for prediction. That is the main topic of this course.

データマイニングに現れる種々の手法を, 基本的な事項から始めて, 手法の実装に必要な理論を解説した後, 実際の問題に適用するまでの一連の過程を通じて学ぶ.

前もって履修しておくべき科目

Undergraduate level courses on probability, statistics, and multivariate analysis.

学部レベルの確率論, 統計学, 多変量解析に関する科目.

前もって履修しておくことが望ましい科目

None.

教科書等

Textbook / 教科書:Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor: An Introduction to Statistical Learning with Applications in Python, Springer, 2023.

Full text and data sets of the textbook are available at the following URL.

電子版のテキストや用いているデータセットは以下のURLから入手可能である.

授業内容とその進め方

English course type: Ca

This is a course belonging to English Ca. Therefore, slides, handouts, and other materials including whiteboard writings will be provided in English, while the faculty staff will give lectures in Japanese.

本科目は, Ca(日本語で説明し, 英語の教材・資料を使う)に対応する科目である. 板書・スライド・配布資料等は全て英語で, 説明は日本語で行う.

Outline
#01 Guidance and introduction
#02 Statistical learning
#03 Linear regression
#04 Classification
#05 Resampling methods
#06 Linear model selection and regularization
#07 Summary of the basic topics above
#08 Tree-based methods
#09 Support vector machines
#10 Deep learning
#11 Summary of the three advanced topics above
#12 Educational data and IRT
#13 EDM and learning analytics
#14 Log analysis and reflection
#15 Exercise: Problem-solving and quiz design

This course will be given in an omnibus format. The assignments for each lecture are as follows.

本科目は3名の教員によるオムニバス形式で実施する. 担当回は次のとおりである.

Dr. Kazushi Okamoto: #01 - #07
Dr. Kei Harada: #08 - #11
Dr. Masanori Tagagi: #12 - #15

授業時間外の学習

Students should prepare for class by using the textbook beforehand and should review after class by reviewing lecture materials and working on reports and other assignments.

授業前に教科書にて予習を行い, 授業後は講義資料の見直しやレポート課題等への取り組みを通じた復習を推奨している.

成績評価方法および評価基準

(a) Evaluation method / 評価方
Each faculty member will assign assignments, and the summary and point distribution will be as follows.

教員毎に課題を課すこととし, その概要と配点は次のとおりである.

Dr. Kazushi Okamoto: 50% (quizzes: 20%, one report: 30%)
Dr. Kei Harada: 25% (one report)
Dr. Masanori Tagagi: 25% (one report)

(b) Evaluation criteria / 評価基準
The overall assessment is based on whether the contents described in the “Topic and goals" section have been mastered. This will be done using the scoring method above (a), and a score of 60% or higher on the overall assessment is considered a passing score.

達成目標に記載の内容を習得できたかの観点で総合的に評価する. これは(a)に記載の評価方法で行うこととし, 総合評価で60%以上を合格とする.

オフィスアワー・授業相談

We will respond to consultations as appropriate, but please contact us via e-mail in advance.

適宜相談に応じるが, 事前に電子メールで連絡すること.

学生へのメッセージ

The amount of content that can be covered in lecture time is limited. Self-motivated study is expected.

講義時間に説明できることは限られている. 自身による積極的な自習を期待する.

その

None.

キーワード

Python language
Python言語
data mining
statistical learning
データマイニング
統計的学習理論
最終変更日時: 2026/04/06 18:51:39