Data Mining

這是成功大學資訊工程學系高宏宇教授所開的資料探勘的課程筆記。

Overview

📄️ 1 - Association Analysis

本文提到了關聯法則 (Association Rule) 技術，它是一種可以利用 items 之間的 occurrence 頻率，來預測一個 item 的 occurrence 機率的技術。本文針對此技術提出了定義、評估標準、例子以及優化方法，如 Brute Force approach、Apriori Algorithm，並介紹了它們之間的不同。

📄️ 2 - FP-growth

FP-growth 的主要目的是破解 candidate generation 所引起的 bottleneck，因此將不會用到任何 candidate generation，並且在 main memory 實作以減少對 database 的 scans，主要的概念是 divide-and-conquer，並且利用了 suffix tree 的概念。

📄️ 3 - Other Association Rules

本文探討了其他 Association Rules，包括 Multilevel Association Rules、Closed Association Rules、Quantitative Association Rules，以及從 Association Mining 到 Correlation Analysis 的關聯性。

本文主要介紹了 Sequence Pattern Mining，它是一種用於找出在時間軸上 Item 之間的 Association Rule 的方法，而我們將一般 Dataset 加上 Timeline 來取得 Sequence Data Table，並且使用 Apriori-based SP algorithm (GSP) 等算法來找出所有的 Frequent Subsequence，再來提出了 Episode Mining 以及 FreeSpan 和 PrefixSpan 演算法，以更有效率的方式找出 Frequent Subsequence。

📄️ 5 - Evaluation

本文探討了評估演算法的不同方法，包括 Recall 和 Precision 、Top-k Precision 、Average Over Multiple Queries、Single Value Summaries、Mean Reciprocal Rank、Precision-Recall、F-score、User-Oriented Measure、Alternative Measures 和 Cost Matrix。

Overview​

📄️ 1 - Association Analysis

📄️ 2 - FP-growth

📄️ 3 - Other Association Rules

📄️ 4 - Sequence Pattern

📄️ 5 - Evaluation

Overview