Data Mining
這是成功大學資訊工程學系高宏宇教授所開的資料探勘的課程筆記。
Overview
📄️ 1 - Association Analysis
本文提到了關聯法則 (Association Rule) 技術,它是一種可以利用 items 之間的 occurrence 頻率,來預測一個 item 的 occurrence 機率的技術。本文針對此技術提出了定義、評估標準、例子以及優化方法,如 Brute Force approach、Apriori Algorithm,並介紹了它們之間的不同。
📄️ 2 - FP-growth
FP-growth 的主要目的是破解 candidate generation 所引起的 bottleneck,因此將不會用到任何 candidate generation,並且在 main memory 實作以減少對 database 的 scans,主要的概念是 divide-and-conquer,並且利用了 suffix tree 的概念。
📄️ 3 - Other Association Rules
本文探討了其他 Association Rules,包括 Multilevel Association Rules、Closed Association Rules、Quantitative Association Rules,以及從 Association Mining 到 Correlation Analysis 的關聯性。
📄️ 4 - Sequence Pattern
本文主要介紹了 Sequence Pattern Mining,它是一種用於找出在時間軸上 Item 之間的 Association Rule 的方法,而我們將一般 Dataset 加上 Timeline 來取得 Sequence Data Table,並且使用 Apriori-based SP algorithm (GSP) 等算法來找出所有的 Frequent Subsequence,再來提出了 Episode Mining 以及 FreeSpan 和 PrefixSpan 演算法,以更有效率的方式找出 Frequent Subsequence。
📄️ 5 - Evaluation
本文探討了評估演算法的不同方法,包括 Recall 和 Precision 、Top-k Precision 、Average Over Multiple Queries、Single Value Summaries、Mean Reciprocal Rank、Precision-Recall、F-score、User-Oriented Measure、Alternative Measures 和 Cost Matrix。