首页资源分类工业控制其他 > 数据挖掘10大算法

数据挖掘10大算法

已有 453124个资源

下载专区

上传者其他资源

工业控制热门资源

本周本月全部

文档信息举报收藏

标    签: 机器学习数据挖掘算法

分    享:

文档简介

介绍数据挖掘的10个最有名的算法

文档预览

数据挖掘10大算法 Top 10 Algorithms in Data Mining ICDM 2006 Panel 12/21/2006, Coordinators: Xindong Wu and Vipin Kumar 注:ICDM的全称是IEEE International Conference on DataMining Sunstone Zhang 编译 数据挖掘者 http://idmer.blog.sohu.com 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 2 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 3 三步鉴定流程 使用以下三个步骤来选出数据挖掘的10大算法 1. 提名 (Nominations) § 在2006年9月召开的ICDM会议上,我们邀请了ACM KDD创新大奖(Innovation Award)和 IEEE ICDM研究贡献奖(Research Contributions Award)的获奖者们来参与数据挖掘10大算 法的选举,每人提名10种他认为最重要的算法 § 除一人未参与外,其他获奖者均给出了算法的提名 § 每个提名中均需同时给出以下信息: - (a) 算法名称 - (b) 提名理由摘要 - (c) 算法的代表性论文 § 每个提名算法都应该被相关领域的研究者们广泛引用和使用,每位提名者给出的同类算法应 该是数据挖掘重要应用领域的代表 Page 4 三步鉴定流程 使用以下三个步骤来选出数据挖掘的10大算法 2. 审核 (Verification) § 在2006年10月,我们通过Google Scholar对每个提名算法的引用情况进行了审核,从候选名 单中删除了低于50篇论文引用的算法 § 最终剩下18种提名算法通过了审核,它们分属10类数据挖掘主题 3. 投票 (Voting) § 我们邀请了更多的专业人士来从这些候选算法中投票选出10大算法,他们包括 - (a) KDD-06、ICDM ‘06和SDM ’06的程序委员会成员 (Program Committee members) - (b) ACM KDD创新大奖和IEEE ICDM研究贡献奖的获奖者们 § 根据票数排名筛选出10大算法 (如果票数相同,则按字母顺序进行排名) Page 5 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 6 18种通过审核的候选算法 § 分类 (Classification) - 1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. - 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. - 3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. - 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. C4.5 CART kNN Naïve Bayes § 统计学习 (Statistical Learning) - 5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag New York, Inc. - 6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. § 关联分析 (Association Analysis) - 7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. - 8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. SVM EM Apriori FP-Tree Page 7 18种通过审核的候选算法 § 链接挖掘 (Link Mining) - 9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. - 10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. § 聚类 (Clustering) - 11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. - 12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. § 袋装与推进 (Bagging and Boosting) - 13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. PageRank HITS K-Means BIRCH AdaBoost Page 8 18种通过审核的候选算法 § 序列模式 (Sequential Patterns) - 14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. - 15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. GSP PrefixSpan § 集成挖掘 (Integrated Mining) - 16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. CBA § 粗糙集 (Rough Sets) - 17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Finding reduct § 图挖掘 (Graph Mining) - 18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern Mining. In ICDM '02. gSpan Page 9 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 10 算法陈述 § 每种算法的陈述包括以下内容: - a) 算法的概要描述 - b) 算法的应用 - c) 该算法目前和未来的研究方向 § 每位陈述人会介绍自己 - 对该算法有深入的研究 - 尽量使用算法原作者的幻灯片,可以适当修改 - 提出自己对该算法的观点和意见 Page 11 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 12 数据挖掘十大算法:一览表 排名 挖掘主题 算法 得票数 发表时间 作者 讲解人 1 分类 C4.5 61 2 聚类 K-Means 60 3 统计学习 SVM 58 4 关联分析 Apriori 52 5 统计学习 EM 48 6 链接挖掘 PageRank 46 7 集装与推进 AdaBoost 45 8 分类 kNN 45 9 分类 Naïve Bayes 45 10 分类 CART 34 1993 1967 1995 1994 2000 1998 1997 1996 2001 1984 Quinlan, J.R Hiroshi Motoda MacQueen, J.B Joydeep Ghosh Vapnik, V.N Qiang Yang Rakesh Agrawal Christos Faloutsos McLachlan, G Joydeep Ghosh Brin, S. Christos Faloutsos Freund, Y. Zhi-Hua Zhou Hastie, T Vipin Kumar Hand, D.J Qiang Yang L.Breiman Dan Steinberg Page 13 大纲 1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法:一览 5. 开放式讨论 Page 14 开放式讨论 § 由算法的原作者和陈述人来编写调查表 § 如何更好地使用这10大算法? § 是否需要为这10大算法专门编写一本书? - IDMer注:该书已出版,参见右图封面。书名为 《The Top Ten Algorithms in Data Mining》, 编著者为XinDong Wu和Vipin Kumar § 针对这10大算法的任何问题展开讨论 Page 15 ICDM 2006会议的算法投票结果 § 共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种候选算 法进行投票 § 开放式投票选出的前3大算法 (Top 3 Algorithms) - C4.5: 52票 - SVM: 50票 - Apriori: 33票 § 10大算法 - ICDM 2006 Panel与会者选出了前10大算法,结果和前面的“数据挖掘10大算法” 相同。 Page 16 THE END Page 17 数据挖掘10大算法(思维导图) Page 18 数据挖掘10大算法(思维导图)-C4.5 Page 19

Top_arrow
回到顶部
EEWORLD下载中心所有资源均来自网友分享,如有侵权,请发送举报邮件到客服邮箱bbs_service@eeworld.com.cn 或通过站内短信息或QQ:273568022联系管理员 高进,我们会尽快处理。