ch1_final

Ch1_final - 机器学习与知识发现 机器学习与知识发现 2010年3月2日 课程内容安排 课程内容安排 背景介绍 –

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: 机器学习与知识发现 机器学习与知识发现 2010年3月2日 课程内容安排 课程内容安排 背景介绍 – 数据挖掘简介:出现背景、基本概念、主要方法、研究热点 机器学习与数据挖掘方法 – – – – – – – – – – – 数据预处理 概念学习 关联规则 序列模式挖掘 分类方法 聚类方法 半监督学习 社团挖掘 文本挖掘 个性化推荐 Context Aware挖掘 应用实例 数据挖掘专题 第一章 数据挖掘简介 第一章 数据挖掘技术出现的背景 数据挖掘过程、方法 数据挖掘的热点研究方向 数据挖掘的主要问题 1.1 数据挖掘技术出现的背景 数据挖掘技术出现的背景 数据丰富但知识贫乏是信息时 数据丰富但知识贫乏是信息时 代的一个重要现象 数据爆炸,知识贫乏 数据挖掘技术:Motivation 问题: 淹没在数据中 ; 不能制定合适的决策! 知识 数据 金融 经济 政府 POS. 人口统计 生命周期 科学实验和观测 邮件 图像、视频…… 模式 趋势 事实 关系 模型 关联规则 序列 决策 目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置 电信客户的社会网络 恐怖分子的联系网 数据挖掘是应实际需求而出现的技术 数据挖掘是应实际需求而出现的技术 Why Mine Data? Commercial Viewpoint (1) 我们的上//下边界 我们的上 下边界 客户是哪些 ?? 客户是哪些 谁是我的客户,他们 谁是我的客户,他们 买些什么样的产品?? 买些什么样的产品 最有效的销售渠道 最有效的销售渠道 是什么?? 是什么 什么样的产品促销 什么样的产品促销 对收入的影响最大?? 对收入的影响最大 哪些客户最有可能 哪些客户最有可能 流失到竞争对手那里?? 流失到竞争对手那里 新产品//服务对收入 新产品 服务对收入 和客户边界有什么 和客户边界有什么 样的影响?? 样的影响 Why Mine Data? Commercial Viewpoint (2) Commercial Why Lots of data is being collected and warehoused and – Web data, e-commerce – purchases at department/ grocery stores – Bank/Credit Card Bank/Credit transactions transactions RS of Amazon.com Amazon.com RS of 豆瓣 豆瓣 RS of Movie-Lens RS Rated Movies Recommended Movies RS of 淘宝 淘宝 Web社会网络 Web 互联网与社会网络的融合 – 在web平台上由关系所连接的web实体网络 Web社会网络的具体形态 IM及email工具 QQ: >2.53亿 Hotmail: >4000万 BBS 天涯论坛 : >3000万 水木BBS SNS Facebook:用户>1亿 开心网 Web社会网络 Web 新疆事件 国家安全 – 一切来源于一个网络谣言帖子 – BBS, IM, SNS各大平台纷纷转载,传播,影响 – 比现实谣言传播更迅速,影响更广泛,危害更大 奥巴马竞选 舆论导向 – 制胜于“网络营销” – 充分利用Youtube, Facebook与支持者互动 – 让支持者去影响其他人 娱乐内容分享 娱乐推荐 – 用其他人的爱好影响你的爱好 消费推荐 拉动消费 – 用其他人的评价影响你的决策 “9·11事件”之后, 为了满足反恐战争的 为了满足反恐战争的 需要, 把数据挖掘技术应用于反恐情 把数据挖掘技术应用于反恐情 报和反恐决策成为一个十分重要的新 课题。 美国实施了一些大型的研究开发项目, 努力提升其反恐情报与作战能力, 以 努力提升其反恐情报与作战能力 化解美国民众对其情报部门的批评。 数据挖掘是这些项目中的核心技术。 Web社会网络 Web 信息 内容理解 ——信息内容的理解和表示 信息流 结构分析 ——信息传播结构的分析和演化 行为性 信息流 行为建模 ——信息传播行为的建模 Behavioral Information Flow (BIF) Why Mine Data? Scientific Viewpoint(1) Why Data collected and stored at Data enormous speeds (GB/hour) enormous – 卫星遥感数据 – – 空间望远镜观测数据 生物基因数据 – 科学仿真实验数据 对于这些原始数据(raw data), 传统技术无力对其进行处理 数据挖掘技术有助于 – 对数据进行分类和分割 – 形成科学假设 Why Mine Data? Scientific Viewpoint (2) Why DNA Analysis: Examples Similarity search and comparison among DNA among sequences sequences – Compare the frequently occurring patterns of each class (e.g., Compare diseased and healthy) diseased – Identify gene sequence patterns that play roles in various diseases ses Association analysis: identification of coAssociation occurring gene sequences – Most diseases are not triggered by a single gene but by a Most combination of genes acting together combination – Association analysis may help determine the kinds of genes that Association are likely to co-occur together in target samples are Path analysis: llinking genes to different disease inking development stages development – Different genes may become active at different stages of the Different disease disease – Develop pharmaceutical interventions that target the different Develop stages separately stages 承担的科研项目 承担的科研项目 国家自然科学基金面上与重点项目4项 – – – – 半结构化数据中模式知识发现及变化检测问题研究 领域本体的自适应学习及其评估方法研究 基于约束的分布式序列模式挖掘方法研究 面向Web的社会网络理论与方法研究(清华大学与中国科大联合申请) 863计划项目3项 – – – 面向XML数据语义检索的关键技术研究 数据交换模型与实时传输技术研究 远程数据交换效率与安全性研究 教育部项目3项 – 科技论文共享网站的个性化服务研究,教育部科技发展中心专项课题; – 基于数据挖掘的“中国科技论文在线”论文质量自动控制与测评技术研究,教 育部科技发展中心专项课题; – 本体学习与演化方法及其应用研究,教育部新世纪优秀人才支持计划项目; 2.1 承担的科研项目(2) 承担的科研项目( 微软亚洲研究院合作项目 – – – 基于元数据的语义信息检索研究 Graph Mining based Object Expansion for Object Level Search 基于搜索引擎日志的概念层次的关联规则挖掘 诺基亚中国研究院合作项目 – Context data mining for personalized recommendation service 华为科技基金项目 华为科技基金项目 – 电信客户数据中的知识发现方法及应用研究 – 面向电信客户跨行业数据的关联规则快速挖掘及实现 阿里巴巴(中国)有限公司合作项目 – B2B个性化推荐算法研发 1.2 数据挖掘过程与方法 数据挖掘过程与方法 Data Mining 1.2.1 数据挖掘基本概念 数据挖掘基本概念 1.2.2 数据挖掘的数据类型 1.2.2 数据挖掘的数据类型 1.2.3 数据挖掘的任务 1.2.3 数据挖掘的任务 数据挖掘概念 数据挖掘概念 数据挖掘是一个从大规模数据集中提取隐含的、 以前未知的、有潜在应用价值信息的非平凡过 程。 – Non-trivial extraction of implicit, previously unknown and potentially useful information from massive collection of data massive 数据挖掘概念 数据挖掘概念 什么是(不是)数据挖掘 什么不是数据挖掘? – 在黄页中查找电话号码 – 通过网页搜索引擎查找关 于 “Amazon”的信息 什么是数据挖掘? – 当前哪些名字是在美国哪些区 域流行的 (O’Brien, O’Rurke, O’Reilly… in Boston area) – 通过上下文关系搜索引擎返回 成组的相似文档 (e.g. Amazon rainforest, Amazon.com,) 与数据库技术有何本质区别? 与数据库技术有何本质区别? 数据挖掘技术并不是从大量数据 里找某个具体数据,或是简单的 数据统计信息, DBMS完全可以 完成这些功能。 DBMS做的事就 好比在草堆里去找别针。 数据挖掘找的不是一个已存在那 里的信息。它做的事就好比是要 设法搞清楚在草堆里有一根针, 会造成什么样的后果。 数据挖掘过程 数据挖掘过程 数据挖掘的详细过程 数据挖掘的详细过程 了解应用领域,掌握相关先验知识以及应用的目标 收集并集成数据 对数据进行清洁和预处理 对数据进行归约和投影(发现有用特征,降维和变量约简) 确定适当的数据挖掘功能(总结、分类、回归、关联、聚 类) 确定数据挖掘算法,并进行数据挖掘 对挖掘结果进行评估 对挖掘结果进行解释:分析结果 应用发现的知识 数据挖掘技术的渊源 Draws ideas from machine learning/AI, Draws pattern recognition, statistics, and database systems Traditional Techniques Statistics/ Machine Learning/ AI may be unsuitable due to Pattern – Enormity of data – High dimensionality of data – Heterogeneous, distributed nature of data Recognition Data Mining Database systems 1.2.2 数据挖掘的数据类型 数据挖掘的数据类型 Types of data sets Types Record – – – Data Matrix Document Data Transaction Data Graph – – World Wide Web Molecular Structures Ordered – – – – Spatial Data Temporal Data Sequential Data Genetic Sequence Data Important Characteristics of Structured Data Structured – Dimensionality Curse of Dimensionality – Sparsity Only presence counts – Resolution Patterns depend on the scale Record Data Record Data that consists of a collection Data of records, each of which consists of a fixed set of attributes of Tid R efund M arital S tatus T axable Income C heat 1 S ingle 1 25K No 2 No M arried 1 00K No 3 No S ingle 7 0K No 4 Y es M arried 1 20K No 5 No D ivorced 9 5K Y es 6 No M arried No 7 Y es D ivorced 2 20K No 8 No S ingle 8 5K Y es 9 No M arried 7 5K No 10 10 Y es No S ingle 9 0K Y es 6 0K Data Matrix Data Projection of x Load Projection of y load Distance Load Thickness 10.23 5.27 15.22 2.7 1.2 12.65 6.25 16.22 2.2 1.1 Document Data Document Each document becomes a `term' vector, – each term is a component (attribute) of the vector, – the value of each component is the number of times the corresponding term occurs in the document. Transaction Data Transaction A special type of record data, where – each record (transaction) involves a set of items. – For example, consider a grocery store. The set of products purchased by a customer during one shopping trip constitute a transaction, while the individual products that were purchased are the items. TID Items 1 Bread, Coke, Milk 2 3 4 5 Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Graph Data Graph Examples: Generic graph, HTML Examples: Links Links 2 1 5 2 5 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear Systemof Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear SystemSolvers Graph Data Graph Examples:Social Netwoks Chemical Data Chemical Benzene Molecule: C6H6 Ordered Data Ordered Items/Events Sequences of transactions An element of the sequence Ordered Data Ordered Genomic sequence data GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG Ordered Data Ordered Spatio-Temporal Data Average Monthly Temperature of land and ocean 1.2.3 数据挖掘任务 数据挖掘任务 数据挖掘的任务 数据挖掘的任务 预言(Prediction Methods) – 用历史预测未来 描述(Description Methods) – 了解数据中潜在的规律 分类 [Predictive] 聚类 [Descriptive] 关联规则挖掘 [Descriptive] 序列模式发现 [Descriptive] 社团挖掘 [Descriptive] 文本挖掘[Predictive] 分类 分类 Given a collection of records (training set ) – Each record contains a set of attributes, one of the Each attributes one attributes is the class. class Find a model for class attribute as a Find model for function of the values of other attributes. function Goal: previously unseen records should be Goal: previously records assigned a class as accurately as possible. assigned – A test set iis used to determine the accuracy of the model. s test Usually, the given data set is divided into training and test sets, with training set used to build the model and test set used to validate it. test 分类方法 分类方法 分类知识发现是在精选的训练集上进 行学习以发现一般的、概括性的、适 用于更多事例的分类规则。 在众多的分类知识发现算法中最广泛 使用的是分治算法(divide-andconquer algorithms)。分治算法归纳 生成树状结构,称为决策树(decision trees)。 分类步骤 1 将数据划分为训练集( Training set )与测试集( Testing set ) THE PAST Results Known + + + Data Testing set Training set 分类步骤 2 Build a model on a training set THE PAST Results Known + + + Data Training set Model Builder Testing set 分类步骤 3 Evaluate on test set (Re-train) Results Known + + + Data Training set Model Builder Evaluate Predictions Y Testing set N + + - 决策树表示: A Tree (upside down) Root Employed Yes No Class=Not Default >=50K <50K Class=Not Default Age <45 Leaf Node Balance Class=Not Default >=45 Class= 50 50 Default 决策树表示: A Tree (upside down) 一系列的嵌套测试(tests): 每个内部node 表示在某 个或几个属性上的测试 – 在符号属性上的测试: 分枝 分枝 (splits 或branches)数等于可能 的取值个数 – 数值属性离散化(Discretized) Leaves – 类指派 (如Default /Not default) Employed No Class =No Yes Balance >=50K <50K Class =No Age <45 Class= No >=45 Class= 51 51 Yes 决策树学习的目标 Based on customer attributes, partition the customers into purer subgroups (such that in each group most instances belong to the same class) No Yes No No No No Yes No No No No No Support Vector Machines (SVMs) Support SVMs are a rare example of a methodology where geometric intuition, elegant mathematics, theoretical guarantees, and practical use meet. Find a linear hyperplane (decision boundary) Find hyperplane (decision that separates the data that Support Vector Machines (SVMs) Support One Possible Solution Support Vector Machines (SVMs) Support Another possible solution Support Vector Machines (SVMs) Support Other possible solutions Support Vector Machines (SVMs) Support Which one is better: B1 or B2 ? How do you define better ? Support Vector Machines (SVMs) Support Find hyperplane maximizes the margin => B1 is Find hyperplane maximizes better than B2 better Support Vector Machines (SVMs) Support rr w• x +b = 0 rr w • x + b = +1 rr w • x + b = −1 ⎧1 r f (x) = ⎨ ⎩− 1 rr if w • x + b ≥ 1 rr if w • x + b ≤ − 1 2 Margin = r 2 || w || Support Vector Machines (SVMs) Support We want to maximize: 2 Margin = r 2 || w || – Which is equivalent to minimizing: r2 || w || L( w) = 2 – But subjected to the following constraints: ⎧1 r f ( xi ) = ⎨ ⎩− 1 rr if w • x i + b ≥ 1 rr if w • x i + b ≤ − 1 This is a constrained optimization problem – Numerical approaches to solve it Numerical (e.g., quadratic programming) (e.g., Support Vector Machines (SVMs) Support What if the problem is not linearly separable? Support Vector Machines (SVMs) Support What if the problem is not linearly What separable? separable? – Introduce slack variables Need to minimize: Subject to: Subject ⎧1 r f ( xi ) = ⎨ ⎩− 1 r2 || w || ⎛ N k⎞ + C ⎜ ∑ ξi ⎟ L( w) = 2 ⎝ i =1 ⎠ rr if w • x i + b ≥ 1 - ξ i rr if w • x i + b ≤ − 1 + ξ i Nonlinear Support Vector Machines What if decision boundary is not x2 x12 linear? X X X X O O O O X X x1 X X OO OO Map the data from its original feature space into a new space where the decision boundary becomes linear. x1 63 63 Clustering Definition Clustering Given a set of data points, each having Given a set of attributes, and a similarity measure among them, find clusters such that such – Data points in one cluster are more similar to Data one another. one – Data points in separate clusters are less similar Data to one another. to Similarity Measures: – Euclidean Distance if attributes are continuous. – Other Problem-specific Measures. Illustrating Clustering Illustrating ⌧Euclidean Distance Based Clustering in 3-D space. Intracluster distances Intracluster distances are minimized are minimized Intercluster distances Intercluster distances are maximized are maximized Clustering: Application 1 Clustering: Market Segmentation: – Goal: subdivide a market into distinct subsets of Goal: customers where any subset may conceivably be selected as a market target to be reached with a distinct marketing mix. distinct – Approach: Approach: Collect different attributes of customers based on their geographical and lifestyle related information. their Find clusters of similar customers. Measure the clustering quality by observing buying Measure patterns of customers in same cluster vs. those from different clusters. Clustering: Application 2 Clustering: Document Clustering: – Goal: To find groups of documents that are Goal: similar to each other based on the important terms appearing in them. terms – Approach: To identify frequently occurring Approach: terms in each document. Form a similarity measure based on the frequencies of different terms. Use it to cluster. terms. – Gain: Information Retrieval can utilize the Gain: clusters to relate a new document or search term to clustered documents. term Illustrating Document Clustering Illustrating Clustering Points: 3204 Articles of Los Angeles Clustering Times. Times. Similarity Measure: How many words are common Similarity in these documents (after some word filtering). in Category Total Articles Correctly Placed 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 Financial Clustering of S&P 500 Stock Data Clustering Observe Stock Movements every day. Clustering points: Stock-{UP/DOWN} Similarity Measure: Two points are more similar if the events described by them frequently happen together on the same day. We used association rules to quantify a similarity measure. Discovered Clusters 1 2 3 4 Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N, Sun-DOW N Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN, ADV-M icro-Device-DOWN,Andrew-Corp-DOWN, Co mputer-Assoc-DOWN,Circuit-City-DOWN, Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N, MBNA-Corp -DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlu mberger-UP Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP 聚类方法 聚类方法 (a) (b) (c) Association Rule Discovery: Definition Association Given a set of records each of which contain Given some number of items from a given collection; collection; – Produce dependency rules which will predict occurrence Produce of an item based on occurrences of other items. of TID Items 1 2 3 4 5 Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Rules Discovered: Rules Discovered: {Milk} --> {Coke} {Milk} --> {Coke} {Diaper, Milk} --> {Beer} {Diaper, Milk} --> {Beer} Association Rule Discovery: Association Application 1 Marketing and Sales Promotion: – Let the rule discovered be {Bagels, … } --> {Potato Chips} – Potato Chips(马铃薯片) as consequent => Can be Can used to determine what should be done to boost its sales. – Bagels(百吉饼) in the antecedent => Can be used to see which products would be affected if the store discontinues selling bagels. – Bagels in antecedent and Potato chips in consequent => Can be used to see what products should be sold Can with Bagels to promote sale of Potato chips! Association Rule Discovery: Application 2 Discovery: Supermarket shelf management. – Goal: To identify items that are bought together by Goal: sufficiently many customers. sufficiently – Approach: Process the point-of-sale data collected with sale barcode scanners to find dependencies among items. barcode – A classic rule -classic -If a customer buys diaper and milk, then he is very If likely to buy beer. likely So, don’t be surprised if you find six-packs stacked packs next to diapers! next Association Rule Discovery: Application 3 Application Inventory Management: – Goal: A consumer appliance repair company Goal: wants to anticipate the nature of repairs on its consumer products and keep the service vehicles equipped with right parts to reduce on number of visits to consumer households. on – Approach: Process the data on tools and Approach: parts required in previous repairs at different consumer locations and discover the coconsumer occurrence patterns. Sequential Pattern Discovery: Definition Sequential Given is a set of objects, with each object associated with objects its own timeline of events, find rules that predict strong timeline sequential dependencies among different events. (A B) (C) (D E) Rules are formed by first disovering patterns. Event occurrences in the patterns are governed by timing constraints. (A B) <= xg (C) (D E) >ng <= ms <= ws Sequential Pattern Discovery: Examples Examples In telecommunications alarm logs, – (Inverter_Problem Excessive_Line_Current) (Inverter_Problem (Rectifier(整流器)_Alarm) --> (Fire_Alarm) (Rectifier( In point-of-sale transaction sequences, – Computer Bookstore: Computer (Intro_To_Visual_C) (C++_Primer) --> (Intro_To_Visual_C) (Perl_for_dummies,Tcl_Tk) – Athletic Apparel Store: Athletic (Shoes) (Racket(网球拍), Racketball) --> (Sports_Jacket) (Shoes) 序列模式挖掘应用 序列模式挖掘应用 查询推荐 社团挖掘(1) 社团挖掘( 人生活在一个有着各种各样网络的世界 里。从生物体中的大脑到各种新陈代谢网 络,从INTERNET到万维网(WWW),从全 球卫星通讯网络到全球交通网络,从大规 模集成电路到大型电力网络,从科研合作 网络到各种经济、政治、社会关系网络, 人们的生活离不开网络,网络已经内化在 人类生活的各个方面和层次里。 社团挖掘(2) 社团挖掘( 具有社团结构也是复杂网络的有趣性质之一。 2002年,Newman提出了复杂网络的社团结构 (community structure) 概念。社团是指网络中 概念。社团是指网络中 这样的一些点簇,它们内部联系紧密,而点簇 间的联系则相对稀疏。 社团挖掘(3) 社团挖掘( 右图是一个日本空 手道俱乐部选手的 社会网络,他们之 间存在两个派系 我们可以看到派系 内部的选手之间关 系比较密切,派系 之间的联系比较稀 疏 社团挖掘(4) 社团挖掘( 在网络(尤其是大规模网络)中自动 发现社团,具有重要的实用价值: 社团挖掘(5) 社团挖掘( 社团识别算法大体上可分为两种: (1)自顶向下划分的算法 代表性算法有GN算法等; (2)自底向上集聚的算法 代表性算法有Newman贪心算法以及贪心算法的 各种变种 1.3 数据挖掘的热点研究方向 数据挖掘的热点研究方向 Web数据挖掘 Web挖掘就是从Web文档和用户的Web行为数据 Web 中筛选感兴趣的潜在的有用模式和隐藏的信息。 在对Web数据挖掘时,所需要的数据主要来自于 两个方面:一方面是客户的背景信息,此部分信 息主要来自于客户的登记表;而另外一部分数据 主要来自浏览者的点击流(Click-stream),此部 分数据主要用于考察客户的行为表现。但有的时 候,客户对自己的背景信息十分珍重,不肯把这 部分信息填写在登记表上,这就会给数据分析和 挖掘带来不便。在这种情况之下,就不得不从浏 览者的表现数据中来推测客户的背景信息,进而 再加以利用。 Web挖掘 Web上的数据的特点 Web – – – – Web页面的复杂性高于传统的文本 Web是一个动态性极强的信息源 Web面对的是一个广泛的形形色色的客户群 Web上的信息只有很小的一部分是相关的或有用的 综上所述,Web挖掘是一个更有挑战性的课 题,它执行的是对Web存取模式、Web结构、 规则和动态的Web内容的查找。 Web挖掘 Web挖掘的分类 Web Web内容挖掘 Web页内容 挖掘 Web 挖掘 Web结构挖掘 搜索结果挖掘 Web使用记录 挖掘 一般模式追踪 个人使用 模式追踪 流数据挖掘 流数据挖掘 流数据概念 – 一系列连续且有序的点组成的序列 x1,…, xi, …, xn,称为数据流;按照固定的次序, 这些点只能被读取一次或者几次。 流数据特点 – 大数据量,甚至无限 – 频繁的变化和快速的响应 – 线性扫描算法,查询次数有限 random access is expensive 流数据挖掘 流数据挖掘 流数据挖掘任务 – 流数据的在线多维分析 – 挖掘流数据的不寻常的模式 – 流数据聚类 – 流数据分类 流数据挖掘 流数据挖掘 新的应用领域 – 以连续的、有序的“流” 的形式输入数据 – 网络监听和流量控制(Network monitoring and traffic engineering) – 电话通信(Telecom call records) – 网络安全(Network security ) – 金融领域(Financial Application) – 工业生产(Manufacturing Processes) – 网页日志与点击流(Web logs and clickstreams) 移动计算环境下的数据挖掘 移动计算环境下的数据挖掘 移动计算环境下数据挖掘技术的发展方向 – 面向用户:对信息的处理应该尽量符合人的感知和认 知过程,实现“大众化的数据挖掘系统” – 构建人性化的人机交互方式:在移动环境下,交互式 数据挖掘环境必须不仅能够让用户从多个角度观察数 据和模式,也能够让用户从多个角度来观察数据任务 执行情况 – 可以处理动态数据的主动式数据挖掘系统:在移动环 境下,可以采用推送技术,变被动式系统为主动式系 统 移动计算环境下的数据挖掘 移动计算环境下的数据挖掘 移动计算环境下数据挖掘的主要应用有 – 用户移动模式挖掘:移动模式挖掘的目标是挖掘用户 移动模式以及相关的知识为移动用户提供有效的决策 支持 – 基于数据挖掘的位置管理:为了充分利用有限而宝贵 的网络资源来为移动用户提供更好的服务,位置管理 需要紧密结合移动用户的行为特征来提高位置管理服 务的质量,通过挖掘用户的移动日志可以有效地发现 用户的移动特征。 图数据挖掘 图数据挖掘 主要应用领域 – 生物信息学 – 社会网络 – 分子结构 – WEB网页分析 –… 主要困难 – 结构复杂 – 子图同构的匹配计算复杂性高 图数据挖掘 图数据挖掘 研究内容 – 频繁子图挖掘 – 图索引结构 – 具有某些特征的子图模式挖掘 直径要求 连通性 – 挖掘的应用 图数据的管理技术 图数据挖掘例子 图数据挖掘例子 Jiawei Han, Makoto Yokoo 和 John H. Holland 之间有什 么关系? 实体识别NE 实体识别 NE(Named Entity)命名实体识别 – 最为基础的类型,此类信息抽取需要系统能够识别出 实体名,并将相应的实体名进行归类。 – MUC测评识别并抽取出人名,组织名,日期,时间, 地点,以及某种类型的数字表达式(如货币数量,百 分数),并在文本中对这些信息进行标注。 – NE具有非常直接的实用价值,在对文本中的名称、地 点、日期等进行标注之后,即提了对这些信息进行 检索的可能。对于许多语言处理系统,NE都是其中一 个很重要的组件。 实体识别示例 实体识别示例 对于段落“The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. ” – NE: 实体包括 “rocket”, “Tuesday”, “Dr. 实体包括 Head” 和 "We Build Rockets Inc." 实体关系识别 实体关系识别 实体关系(Entity Relation) – 需要在NE的基础之上标识出实体元素之间的关系。 – 例如: 职员和组织之间的关系(employee_of) 产品和生产企业之间的关系(product_of) 以及公司和地区之间的关系(location_of) etc 多媒体数据挖掘 多媒体数据挖掘 从大量的多媒体数据记录中找出相 似的或者有趣的东西,如: – 允许快速、相似、基于特定模式的查询 – 发现规则和模式 多媒体数据包括 – 图像 – 音频 – 视频 1.4 数据挖掘的主要问题 数据挖掘的主要问题 数据挖掘研究中的10个挑战性问题 数据挖掘研究中的 1.发展数据挖掘的统一理论 当前数据挖掘研究 当前数据挖掘研究 的技术水平过于“特 定” – 相关的技术都是针对个 别特定的问题 – 不是统一的理论 长期存在的理论问 题 – 如何避免欺骗性的相关 性? 例如 如果有一个学习算 法和一个数据库, 你能在多大程度上 确定该学习算法适 用或不适用于此数 据库的挖掘 2.对高维数据和高速数据流加强研究 加强是必须的 加强是必须的 – 超高维分类问题 (数 百万或数十亿的特征 如生物信息数据) – 超高速的数据流 数据流 – 连续,在线处理 – 如:如何监控网络信 息包来检测入侵? – 传感器网络数据 3.有序的和时间序列数据 如何有效准确地 如何有效准确地 聚类、分类和预 测趋势? 用来预测的时间 序列数据会有噪 声数据干扰 – 如何进行准确的短期 和长期预测 – 信号处理技术引入的 延迟会减少准确性 – 关键源筛选、领域知 识规则、优化方法 Real time series data obtained from Wireless sensors in Hong Kong UST CS department hallway 4.从复杂数据中挖掘复杂知识 图挖掘 图挖掘 不是独立对等分布的数据 – 对象间不互相独立而且不是同一种类型 – 挖掘对象间广泛的关系结构 – 如:环状链接的网页,社会网络,细胞的新陈代谢网络 结合数据挖掘和知识推理 – 最大的缺口:无法建立挖掘出的结果同被其影响的现实决策之间的关系,所 能做的就是把挖掘结果返回给用户 知识兴趣度的研究 Citation (Paper 2) Title Conference Name Author (Paper1) 5.网络结构中的数据挖掘 团体和社会网络 团体和社会网络 – 电子邮件,网页,博客,引用和人之 间相连的数据 – 静态和动态的结构化行为 计算机网络的挖掘 – 检测异常 (如:由于DoS (Denial of Service)攻击造成的突然的网 络阻塞) – 需要处理大规模的以太网链接 (a) 检测 (b) 跟踪(c ) 丢弃信息 检测 跟踪 丢弃信息 包 6.分布式数据挖掘和多智能体数据挖掘 Games Player 1:miner – 需要建立各种探测器 所获得的数据间的关 Action: H T 系 (如传感器网络) – 对手数据挖掘:操作数 Player 2 据去蓄意破坏 (如,使 H T 它们产生错误结果) TH – 游戏理论中的应用 (-1,1) (1,-1) (1,-1) Outcome (-1,1) 7.生物信息和环境问题的数据挖掘 新的状况产生新的 新的状况产生新的 问题 特别的大规模问题 – 生物数据挖掘,如HIV疫 苗设计 – DNA,化学属性,3D结构, 功能属性 需要融合 需要融合 – 环境数据挖掘 – 解决能源危机的挖掘 8.数据挖掘过程的相关问题 如何让过程自动 如何让过程自动 化? – 数据挖掘操作的合成 – 带有日志功能的数据 清理 – 可视化和挖掘自动化 Sampling Feature Sel Mining… 需要方法论:帮助用 户避免数据挖掘错 误 – 什么是规范的数据挖掘 操作集合? 挖掘结果的可视化显示 挖掘结果的可视化显示 One Picture May Worth 1000 Words! Visual Data Mining – Visualization of data – Visualization of data mining results – Visualization of data mining processes – Interactive data mining: visual classification One melody may worth 1000 words too! – Audio data mining: turn data into music and melody! Audio – Uses audio signals to indicate the patterns of data or Uses the features of data mining results the Visualization of Data Mining Processes by Clementine Processes Visualization of data mining results in Visualization SAS Enterprise Miner: scatter plots SAS 111 111 Visualization of association Visualization rules in MineSet 3.0 MineSet 112 112 Visualization of a decision tree in Visualization MineSet 3.0 MineSet 113 113 Interactive Visual Mining by Interactive Perception-Based Classification (PBC) Perception 114 114 9.安全、隐私和数据完整性 如何在数据挖掘中保 如何在数据挖掘中保 护用户的隐私? 如何在数据挖掘中保 护安全性 知识完整性评估 – 为了隐私和安全,数据被 有意修改,让获取人得到 不完整信息 – 制定度量标准来评估数据 和模式的知识完整性 Headlines (Nov 21 2005) Senate Panel Approves Data Security Bill - The Senate Judiciary Committee on Thursday passed legislation designed to protect consumers against data security failures by, among other things, requiring companies to notify consumers when their personal information has been compromised. While several other committees in both the House and Senate have their own versions of data security legislation, S. 1789 breaks new ground by including provisions permitting consumers to access their personal files … 10.处理非静态、不稳定和成本敏感的数据 有的数据库高度 有的数据库高度 不稳定 有很多成本和获 益的信息,但是 没有一个全面的 模型来描述盈利 和亏本 数据可能包含样 本带入的倾向性 pressure ? blood test ? essay ? temperature cardiogram 39oc ? • 每项检测需要花费 • 数据是不稳定的 • 数据随着时间改变 Conclusions Conclusions Data mining—A promising research frontier Data mining research has been striding forward Data greatly in the last decade greatly However, data mining, as an industry, has not However, been flying as high as expected been Much research and application exploration are Much needed needed – Web mining – Towards integrated data mining environments and tools – Towards intelligent, efficient, and scalable data mining methods Thank you !!! Thank ...
View Full Document

This note was uploaded on 06/16/2011 for the course CS 5141 taught by Professor Chenenhong during the Spring '10 term at USTC.

Ask a homework question - tutors are online