大数据分析 必备的30个知识点

  下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。

  

 

  1. 数据、信息和知识是广义数据表现的不同形式。

  2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识

  3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘

  4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理,数据挖掘以及模式评估等基本阶段。

  5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型。

  6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。

  7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。

  8. 从使用的主要技术上看,可以把分类方法归结为四种类型:

  基于距离的分类方法

  决策树分类方法

  贝叶斯分类方法

  规则归纳方法

  9. 关联规则挖掘问题可以划分成两个子问题:

  发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。

  生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。

  10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:

  数据库等信息技术的发展

  统计学深入应用

  人工智能技术的研究和应用

  11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:

  准确性:挖掘出的规则必须反映数据的实际情况。

  实用性:挖掘出的规则必须是简洁可用的。

  新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。

  12. 约束的常见类型有:

  单调性约束;

  反单调性约束;

  可转变的约束;

  简洁性约束.

  13. 根据规则中涉及到的层次,多层次关联规则可以分为:

  同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。

  层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规则。

  14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。

  划分法:基于一定标准构建数据的划分。

  属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

  层次法:对给定数据对象集合进行层次的分解。

  密度法:基于数据对象的相连密度评价。

  网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。

  模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

  15. 类间距离的度量主要有:

  最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。

  最长距离法:定义两个类中最远的两个元素间的距离为类间距离。

  中心法:定义两类的两个中心间的距离为类间距离。

  类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。

  16. 层次聚类方法具体可分为:

  凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

  分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

  层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

  17. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:

  关键词检索:最简单的方式,它和传统的搜索技术类似。

  挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。

  信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。

  自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。

  18. 在web访问挖掘中常用的技术:

  路径分析:路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。

  关联规则发现:使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。

  序列模式发现:在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。

  分类:发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。

  聚类:可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。

  19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:

  数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。

  数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。

  通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。

  20. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。

  减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。

  加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。

  先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。

  先减后加策略:道理同先加后减,也是为了处理属性间的相关性。

  21. 数据挖掘定义有广义和狭义之分。

  从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

  从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

  22. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。

  23. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

  24. K-means算法的性能分析:

  主要优点:是解决聚类问题的一种经典算法,简单、快速;对处理大数据集,该算法是相对可伸缩和高效率的;当结果簇是密集的,它的效果较好。

  主要缺点:在簇的平均值被定义的情况下才能使用,可能不适用于某些应用;必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果;不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。

  25. ID3算法的性能分析:

  ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。

  ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。

  ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。

  26. Apriori算法有两个致命的性能瓶颈:

  多次扫描事务数据库,需要很大的I/O负载

  对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。

  可能产生庞大的侯选集

  由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

  27. 改善Apriori算法适应性和效率的主要的改进方法有:

  基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

  基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

  基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

  其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

  28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

  异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。

  数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。

  动态变化的应用环境:

  Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。

  这种高变化也体现在页面的动态链接和随机存取上。

  Web上的用户是难以预测的。

  Web上的数据环境是高噪音的。

  29. 简述知识发现项目的过程化管理I-MIN过程模型。

  MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。

  IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。

  IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。

  IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。

  IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。

  IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。

  IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

  30. 改善Apriori算法适应性和效率的主要的改进方法有:

  基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

  基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

  基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

  其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

用户喜欢...

大数据对投资和金融世界的影响

大数据对投资的影响是巨大的,并将改变金融世界和人们的投资习惯。 传统上,投资世界是平淡无奇的,并且具有排他性。投资工具彼此之间差别不大,最低资本要求意味着投资也只能供给少...


大兴机场亮相科技感十足 千锋教育培养科技时代精英

作为20年内全球范围规划新建设的最大机场之一,大兴国际机场从开工建设到9月25日正式投入使用,每一步都吸引着全球的目光。借助5G、人脸识别、VR体验等前沿科技,大兴国际机场,值机、...


英特尔助力阿里云创造世界纪录 加速大数据计算创新突破

在2019年云栖大会上,英特尔与阿里巴巴共同宣布,在国际大数据性能基准测试TPCx-BB[1]中,由英特尔支持的阿里云MaxCompute以100TB的数据规模创造世界纪录。TPCx-BB是目前业界最全面的端到端大数...


大数据如何改变社交媒体营销

如今,大数据在市场营销中发挥重要作用,并以许多方式正在改变社交媒体营销。 大数据是近年来促进营销领域的最令人印象深刻的技术进步之一。虽然在某些圈子里,大数据已经成为一个流...


区块链如何改变大数据行业?

很多人都听到过大数据这个术语,它可能出现在与科技行业相关的视频中,也可能出现在人们的办公室里。大数据是2019年的热门话题之一,每个技术爱好者都在讨论它带来的变化和影响。 大数...


应该在云中存储大数据的5个理由

如果不确定如何正确存储大数据,则应该将大数据存储在云中。 信息存储只能通过位于隐蔽位置的传统远程服务器来完成的日子已经一去不复返了。如今采用云端存储数据,其中信息和数据以...


从云计算大数据等方面建立评价体系

中国生产力学会承办的第十九届世界生产力大会将于2019年11月16日至18日在中国成都召开。来自世界不同的国家或地区的工商界领袖、政界人物、行业管理者、生产力科学领域专家学者等相关人...


人工智能和大数据存在什么隐患?

从数据稀缺到现在有大量的数据,近年来,可用的数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的巨大增长,以及这些设备之间通过物联网连接。似乎每个人都有收...


全球女性智慧共享平台——全球魅力女性学院盛大揭幕

2019年9月14日,全球女性智慧共享平台全球魅力女性学院在中美建交40周年庆典上正式揭幕。美国前总统卡特儿子奇普卡特、全国职业教育教学改革创新指导委员会副主任委员刘延申等各界嘉宾应...


谷歌将追加投资30亿欧元扩大欧洲数据中心

谷歌公司CEO皮查伊今天在芬兰举行的新闻发布会上宣布,谷歌将追加投资30亿欧元扩大欧洲数据中心。 谷歌的这一投资计划包括对芬兰哈米纳数据中心追加投资6亿欧元,使得该公司在哈米纳数...


百度视频8月影视大数据报告 国产片势头强劲

8月,影视剧延续暑期的热度。国产片势头强劲,《哪吒之魔童降世》、《烈火英雄》等影片热度持续飙升;电视剧也很丰富多彩,都市家庭、古装、奇幻等题材的多部高口碑、高热度剧相继登场...


上海市大数据中心与顺丰速运上海公司昨日签署合作框架协议

上海市大数据中心与顺丰速运上海公司昨日签署合作框架协议,今后一网通办服务中,用户在物流寄送方面除了现有的邮政EMS,还可以选择顺丰。上海市委常委、常务副市长陈寅等见证签约仪...


中国电信在宁夏建大型数据中心 总投资额达10亿元

据悉,9月19日上午,在中卫市西部云基地内,中卫市2019年第三季度重大项目集中开工现场推进会正式召开。本次集中开工的项目共有38个,投资总额在55亿元。其中有22.8亿元投资将计划在年度...


促进电子邮件营销转换的5个大数据策略

采用大数据可以显著改进和增加电子邮件营销转换率。企业在电子邮件营销方面可以尝试大数据策略。 大数据几乎在数字营销领域的每个方面都发挥着至关重要的作用,企业可以使用大数据来...


中国大数据市场保持稳定增长

咨询机构IDC最新发布的报告预测,2019年,大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元(约合人民币13495.1亿元),这一数字相比2018年增长12.1%。在2019年~2023年的预测期内,全...


贵州大学迎新首次使用大数据

拍张全家福 9月16日,贵州大学迎来了来自全国各地的9436名本科新生,其中包括了7600余名00后小萌新,1800余名90后萌新。迎新现场,由学长学姐们组成的迎新志愿者,从接车、报到、办理入住手...