轻松装X一招get,大数据基础术语大放送~~
来自:李苗苗(专注大数据BI众包。dashengzb.cn)

“出来混,迟早要还的!”作为大数据圈圈中人,一些基础的术语都不会,都不好意思说话了。今天,为你带来24个大数据基础术语,赶快mark下,从此在朋友圈滔滔不绝,唬住甲方乙方! 1.大数据 大数据(big data/mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 2.大数据的4V: Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

3.当前用于分析大数据的工具主要有开源与商用两个生态圈: 开源大数据生态圈: ①Hadoop HDFS、Hadoop MapReduce、HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成。 ②Hypertable是另类,它存在于Hadoop生态圈之外,但也曾经有过一些用户。 ③NoSQL、membase、MongoDb。 商用大数据生态圈: ①一体机数据库/数据仓库:IBM PureData(Netezza)、Oracle Exadata、SAP Hana等。 ②数据仓库:Teradata AsterData、EMC GreenPlum、HPVertica等。 ③数据集市:QlikView、Tableau,以及国内的Yonghong Data Mart。 4.Apache基金会 Apache软件基金会(Apache Software Foundation,简称为ASF),是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证(Apache License)。 5.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,利用它开发分布式程序,充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉(low-cost)的硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储功能,MapReduce则为海量的数据提供了计算功能。 6.MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 7.BI BI(Business Intelligence),即商业智能或商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

8.CRM CRM即客户关系管理,是指企业用CRM技术来管理与客户之间的关系。在不同场合下,CRM可能是一个管理学术语,可能是一个软件系统。通常所指的CRM,指用计算机自动化分析销售、市场营销、客户服务以及应用等流程的软件系统。它的目标是通过提高客户的价值、满意度、赢利性和忠实度来缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新的市场和渠道。CRM是选择和管理有价值客户及其关系的一种商业策略,CRM要求以客户为中心的企业文化来支持有效的市场营销、销售与服务流程。 9.云计算 云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网中提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用它来表示互联网和底层基础设施的抽象理解。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户可以通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。 10.云计算相关 分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)。 11.数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程、提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建的。它为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制的功能。 12.数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格,到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。 13.非结构化数据库 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息)。 14.非关系型数据库 NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站时,已经显得力不从心,暴露了很多难以克服的问题。而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

15.半结构化数据 在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等,我们就会建立一个对应的staff表。但不是系统中所有的信息都可以这样简单地用一个表中的字段就能对应的。半结构化数据(semi-structured data),和普通纯文本相比,它具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,它不具备一定的结构性。OEM(Object exchange Model)就是一种典型的半结构化数据模型。 16.结构化数据 对结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。 17.结构化分析方法 结构化分析方法(Structured Method,结构化方法)是强调开发方法的结构合理性,以及所开发软件的结构合理性的软件开发方法。结构是指系统内各个组成要素之间的相互联系、相互作用的框架。结构化开发方法提出了一组提高软件结构合理性的准则,如分解与抽象、模块独立性、信息隐蔽等。针对软件生存周期各个不同的阶段,它有结构化分析(SA)和结构化程序设计(SP)等方法。 18.数据挖掘 数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 19.数据清洗 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来且包含历史数据,这样就避免不了有的数据是错误数据,有的数据相互之间有冲突,这些错误的或有冲突的数据显然不是我们想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

20.数据分析 数据分析(Data Analysis),指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实践中,数据分析可帮助人们做出判断,以便采取适当行动。如,Excel作为常用的分析工具,可以实现基本的分析工作;在商业智能领域,常用的有Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及国内产品如Yonghong Z-Suite BI套件等。 21.产品数据管理 产品数据管理(Product Data Management)是基于分布式网络、主从结构、图形化用户接口和数据库件管理技术发展起来的一种软件框架(或数据平台),PDM可以对并行工程中的人员工具、设备资源、产品数据以及数据生成过程进行全面管理。 22.DMP DMP(Data-Management Platform)即数据管理平台,是把分散的第一、第三方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动营销环境里。 DMP的核心元素包括: 数据整合及标准化能力:采用统一化的方式,将各方数据吸纳整合; 数据细分管理能力:创建出独一无二、有意义的客户细分,进行有效营销活动; 功能健全的数据标签:提供数据标签灵活性,便于营销活动的使用; 自助式的用户界面:基于网页web界面或其他集成方案直接获取数据工具、功能和几种形式报表和分析; 相关渠道环境的连接:与相关渠道进行集成,包含网站端、展示广告、电子邮件以及搜索和视频,让营销者能找到、定位和提供细分群体高度相关的营销信息。 23.可视化 可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。目前正在飞速发展的虚拟现实技术也是以图形图像的可视化技术为依托的。

24.数据可视化 数据可视化(Data visualization)技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。

大数据产业蓬勃发展,相关术语也需要深入掌握。希望为你整理的第一波大数据基础术语能让你有所裨益。

最新讨论 ( 更多 )
- 猎鹰计划-B端产品入门与进阶 (豆友oAvvIwaUgI)
- 设计师在线接单中 (小肥刀设计鹏鹏)
- 求助IT大神 (豆友eZC4GsGUEg)
- 华为外派北非 (驻外之家人才网)
- 有没有一起软考的小伙伴? (会长)