当前位置:首页 > 大数据知识

1分钟带你了解什么是大数据

1分钟带你了解什么是大数据

在许多领域,由于各种来源被广泛并持续地收集,数据集过度庞大,在分析处理上遭遇了限制和阻碍。随着大数据在社会、商业、经济等领域中被越来越多地被提及和使用,人们的决策将日益基于数据和分析而作出。

01 大数据的定义

维基百科认为,大数据(Big Data)是指在承受的时间范围内使用通常的软件工具捕获和管理的数据集合。大数据是一种大规模的数据集合,在过去的存储和管理分析中远远超过传统软件,因此称为大数据。

简单来说,大数据就是规模很大的数据。大数据的核心价值在于存储和分析海量数据;大数据技术的战略意义不在于掌握大量数据信息,而在于专业处理这些有意义的数据。换句话说,如果把大数据比作一个行业,这个行业盈利的关键在于提高数据的加工能力,通过加工实现数据的增值。

大数据可以实现的应用可以概括为两个方向,一个是正确的定制,另一个是预测。比如通过搜索引擎搜索同样的内容,每个人的结果都很不一样。

大数据的来源包括科学、RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、社会数据分析、互联网文件处理、互联网搜索引擎、通信记录明细、军事侦查、金融大数据,医疗大数据、社群网络、通勤时间预测、医疗记录、照片图像、影像封存、电子商务等等,从收集到清晰到分析利用。大数据由巨型数据集组成,这些数据集大小超出人类在可接受时间下的收集、庋用、管理和处理能力。

02 大数据的特征

大数据具备数据量大(Volume),速度快(Velocity),类型多(Variety),价值(Value)四个特征。

大数据的数据体量巨大。数据集合的规模不断扩大,已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航每天需要提供的数据超过 1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。图 2 展示了每分钟互联网产生的各类数据的量。

大数据的数据产生、处理和分析的速度在持续加快。加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快,处理模式已经开始从批处理转向流处理。业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,可以从各种类型的数据中快速获得高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。

大数据的数据类型繁多。传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、 日志文件等。企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。

大数据的数据价值密度低。大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高。以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

03 大数据技术

大数据需要的技术主要包括大规模并行处理(MPP)数据库、数据挖掘网络、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据技术分为整体技术和关键技术两个方面。整体技术,主要有数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。数据采集(有时缩写为DAQ或DAS),又称为“数据获取”或“数据收集”,是指对现实世界进行采样,以便产生可供计算机处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成组件当中包括用于将测量参数转换成为电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的,如RFID射频技术、传感器以及移动互联网等方式获得的各种类型的结构化及非结构化的海量数据。

大数据采集一般分为大数据智能感知层和基础支撑层。大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统。实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的区络传输与压缩技术,大数据隐私保护技术等。

数据分析及数据挖掘是大数据的核心技术。数据分析与数据挖掘密切相关,数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。

在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。数据分析分为探索性数据分析和定性数据分析两种类型。探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智能组织和金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大数据集之中提取信息。数据挖掘被描述为“从数据之中提取隐含的,先前未知的,潜在有用信息的非凡过程”,以及“从大型数据集或数据库之中提取有用信息的科学”。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析,从中寻找可能有助于决策制定工作的模式的过程。

04 数据治理与管理

数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术。数据治理旨在:

·增强决策制定过程中的一致性与信心

·降低遭受监管罚款的风险

·改善数据的安全性

·最大限度地提高数据的创收潜力

·指定信息质量责任

数据管理,又称为“数据资源管理”,包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理,DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛,涵盖了许多可能在技术上并不直接接触底层数据管理工作(如关系数据库管理)的职业。

05 大数据市场

经济的开发成长促进了密集数据科技的使用,也促成发展了相对于资讯经济的数据经济。据IDC 发布的《2022 年 V2 全球大数据支出指南》(IDC Worldwide Big Data and Analytics Spending Guide),2021 年全球大数据市场的 IT 总投资规模为 2176.1 亿美元,并有望在 2026 年增至 4491.1 亿美元,五年预测期内(2021-2026)实现约 15.6% 的复合增长率(CAGR)。聚焦中国市场,IDC 预计,2026 年中国大数据 IT 支出规模预计为 359.5 亿美元,市场规模位列单体国家第二。从增速的角度来看,中国大数据 IT 支出五年 CAGR 约为 21.4%,位列全球第一。

而针对中国大数据软件市场,IDC 预计2026 年大数据软件将成为第二大技术市场。大数据软件以 26.9% 的五年 CAGR 强势增长,软件 IT 投资规模逐年接近硬件市场。其中,人工智能软件平台市场和终端用户查询、报告和分析市场将主导中国大数据软件 IT 投资,两者共计近软件投资总规模的四成。同时,内容分析技术子市场,将以 41.1% 的五年 CAGR 快速扩大,增速亮眼。未来大数据软件市场将发挥承上启下的关键作用,与上下游产品形成耦合榫卯结构。

总之,IDC认为中国大数据市场增速持续领跑全球,呈现出强劲的增长态势,市场前景广阔。随着数字经济、数字化转型、新基建等投资建设进一步加快,中国终端用户对大数据硬件、软件、服务的需求将稳步扩大。