大数据分析的真正价值只有当它作为一种凝聚力的时候才会实现,这将会使地理空间从当前基本要素收集的状态发展到一种自主训练的状态。
从各种来源采集的结构化和非结构化的数据及用于获得信息的集合称为大数据。根据维基百科介绍,大数据由不能被数据库管理系统有效处理的数据集组成。这些数据集的范围从MB到GB。在现代互联网数字世界中,有大量的不同来源的及位于不同服务器的实时数据流。移动电话、信用卡、RFID设备、SNS聊天都在创造数据流,我们或许认为那是只存在一天的事物,但是它们会在服务器上存留很多年。当某事件发生时,这些数据流可以以协调的方式进行访问,并分析得到的信息,否则会依旧隐藏。例如,移动电话记录的分析能够确定一个人是否在某个特定位置。最引人注目的例子之一就是2011年对奥萨马?本?拉登的跟踪与抓捕。
地理空间大数据源
随着卫星遥感、全球导航卫星系统、航空勘测、数码相机、传感器网络、雷达和激光雷达的出现, 2007年数据产品交叉的存储能力及地理空间数据量呈指数增长。这些常规来源加上像位置感知设备这样的非常规来源,你将会拥有一个巨大型的数据流。
在大数据报告中,麦肯锡全球研究所(McKinsey Global Institute)估计位置数据的等级在2009年为PB级(千万亿字节级),并以每年20%的速度增长,这还不包括来源于RFID传感器的数据。联合国全球地理信息管理(UN-GGIM)估计每天会产生2503万字节的数据,其中显著的部分是位置感知。
然而,为地理空间大数据和其它大数据创建容器是错误的。大数据的关键是需要查看特定应用数据集中的所有数据。因此,据明尼苏达大学空间数据(spatial data)科学家沙市?谢卡尔(Shashi Shekhar)所讲,大数据也包括数据密集型计算、中间件、分析学及科学和社会应用。
实际上,互联网上相互关联的不同数据源的当前趋势产生了物联网,每一来源都有自己的统一资源标示符(URI),而且地理空间数据也会无处不在。到2020年这样的来源将会超过500亿。
大数据管理
大数据的主要问题是所有的数据已经持久化。为缓解传输需复制数据并创建数据金字塔。此外,需要创建和保留元数据,这本身就是一项大任务。存储器便宜了但是由于不断增长的数据量,所以无法进行线性扩展。快速解决方案是无损数据压缩和高分辨率数据提取;相关地理空间数据集的复合的方案及消除重复。另一种解决方法是连接到网络上的数据,它由语境化的数据集元组组成,从而增加单个数据集的值。
IBM大数据平台(来源:驾驭大数据的力量)
UN-GGIM已确定技术手段有助于在几秒内而非几小时内分析大数据,如图形处理单元(GPU)、并行处理和像NoSQL(Not only SQL)数据库。大数据流是很快的,通常比那些交易数据快10-100倍。在这种情况下,用SQL进行实时地数据分析是困难的。NoSQL的本质是运行SQL接口,因此很可能就不再需要数据仓库,这并不意味着SQL和数据仓库将会消失。IBM数据仓库仍然用来存储高质量的、具有广泛用途的预处理数据。另一方面大数据仓库不会进行如此严格的预处理,更多强调的是数据的发现而不是它的价值。仓库也可能有不同的特征,很多强调原子性、一致性、隔离性和耐久性(ACID),而其它的可能更加宽松,即能够在基本的可用性、软状态、始终一致的基础上运行。
在这种形势下,Apache的Hadoop程序套件提供了一种开源的方法处理大数据。Hadoop 以分布式处理模式运行并保存数据直到分析出它的作用。这样的数据可以随之转移到仓库中。Hadoop也能起到文档服务的作用,将归档就绪的“旧”数据从仓库移动到低价位的存储系统中。因此,传统的引擎和新的数据处理引擎都是需要的。这不是仓库与Hadoop或者SQL 与NoSQL的对抗,而是两者兼有。IBM和Oracle都有以Hadoop和NoSQL为基础的自主解决方案。这两个系统都使用硬件和软件解决方案。不同之处在于它们处理地理空间数据的方法。Oracle 使用地理空间启动数据库而IBM则把地理空间分析作为Netezza In-Database 分析的一部分。Hadoop只是一种解决方案,还有其它像Teradata的自主系统,它包含了以原生格式对地理空间数据的处理。
在典型的大数据应用工作流中,Oracle大数据应用(BDA)主要用来滤波、变换、提取及其它地理空间数据的预处理操作,包括栅格影像。从多个来源如传感器、卫星、移动地图及来自于移动设备的位置反馈获得的大容量、高速度数据能被集合于Oracle的BDA中,并被处理以识别相关的高价值数据。BDA适合用来处理原始影像,甚至应用像特征识别和标记这样的专业影像处理。这种处理的、变换的、高价值数据能够从BDA中被直接访问或者与空间数据库中的其它空间数据结合。Oracle提供高速Oracle BDA连接器,方便了BDA与空间数据库之间的数据传递。
大数据分析
大数据的关键就是分析。通常的地理空间数据设置中,分析就是一组程序,内置的或者由操作结构化数据集的程序员编写。此外,区分大数据分析需要对非结构化和结构化数据流进行实时分析。这些数据流的速度是交易数据的10-100倍。在地理空间环境中,这些可能是传感器的数据,以及来自灾区或战场上的实地考察报告。
地理空间大数据分析已经出现多年,只是没用这个术语。例如,在20世纪80年代中期VanRoekel,他曾援引对外开放的地理定位系统中的数据,现在已经被嵌入到一系列的商业应用中。他说,“作为一种免费的开源数据流,我们几乎突然之间给市场创造了1000亿的价值”。他还指出,在史密森研究所首次推出,美国气象服务如何提供一种方法,使开放源码能从整个国家收集和报告气象资料——另一个惊人的“大数据流”。
Oracle大数据方案(来源:2012年1月Oracle企业级大数据白皮书)
Carson J.Q. Farmer等人在大数据时代的地理信息科学中写道,大数据的地理空间分析需要“新的灵活的、非参数化的、计算效率高并能够在数据丰富的情况下为动态和非线性的流程建模提供可解释的结果的方法”。直到现在,地理空间大数据分析也一直专注于数据可视化及描述性分析。地理信息科学需要脱离这种方法并向以模型为中心的方法迈进,后者强调的是基本空间过程,而不是解决数据瓶颈。据IDC称,早在2007年其存储能力就超越了数据流量,没有办法可以弥补。需要做的是运行数据流分析。因此焦点从数据库转移到了模型字典,它能够用于传输数据以监测环境状态来突出正常和非正常的状态。流式处理可以用于调整模型参数并存储有用的数据样本。
像高分辨率卫星影像的图像处理,这样的计算密集型操作可以在Oracle BDA中并行执行。并且可将多系统连接成非常大的Hadoop集群以并行处理庞大的影像。Oracle BDA与Oracle Exadata之间的高速连接能使地理空间应用程序对于给定的任务选择合适的平台(批处理和预处理 vs. 事务处理)。
Oracle集成软件解决方案堆
另一个常见例子就是从非结构化文档中对与位置相关的语义进行提取。许多类型的社交媒体高度非结构化并充斥着模棱两可的术语。然而,它通常是指如姓名、地点、时间等重要概念,而人类读者也许能够推断和协调歧义,但机器不能 —— 至少在没有以某种形式进行预处理的非结构化媒体中是不可以的。应用自然语言处理非结构化的媒体,使开发人员能够从这些来源产生语义索引。这种“构建”过程减少了社会媒体的歧义性,而且能够与更多的空间数据库和GIS中常见的结构化关系内容相衔接。这种社交媒体的分析类型现在已经很普遍,越来越多的当作“社交媒体分析”或大数据分析,而且是地理空间计算中更令人兴奋的方面之一。(文|本刊翻译 刘雪)