大数据可视化技术面临的挑战及应对措施

原作者: 人工智能 收藏 分享 邀请

人工智能图片

本文从年夜数据自己的特色及其使用需求动身,连系数据可视化的研讨近况,引见了合用于年夜数据的数据可视化手艺;阐发在年夜数据前提下数据可视化所要处理的8个要害成绩;会商了针对年夜数据可视化使用需求自立研发的交互式可视化设计平台AutoVis及其使用。

图灵奖取得者JimGray曾说,数据密集型迷信发明是继尝试归结、逻辑推演、仿真模仿之后的第4类迷信方式,作为前3种迷信范式的弥补,这种方式进一步增进人类科技的前进。

数据鞭策着诸多迷信范畴与各行各业成长的同时,也带来了史无前例的应战。有用地舆解数据,防止“big data”成为“big rubbish”,需求开辟更好的东西以撑持全部研讨进程,包罗数据捕获、数据管理、数据阐发以及数据可视化。

在年夜数据时期,数据可视化手艺在普遍使用的同时,也面对诸多新的应战。年夜数据可视化是一个面向使用的研讨范畴,本文重点从使用理论的角度,会商在年夜数据布景下年夜数据可视化内在、研讨停顿、相干手艺与产物以及所面对的一系列应战。

年夜数据可视化内在

数据可视化就是将笼统的“数据”以可见的方式表示出来,帮忙人了解数据。年夜数据可视化绝对传统的数据可视化,处置的数据对象有了素质分歧,在已有的小范围或过度范围的布局化数据根本上,年夜数据可视化需求有用处置年夜范围、多类型、疾速更新类型的数据。这给数据可视化研讨与使用带来一系列新的应战。

数据可视化这一概念自1987年正式提出,颠末30余年的成长,逐步构成3个分支:迷信计较可视化(scientific visualization)、信息可视化(information visualization)和可视阐发(visual analytics)。近些年来,这3个子范畴呈现了逐步交融的趋向。本文统称为“数据可视化”。

在传统数据可视化根本上,论文测验考试给出年夜数据可视化的内在:年夜数据可视化是指有用处置年夜范围、多类型和疾速转变数据的图形化交互式摸索与显示手艺。

此中,有用是指在公道时候和空间开支规模内;年夜范围、多类型和疾速转变是所处置数据的首要特色;图形化交互式摸索是指撑持经由过程图形化的手腕交互式阐发数据;显示手艺是指对数据的直不雅展现。

年夜数据可视化手艺

起首从方式层面引见根基知足常用数据可视化需求的通用手艺,按照可视化方针分类引见,然后按照年夜数据的特色,重点引见相干的年夜范围数据可视化、时序数据可视化、面向可视化的数据采样方式和数据可视化天生手艺。

常用的数据可视化手艺

数据可视化手艺在使用进程中,大都非手艺驱动,而是方针驱动。如图显示了今朝业界普遍利用的按照方针分类的数据可视化方式,数据可视化方针笼统为比照、散布、构成以及关系。

人工智能图片

按方针分类的常用数据可视化方式

1)比照。比力分歧元素之间或分歧时辰之间的值。

2)散布。检查数据散布特点,是数据可视化最为常用的场景之一。

3)构成。检查数据静态或静态构成。

4)关系。检查变量之间的相干性,这经常用于连系统计学相干性阐发方式,经由过程视觉连系利用者专业常识与场景需求判定多个身分之间的影响关系。

年夜范围数据可视化

年夜范围数据可视化普通以为是处置数据范围到达TB或PB级此外数据。颠末数十年的成长,年夜范围数据可视化颠末了年夜量研讨,重点引见此中的并行可视化和原位(in situ)可视化。

(1)并行可视化

并行可视化凡是包罗3种并行处置形式,别离是使命并行、流水线并行、数据并行。

使命并即将可视化进程分为自力的子使命,同时运转的子使命之间不存在数据依靠。

流水线并行采取流式读取数据片断,将可视化进程分为多个阶段,计较机并行履行各个阶段加快处置进程。

数据并行是一种“单法式大都据”体例,将数据划分为多个子集,然后以子集为粒度并行履行法式处置分歧的数据子集。

(2)原位可视化

数值模仿进程中天生可视化,用于缓解年夜范围数值模仿输入瓶颈。按照输入分歧,原位可视化分为图像、散布、紧缩与特点。

●输入为图像的原位可视化,在数值模仿进程中,将数据映射为可视化,并保留为图像。

●输入为散布数据的原位可视化,按照利用者界说的统计目标,在数值模仿进程入彀算统计目标并保留,后续停止统计数据可视化;

●输入为紧缩数据的原位可视化采取紧缩算法下降数值模仿数据输入范围,将紧缩数据作为后续可视化处置的输出;

●输入为特点的原位可视化采取特点提取方式,在数值模仿进程中提取特点并保留,将特点数据作为后续可视化处置的输出。

时序数据可视化

时序数据可视化是帮忙人类经由过程数据的视角不雅察曩昔,猜测将来,例如成立猜测模子,停止猜测性阐发和用户行动阐发。

人工智能图片

面积图可显示某时候段内量化数值的转变和成长,最常用来显示趋向。气泡图可以将此中一条轴的变量设置为时候,或许把数据变量随时候的转变制成动画来显示。烛炬图凡是用作买卖东西。

人工智能图片

甘特图凡是用作项目治理的组织东西,热图经由过程颜色转变来显示数据,直方图合适用来显示在持续距离或特按时间段内的数据散布。

人工智能图片

折线图用于在持续距离或时候跨度上显示定量数值,最常用来显示趋向和关系。南丁格尔玫瑰图绘制于极坐标系之上,合用于周期性时序数据。OHLC图凡是用作买卖东西。

人工智能图片

螺旋图沿阿基米德螺旋线绘制基于时候的数据。堆叠式面积图的道理与复杂面积图不异,但它能同时显示多个数据系列。量化波形图可显示分歧种别的数据跟着时候的转变。

别的,具有空间地位信息的时序数据,经常将上述可视化方式舆图连系,例如轨迹图。

面向可视化的数据采样方式

面向可视化的时序数据采样,首要针对时序数据的折线图视觉结果停止优化。此类研讨的首要方针为,从时序数据中选择小部门时序数据,操纵折线图上的点与连线的视觉结果,使得拔取数据的折线图视觉结果与原始数据的可视化成果尽能够接近。

Steinarsson总结了一些基于折线图的时序数据采样算法,以为折线图中的每个数据点都存在各自的视觉权重。Kehagias提出了M4aggregation时序数据采样算法。Guo等总结了4种针对空间数据的可视化束缚:代表性束缚、可视性束缚、平移分歧性与缩放分歧性,并基于可视化束缚提出了贪婪战略采样算法。

数据可视化天生体例

颠末数十年的成长,数据可视化构成了从底层编程到下层交互式定制的多条理天生体例。

人工智能图片

数据可视化出产体例

编程体例按照说话类型可以分为函数式编程与声明式编程。函数式编程可以按照图表元素封装层级分为更根本的图形编程接口,声明式编程呈现时候绝对较晚,此中采取图形语法思惟的可视化语法。

交互式数据可视化天生体例经由过程交互接口,使得用户不消编程即可定制可视化图表。此中,Polaris与Tableau采取数据列拖选体例交互天生可视化图表;Voyager和Data2Vis则供给了按照数据主动天生可视化图表的才能;Lyra和Data Illustrator则供给了一品种似于Visio的交互体例,从图表元素拼装图表的才能。VisFlow在供给多个可视化模板的根本上采取数据流的思惟,将可视化图表作为数据处置流的中心步调,经由过程可视化的体例停止数据处置。

全体而言,编程体例的长处在于丰硕的表示才能与特性化定制才能,错误谬误是缺少直不雅性,请求利用者具有编程才能,且绝对需求更多的人力与时候本钱;绝对而言,交互体例的长处在于直不雅,用户无需编程即可定制图表,利用更为普遍,错误谬误是表达才能无限,零碎功用和机能经常无法知足利用者特性化需求。

年夜数据可视化产物

本节重点引见引见相干的年夜数据可视化产物,包罗合用于必然年夜数据场景的传统数据可视化产物及面向年夜数据的数据可视化产物。

传统数据可视化产物

PowerBI作为微软推出的数据可视化产物,在2019年的GartnerBI象限中排名首位。长处在于易用性,交互体例近似于Excel;错误谬误在于机能绝对较弱,贫乏数据预备于清洗东西。

Tableau基于关系型代数实际研发,是今朝利用最为普遍的数据可视化产物之一。长处在于基于拖放的交互体例,丰硕的功用以及撑持Hadoop和Google BigQuery等年夜数据平台;错误谬误是仅撑持布局化数据,年夜数据及时呼应较慢,权限束缚无限。

QlikView为新兴的数据可视化产物,利用越来越普遍。长处在于数据联系关系查询与钻取才能,图表绘制疾速;错误谬误在于易用性缺乏,作为内存型的数据可视化产物,数据处置速度依靠于内存巨细,对硬件请求较高。

面向年夜数据的可视化产物

年夜数据布景下发生的数据可视化产物如下。

人工智能图片

Apache Superset是基于Flask-Appbuilder构建的开源数据可视化零碎,B/S架构,集成了舆图、折线图、饼图等可视化方式,供给了一种便利的看板定制方式。长处是零碎可扩大性与权限节制机制;错误谬误是零碎不变性和年夜数据处置才能缺乏。

Apache Zeppelin是面向年夜数据的交互式数据阐发与协作记事本东西,开源项目,B/S架构。长处是与分歧年夜数据框架的集成才能与零碎可扩大性;错误谬误是需求编程,不撑持异步,关于年夜范围数据,客户端能够需求期待较长时候。

年夜数据可视化应战

数据可视化在年夜数据场景上面临诸多新的应战,包罗数据范围、数据交融、图表绘制效力、图表表达才能、零碎可扩大性、疾速构建才能、数据阐发与数据交互等。

数据范围

年夜数据范围年夜、价值密度下降,受限于屏幕空间,所能显示的数据量无限。是以为了有用显示利用者所存眷的数据和特点,需求采取有用的数据紧缩方式。今朝已有的方式针对数据自己停止采样或聚合,未思索数据可视化的显示特征。近期一些学者提出了针对特定可视化场景的数据紧缩方式。可是今朝仍然贫乏通用的面向可视化的数据紧缩方式,也贫乏现实使用的产物。

数据交融

年夜数据的另一个表示是数据类型多样,经常散布于分歧的数据库。若何交融分歧来历、分歧类型的数据,为利用者供给同一的可视化视角,撑持可视化的联系关系摸索与关系发掘,是一个主要的成绩。此中触及数据联系关系的主动发明、多类型数据可视化、常识图谱构建等多个手艺成绩。

图表绘制效力

跟着数据范围的增添,图表可视化的效力成绩越来越凸显。今朝,有些可视化产物最先采取WebGL借助GPU完成平行绘制。越来越多的数据可视化产物采取B/S架构,其机能必然水平上优先于阅读器;别的,因为跨终端需求越来越遍及,也对图表绘制提出了更多应战。

图表表达才能

跟着发生数据的来历增添,数据类型不竭增添,数据利用者关于数据的交互需求越来越多,已有的数据可视化产物完整无法知足利用者的可视化需求,时常呈现需求的可视化方式产物不撑持或撑持不敷等成绩。这就关于零碎的图表表达才能提出了更高的请求,同时关于零碎撑持利用者的特性化定制提出了新的请求。

零碎可扩大性

年夜数据关于数据可视化零碎的扩大才能提出了新的应战,零碎的可扩大性将成为权衡一个年夜数据可视化零碎的主要目标。

疾速构建才能

年夜数据陪伴着疾速转变与增添的数据,若何帮忙用户实时了解数据,发明成绩,离不开数据可视化的疾速构建才能,即按照利用者数据驱动的图表疾速定制才能。数据在s级甚至ms级更新的环境下,有没有能够完成图表的秒级更新与疾速定制。别的,图表定制后的疾速共享与呼应功用也将成为需要的零碎功用。

数据阐发

传统的BI东西首要集中在数据挑选、聚合及可视化功用,曾经不克不及知足年夜数据阐发的需求,Gartner提出了“加强阐发”,数据可视化只要连系丰硕的年夜数据阐发方式,将数据的摸索式阐发构成一个闭环,才干完成完好的年夜数据可视化产物,有用帮忙利用者了解数据。猜测性阐发是年夜数据的趋向,数据可视化有用连系猜测方式,将有助于利用者的决议计划。

数据交互

年夜数据可视化利用者需求经由过程可视化与图表面前的数据和处置逻辑停止交互,由此反映利用者的特性化需求,帮忙用户用一种交互迭代的体例了解数据。在传统的交互手腕根本上,加倍天然的交互体例,将有助于利用者与数据更好的交互,也有助于拓展年夜数据可视化产物的利用规模与使用场景。

年夜数据可视化手艺与产物所面对首要应战的同时也对其成长带来了新机缘,例如Yu等提出的面向数据流式可视化的天然说话交互接口,经由过程天然说话与可视化罕见操纵的映射完成。微软Excel软件集成天然说话交互,此中的AnnaParser算法将数据表停止笼统并连系表格常识了解完成语义了解。

AutoVis

如前所述,年夜数据可视化面对一系列应战。为此,课题组自立研发了数据感知的交互式可视化设计平台AutoVis,方针是让年夜数据的可视化进程加倍复杂,焦点是辅佐利用者疾速完成从数据到图表的设计进程,包罗数据界说、图表设计、映射进程、图表交互与看板办事。

数据界说

AutoVis撑持IoTDB、PostgreSQL、MySQL、SQLServer、SQLLite等常用数据库类型,以及供给RESTfulAPI接口的数据办事。设计完成了笼统数据集构建与计较手艺,撑持分歧数据的自在组合,经由过程笼统数据集回一化,完成数据集的疾速天生。

图表设计

AutoVis采取模板化思惟,供给了百余个笼盖常用可视化手艺的图表模板,撑持即时模板扩大及拖拽即用,到达秒级图表界说。别的,AutoVis供给了所见即所得的图表组合定制看板才能,完成了分钟级看板界说。

映射进程

为了到达图表定制易用性的同时完成及时可扩大性,即交融编程体例的表达才能和交互体例的易用性,AutoVis设计完成了3种互补的数据至图表的映射体例:交互选项、扩大选项、手工编码。

图表交互

图表交互才能在年夜数据场景下愈发主要。AutoVis的图表模板供给了常用的交互功用,包罗点选、悬浮、刷选等。别的,AutoVis还完成了看板图表的主动联系关系,撑持跨图表跨数据的钻取才能。

看板办事

AutoVis在撑持常用的看板链接共享根本上,供给了看板办事才能,即便用者不只可以将看板共享,或集成到其他零碎,还可以静态向看板传递参数,静态调剂看板可视化内容。别的,AutoVis环绕看板供给了“数字谈判室”功用,利用者可以环绕数字看板停止数据驱动的会商与决议计划。

数据可视化已成为人了解数据的主要路子,在年夜数据时期,人们加倍需求有用的数据可视化东西直不雅阐发年夜范围数据,疾速捕获数据转变。

绝对传统的数据可视化,年夜数据也带来了数据范围、数据交融、图表绘制效力、图表表达才能、零碎可扩大性、疾速构建才能、数据阐发与数据交互等多个方面的应战。有用应对这些应战将有助于年夜数据可视化跟着年夜数据和数据迷信的普及,鞭策其使用到更多范畴。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

本文作者2020-4-9 07:00 PM
人工智能
粉丝1 阅读131 回复0

精彩阅读

排行榜

人工智能公众号

扫码微信公众号
我陪你畅想未来

最智能的人工智能网!
QQ:162057003
周一至周五 9:00-18:00
意见反馈:162057003@qq.com

扫一扫关注我们

Powered by Discuz! X3.4   © 2020 ( 鲁ICP备18055727号 )  |  |网站地图