Follow

Follow

基本可视化流程

志宇郑's photo

··

1 min read

社会自然现象
数据采集

决定了数据的格式、维度、尺寸、分辨率等性质，决定了可视化结果质量
数据处理和变换

对原始数据进行处理，把用户可以理解的模式和特征显示出来
可视化映射

将数据的各种信息映射到不同的视觉通道，方便用户洞察背后的现象和规律
用户感知

数据可视化和其他数据分析最大的不同在于用户，用户需要借助可视化结果来感受数据的不同，提取信息、知识、灵感
知识灵感

1. 数据处理和数据变换

数据清理、数据集成、数据变换、数据离散化、数据配准

数据清理

缺失值：当存在一些数据中缺乏某项数据时

删除记录
人为填写
全局常量填充
使用均值或中位数
使用最可能的值

噪声数据与离群点：测量变量时的随机误差

分箱：通过周围的值来光滑有序数据。均值、边界、中位数
回归：用一个函数拟合（线性回归）来光滑数据。离群点可以用聚类来分析

数据集成

来自不同数据源的相同数据

属性匹配：确定不同数据源的数据属性之间的对应关系
冗余去重：去除重复的数据属性
数据冲突检测与处理：处理属性值之间的冲突

数据变换

数据变换策略如下

光滑，如上
属性构造。新属性的构造与添加
聚集。汇总数据
规范化。如按比例缩放使落入一个特定的小区间
离散化。
1. 数据属性原始值用区间标签来替代。如青年、少年、老年.
2. 分箱离散化
3. 直方图离散化
4. 聚类、决策树
标称数据产生概念分层。如street泛化到较高的city或country

数据配准

数据可视化往往需要在同一空间显示不同时间、不同角度等产生的数据

数据配准可采用计算相似度等方法。

2. 可视化映射

人的视觉特点如下：

对亮度、运动、差异更敏感，对红色更敏感
对具备某些特点的视觉元素具有很强的识别能力，如空间上较近的点
对眼球中心正面的物体辨识度高
习惯将某种方向上的趋势的物体视为连续物体
习惯使用经验去感知物体

图形标记和视觉通道

图形标记：矩形、线、点等

图形标记维度：零、一、二、三维

图像标记自由度：

如点在二维空间自由度为2，可向两方向扩张

面分别在二维空间和三位空间的自由度为0、1

视觉通道包括：

位置、大小、形状、方向、色调、饱和度、亮度等

可视化编码的选择：针对数值类、序列类、类别类数据采用不同的元素

#data visualisation