基本可视化流程

  1. 社会自然现象

  2. 数据采集

    决定了数据的格式、维度、尺寸、分辨率等性质,决定了可视化结果质量

  3. 数据处理和变换

    对原始数据进行处理,把用户可以理解的模式和特征显示出来

  4. 可视化映射

    将数据的各种信息映射到不同的视觉通道,方便用户洞察背后的现象和规律

  5. 用户感知

    数据可视化和其他数据分析最大的不同在于用户,用户需要借助可视化结果来感受数据的不同,提取信息、知识、灵感

  6. 知识灵感

1. 数据处理和数据变换

数据清理、数据集成、数据变换、数据离散化、数据配准

数据清理

缺失值:当存在一些数据中缺乏某项数据时

  1. 删除记录
  2. 人为填写
  3. 全局常量填充
  4. 使用均值或中位数
  5. 使用最可能的值

噪声数据与离群点:测量变量时的随机误差

  1. 分箱:通过周围的值来光滑有序数据。均值、边界、中位数
  2. 回归:用一个函数拟合(线性回归)来光滑数据。离群点可以用聚类来分析
数据集成

来自不同数据源的相同数据

  1. 属性匹配:确定不同数据源的数据属性之间的对应关系
  2. 冗余去重:去除重复的数据属性
  3. 数据冲突检测与处理:处理属性值之间的冲突
数据变换

数据变换策略如下

  1. 光滑,如上
  2. 属性构造。新属性的构造与添加
  3. 聚集。汇总数据
  4. 规范化。如按比例缩放使落入一个特定的小区间
  5. 离散化。
    1. 数据属性原始值用区间标签来替代。如青年、少年、老年.
    2. 分箱离散化
    3. 直方图离散化
    4. 聚类、决策树
  6. 标称数据产生概念分层。如street泛化到较高的city或country
数据配准

数据可视化往往需要在同一空间显示不同时间、不同角度等产生的数据

数据配准可采用计算相似度等方法。


2. 可视化映射

人的视觉特点如下:

  1. 对亮度、运动、差异更敏感,对红色更敏感
  2. 对具备某些特点的视觉元素具有很强的识别能力,如空间上较近的点
  3. 对眼球中心正面的物体辨识度高
  4. 习惯将某种方向上的趋势的物体视为连续物体
  5. 习惯使用经验去感知物体
图形标记和视觉通道

图形标记:矩形、线、点等

图形标记维度:零、一、二、三维

图像标记自由度:

如点在二维空间自由度为2,可向两方向扩张

面分别在二维空间和三位空间的自由度为0、1

视觉通道包括:

  1. 位置、大小、形状、方向、色调、饱和度、亮度等

可视化编码的选择:针对数值类、序列类、类别类数据采用不同的元素