基本可视化流程
社会自然现象
数据采集
决定了数据的格式、维度、尺寸、分辨率等性质,决定了可视化结果质量
数据处理和变换
对原始数据进行处理,把用户可以理解的模式和特征显示出来
可视化映射
将数据的各种信息映射到不同的视觉通道,方便用户洞察背后的现象和规律
用户感知
数据可视化和其他数据分析最大的不同在于用户,用户需要借助可视化结果来感受数据的不同,提取信息、知识、灵感
知识灵感
1. 数据处理和数据变换
数据清理、数据集成、数据变换、数据离散化、数据配准
数据清理
缺失值:当存在一些数据中缺乏某项数据时
- 删除记录
- 人为填写
- 全局常量填充
- 使用均值或中位数
- 使用最可能的值
噪声数据与离群点:测量变量时的随机误差
- 分箱:通过周围的值来光滑有序数据。均值、边界、中位数
- 回归:用一个函数拟合(线性回归)来光滑数据。离群点可以用聚类来分析
数据集成
来自不同数据源的相同数据
- 属性匹配:确定不同数据源的数据属性之间的对应关系
- 冗余去重:去除重复的数据属性
- 数据冲突检测与处理:处理属性值之间的冲突
数据变换
数据变换策略如下
- 光滑,如上
- 属性构造。新属性的构造与添加
- 聚集。汇总数据
- 规范化。如按比例缩放使落入一个特定的小区间
- 离散化。
- 数据属性原始值用区间标签来替代。如青年、少年、老年.
- 分箱离散化
- 直方图离散化
- 聚类、决策树
- 标称数据产生概念分层。如street泛化到较高的city或country
数据配准
数据可视化往往需要在同一空间显示不同时间、不同角度等产生的数据
数据配准可采用计算相似度等方法。
2. 可视化映射
人的视觉特点如下:
- 对亮度、运动、差异更敏感,对红色更敏感
- 对具备某些特点的视觉元素具有很强的识别能力,如空间上较近的点
- 对眼球中心正面的物体辨识度高
- 习惯将某种方向上的趋势的物体视为连续物体
- 习惯使用经验去感知物体
图形标记和视觉通道
图形标记:矩形、线、点等
图形标记维度:零、一、二、三维
图像标记自由度:
如点在二维空间自由度为2,可向两方向扩张
面分别在二维空间和三位空间的自由度为0、1
视觉通道包括:
- 位置、大小、形状、方向、色调、饱和度、亮度等
可视化编码的选择:针对数值类、序列类、类别类数据采用不同的元素