主题
  • 默认模式
  • 浅蓝色模式
  • 淡绿色模式
  • 深夜模式

数据可视化核心要素

机器学习中,数据可视化是探索数据内在规律的重要技术手段。以下是数据可视化分析的三大核心要素:

  • 数据采集:包含数据收集、清洗、转换等准备工作,是后续分析的重要前提。
  • 散点图:用于研究两个连续变量之间的分布关系及相关性强度。
  • 折线图:适用于展示数据随时间变化的趋势和规律。

数据采集(Data Collection)

数据采集是任何机器学习项目中最关键的环节,最常见的数据类型包括数值型数据和测量指标。

数据通常以数组形式存储,用于表征变量间的关联关系。

下表展示了房屋面积与价格的对应关系:

价格 7 8 8 9 9 9 10 11 14 14 15
房屋面积 50 60 70 80 90 100 110 120 130 140 150

散点图(Scatter Plot)

散点图通过二维坐标系中的离散点分布,直观呈现两个变量之间的统计关系。

  • 正斜率表示直线向右上方倾斜。
  • 负斜率表示直线向右下方倾斜。
  • 零斜率表示水平线
实例代码 运行代码
复制
const xArray = [50,60,70,80,90,100,110,120,130,140,150];
const yArray = [7,8,8,9,9,9,10,11,14,14,15];

// 配置图表
const data = [{
  x: xArray,
  y: yArray,
  mode:"markers"
}];

const layout = {
  title: '房子价格和面积关系',
  xaxis: {range: [40, 160], title: "建筑面积(㎡)"},
  yaxis: {range: [5, 16], title: "价格(百万元)"},
};

// 渲染图表
Plotly.newPlot('myPlot1', data, layout);

折线图(Line Graph)

折线图同样适用于呈现该数据关系:

价格 7 8 8 9 9 9 10 11 14 14 15
房屋面积 50 60 70 80 90 100 110 120 130 140 150
实例代码 运行代码
复制
const xArray = [50,60,70,80,90,100,110,120,130,140,150];
const yArray = [7,8,8,9,9,9,10,11,14,14,15];

// 配置图表
const data = [{
  x: xArray,
  y: yArray,
  mode:"lines"
}];

const layout = {
  title: '房子价格和面积关系',
  xaxis: {range: [40, 160], title: "建筑面积(㎡)"},
  yaxis: {range: [5, 16], title: "价格(百万元)"},
};

// 渲染图表
Plotly.newPlot('myPlot1', data, layout);

散点图适用场景

散点图在数据分析中主要适用于以下六种典型场景:

适用场景 功能描述
查看整体分布 直观展示数据集的整体分布情况和离散程度
比较不同数值 对比两个连续变量之间的数值关系
发现潜在趋势 通过点集分布识别可能的线性或非线性趋势
识别数据模式 发现数据中的聚类、异常值或特定分布模式
分析变量关系 研究两个变量之间的相关性强度和方向
检测聚类和相关 识别数据中的自然分组和相关关系



评论区 0
发表评论