主题
  • 默认模式
  • 浅蓝色模式
  • 淡绿色模式
  • 深夜模式

机器学习数据

机器学习(Machine Learning, ML)项目中高达80%的工作与数据收集相关,包括:需要哪些数据?有哪些可用数据?如何筛选数据?如何收集数据?如何清洗数据?如何准备数据?如何使用数据?


什么是数据?

数据可以有很多种形态。在机器学习中,数据是事实的集合:

类型 示例
数值 价格、日期
测量值 尺寸、身高、体重
文本 人名、地名
观测数据 车辆计数
描述性数据 “天气很冷”

智能依赖数据

人类智能依赖数据:

  • 房地产经纪人需要历史成交数据来评估房价。

人工智能同样依赖数据:

  • 机器学习程序需要标注数据才能学会预测房价。

数据能让我们看见隐藏的规律,洞察事物本质

数据能帮我们捕捉潜在机会,开启新的可能性

数据可纠正主观偏见,还原客观真相


数据驱动的医疗健康

医疗健康与生命科学通过收集公共卫生数据和患者临床数据,持续优化诊疗方案并挽救生命。这些数据应用主要体现在以下方面:

  • 疾病预防:通过分析人群健康数据,识别流行病趋势并制定预防策略
  • 精准诊疗:整合基因组数据、电子健康档案(EHR)和医学影像,为患者提供个性化治疗方案
  • 药物研发:利用真实世界数据(RWD)加速临床试验,提高新药开发效率
  • 医疗资源优化:基于就诊数据和疾病分布,合理配置医院设备和医护人员

数据驱动的商业成功

在各行业领先的企业中,数据驱动已成为核心竞争力。这些公司通过先进的数据分析持续优化运营、创新产品并提升客户体验,具体表现在:

  • 运营效率提升:供应链数据分析 → 降低库存成本,优化物流路径;员工绩效数据追踪 → 精准识别高潜力人才,改进团队管理
  • 客户洞察深化:消费行为数据分析 → 个性化推荐提升30%转化率;社交媒体情感分析 → 实时调整品牌传播策略
  • 创新加速:A/B测试驱动产品迭代 → 缩短50%研发周期;市场趋势预测模型 → 提前布局新兴赛道
  • 风险控制强化:实时交易监控 → 减少欺诈损失;信用评分模型 → 优化贷款决策

数据驱动的金融决策

银行和保险公司收集和评估有关客户、贷款和存款的数据,以支持战略决策。这些数据应用主要体现在以下方面:

  • 信用评估革命:融合2000+维度的替代数据(手机充值记录/电商消费);动态更新信用评分模型,使小微企业贷款审批效率提升60%
  • 精准风险定价:车险公司分析10亿公里驾驶行为数据;实现UBI(基于用量定价)保单,优质客户保费下降25%
  • 反欺诈防御网:机器学习实时扫描10万+交易特征;洗钱识别准确率较传统规则引擎提高3倍

数据存储

在数据收集中,数值型数据和度量型数据是最基础且应用最广泛的两大类别。

数据在计算机系统中通常以结构化数组的形式存储,这种组织形式本质上是值关系的数学表达。

以下是房屋价格与面积的典型数据表表示:

房屋价格 7 8 8 9 9 9 10 11 14 14 15
房屋面积 50 60 70 80 90 100 110 120 130 140 150

定量数据 vs. 定性数据

1. 定量数据(Quantitative)—— 可测量、可计算

  • 55 辆汽车 → 可计算车队规模
  • 15 米 → 可比较长度
  • 35 名儿童 → 可统计人数

2. 定性数据(Qualitative)—— 描述性、分类性

  • "天气很冷" → 主观感受,无法直接量化
  • "它很长" → 相对描述,无精确数值
  • "很有趣" → 情绪表达,依赖语境

普查(Census)vs 抽样(Sampling)

普查是一种全量数据收集方法,要求对目标群体的每一个组成单元进行观测记录。

抽样是从目标群体(总体)中科学选取子集的过程。

比如你要抽查抽烟的人口是多少?我们可以调查每个人(人口普查),或者我们可以问10000个人(抽样调查)。

人口普查是准确的,但很难做到。抽样是不准确的,但是更容易做到。


大数据(Big Data)

所谓大数据,是指人类若不借助先进机器的辅助便无法处理的数据。

大数据并无明确的容量界定,但随着我们持续采集越来越多的数据,并以越来越低的成本存储数据,数据集的规模正变得日益庞大。


数据挖掘(Data Mining)

大数据往往伴随着复杂的数据结构,大数据处理的核心任务之一在于数据提炼。



评论区 0
发表评论
教程介绍
机器学习是人工智能的子领域,通过算法让计算机从数据中自动学习规律,并做出预测或决策。
29 章节
97 阅读
0 评论