机器学习数据
机器学习(Machine Learning, ML)项目中高达80%的工作与数据收集相关,包括:需要哪些数据?有哪些可用数据?如何筛选数据?如何收集数据?如何清洗数据?如何准备数据?如何使用数据?
什么是数据?
数据可以有很多种形态。在机器学习中,数据是事实的集合:
类型 | 示例 |
数值 | 价格、日期 |
测量值 | 尺寸、身高、体重 |
文本 | 人名、地名 |
观测数据 | 车辆计数 |
描述性数据 | “天气很冷” |
智能依赖数据
人类智能依赖数据:
- 房地产经纪人需要历史成交数据来评估房价。
人工智能同样依赖数据:
- 机器学习程序需要标注数据才能学会预测房价。
数据能让我们看见隐藏的规律,洞察事物本质
数据能帮我们捕捉潜在机会,开启新的可能性
数据可纠正主观偏见,还原客观真相
数据驱动的医疗健康
医疗健康与生命科学通过收集公共卫生数据和患者临床数据,持续优化诊疗方案并挽救生命。这些数据应用主要体现在以下方面:
- 疾病预防:通过分析人群健康数据,识别流行病趋势并制定预防策略
- 精准诊疗:整合基因组数据、电子健康档案(EHR)和医学影像,为患者提供个性化治疗方案
- 药物研发:利用真实世界数据(RWD)加速临床试验,提高新药开发效率
- 医疗资源优化:基于就诊数据和疾病分布,合理配置医院设备和医护人员
数据驱动的商业成功
在各行业领先的企业中,数据驱动已成为核心竞争力。这些公司通过先进的数据分析持续优化运营、创新产品并提升客户体验,具体表现在:
- 运营效率提升:供应链数据分析 → 降低库存成本,优化物流路径;员工绩效数据追踪 → 精准识别高潜力人才,改进团队管理
- 客户洞察深化:消费行为数据分析 → 个性化推荐提升30%转化率;社交媒体情感分析 → 实时调整品牌传播策略
- 创新加速:A/B测试驱动产品迭代 → 缩短50%研发周期;市场趋势预测模型 → 提前布局新兴赛道
- 风险控制强化:实时交易监控 → 减少欺诈损失;信用评分模型 → 优化贷款决策
数据驱动的金融决策
银行和保险公司收集和评估有关客户、贷款和存款的数据,以支持战略决策。这些数据应用主要体现在以下方面:
- 信用评估革命:融合2000+维度的替代数据(手机充值记录/电商消费);动态更新信用评分模型,使小微企业贷款审批效率提升60%
- 精准风险定价:车险公司分析10亿公里驾驶行为数据;实现UBI(基于用量定价)保单,优质客户保费下降25%
- 反欺诈防御网:机器学习实时扫描10万+交易特征;洗钱识别准确率较传统规则引擎提高3倍
数据存储
在数据收集中,数值型数据和度量型数据是最基础且应用最广泛的两大类别。
数据在计算机系统中通常以结构化数组的形式存储,这种组织形式本质上是值关系的数学表达。
以下是房屋价格与面积的典型数据表表示:
房屋价格 | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
房屋面积 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
定量数据 vs. 定性数据
1. 定量数据(Quantitative)—— 可测量、可计算
- 55 辆汽车 → 可计算车队规模
- 15 米 → 可比较长度
- 35 名儿童 → 可统计人数
2. 定性数据(Qualitative)—— 描述性、分类性
- "天气很冷" → 主观感受,无法直接量化
- "它很长" → 相对描述,无精确数值
- "很有趣" → 情绪表达,依赖语境
普查(Census)vs 抽样(Sampling)
普查是一种全量数据收集方法,要求对目标群体的每一个组成单元进行观测记录。
抽样是从目标群体(总体)中科学选取子集的过程。
比如你要抽查抽烟的人口是多少?我们可以调查每个人(人口普查),或者我们可以问10000个人(抽样调查)。
人口普查是准确的,但很难做到。抽样是不准确的,但是更容易做到。
大数据(Big Data)
所谓大数据,是指人类若不借助先进机器的辅助便无法处理的数据。
大数据并无明确的容量界定,但随着我们持续采集越来越多的数据,并以越来越低的成本存储数据,数据集的规模正变得日益庞大。
数据挖掘(Data Mining)
大数据往往伴随着复杂的数据结构,大数据处理的核心任务之一在于数据提炼。
反馈提交成功
感谢您的反馈,我们将尽快处理您的反馈