数据分析

NLP 教程

机器学习（ML）术语表机器学习（ML）数据聚类

机器学习（ML）数据

主题

默认模式
浅蓝色模式
淡绿色模式
深夜模式

机器学习数据

机器学习（Machine Learning, ML）项目中高达80%的工作与数据收集相关，包括：需要哪些数据？有哪些可用数据？如何筛选数据？如何收集数据？如何清洗数据？如何准备数据？如何使用数据？

什么是数据？

数据可以有很多种形态。在机器学习中，数据是事实的集合：

类型	示例
数值	价格、日期
测量值	尺寸、身高、体重
文本	人名、地名
观测数据	车辆计数
描述性数据	“天气很冷”

智能依赖数据

人类智能依赖数据：

房地产经纪人需要历史成交数据来评估房价。

人工智能同样依赖数据：

机器学习程序需要标注数据才能学会预测房价。

数据能让我们看见隐藏的规律，洞察事物本质

数据能帮我们捕捉潜在机会，开启新的可能性

数据可纠正主观偏见，还原客观真相

数据驱动的医疗健康

医疗健康与生命科学通过收集公共卫生数据和患者临床数据，持续优化诊疗方案并挽救生命。这些数据应用主要体现在以下方面：

疾病预防：通过分析人群健康数据，识别流行病趋势并制定预防策略
精准诊疗：整合基因组数据、电子健康档案（EHR）和医学影像，为患者提供个性化治疗方案
药物研发：利用真实世界数据（RWD）加速临床试验，提高新药开发效率
医疗资源优化：基于就诊数据和疾病分布，合理配置医院设备和医护人员

数据驱动的商业成功

在各行业领先的企业中，数据驱动已成为核心竞争力。这些公司通过先进的数据分析持续优化运营、创新产品并提升客户体验，具体表现在：

运营效率提升：供应链数据分析 → 降低库存成本，优化物流路径；员工绩效数据追踪 → 精准识别高潜力人才，改进团队管理
客户洞察深化：消费行为数据分析 → 个性化推荐提升30%转化率；社交媒体情感分析 → 实时调整品牌传播策略
创新加速：A/B测试驱动产品迭代 → 缩短50%研发周期；市场趋势预测模型 → 提前布局新兴赛道
风险控制强化：实时交易监控 → 减少欺诈损失；信用评分模型 → 优化贷款决策

数据驱动的金融决策

银行和保险公司收集和评估有关客户、贷款和存款的数据，以支持战略决策。这些数据应用主要体现在以下方面：

信用评估革命：融合2000+维度的替代数据（手机充值记录/电商消费）；动态更新信用评分模型，使小微企业贷款审批效率提升60%
精准风险定价：车险公司分析10亿公里驾驶行为数据；实现UBI（基于用量定价）保单，优质客户保费下降25%
反欺诈防御网：机器学习实时扫描10万+交易特征；洗钱识别准确率较传统规则引擎提高3倍

数据存储

在数据收集中，数值型数据和度量型数据是最基础且应用最广泛的两大类别。

数据在计算机系统中通常以结构化数组的形式存储，这种组织形式本质上是值关系的数学表达。

以下是房屋价格与面积的典型数据表表示：

房屋价格	7	8	8	9	9	9	10	11	14	14	15
房屋面积	50	60	70	80	90	100	110	120	130	140	150

定量数据 vs. 定性数据

1. 定量数据（Quantitative）—— 可测量、可计算

55 辆汽车 → 可计算车队规模
15 米 → 可比较长度
35 名儿童 → 可统计人数

2. 定性数据（Qualitative）—— 描述性、分类性

"天气很冷" → 主观感受，无法直接量化
"它很长" → 相对描述，无精确数值
"很有趣" → 情绪表达，依赖语境

普查（Census）vs 抽样（Sampling）

普查是一种全量数据收集方法，要求对目标群体的每一个组成单元进行观测记录。

抽样是从目标群体（总体）中科学选取子集的过程。

比如你要抽查抽烟的人口是多少？我们可以调查每个人（人口普查），或者我们可以问10000个人（抽样调查）。

人口普查是准确的，但很难做到。抽样是不准确的，但是更容易做到。

大数据（Big Data）

所谓大数据，是指人类若不借助先进机器的辅助便无法处理的数据。

大数据并无明确的容量界定，但随着我们持续采集越来越多的数据，并以越来越低的成本存储数据，数据集的规模正变得日益庞大。

数据挖掘（Data Mining）

大数据往往伴随着复杂的数据结构，大数据处理的核心任务之一在于数据提炼。

机器学习（ML）术语表机器学习（ML）数据聚类

评论区 0

发表评论

教程介绍

机器学习是人工智能的子领域，通过算法让计算机从数据中自动学习规律，并做出预测或决策。

29 章节

239 阅读

0 评论

机器学习（ML）数据

机器学习数据

什么是数据？

智能依赖数据

数据驱动的医疗健康

数据驱动的商业成功

数据驱动的金融决策

数据存储

定量数据 vs. 定性数据

普查（Census）vs 抽样（Sampling）

大数据（Big Data）

数据挖掘（Data Mining）

机器学习（Machine Learning）

TensorFlow

TensorFlow 示例1

TensorFlow 示例2

机器学习（ML）数据

机器学习数据

什么是数据？

智能依赖数据

数据驱动的医疗健康

数据驱动的商业成功

数据驱动的金融决策

数据存储

定量数据 vs. 定性数据

普查（Census）vs 抽样（Sampling）

大数据（Big Data）

数据挖掘（Data Mining）

机器学习（Machine Learning）

TensorFlow

TensorFlow 示例1

TensorFlow 示例2

意见反馈

反馈提交成功