主题
  • 默认模式
  • 浅蓝色模式
  • 淡绿色模式
  • 深夜模式

机器学习术语

机器学习(Machine Learning, ML)作为人工智能的核心领域,包含大量专业术语。理解这些术语是掌握机器学习的基础。

下面按照基础概念、模型方法、训练优化、评估指标、数据技术等类别,系统讲解了机器学习的核心术语。


基础概念

1. 特征(Feature)

  • 数据的输入变量,用于描述样本的属性(如房价预测中的"面积""地段")。
  • 特征工程(Feature Engineering)指通过转换或组合特征提升模型性能。

2. 标签(Label)

  • 监督学习中的目标变量(如分类中的类别、回归中的连续值)。

3. 训练集/测试集(Training Set/Test Set)

  • 训练集用于模型学习,测试集用于评估泛化能力,通常按 7:3 或 8:2 划分。

4. 过拟合(Overfitting)

  • 模型在训练集上表现极佳,但在测试集上性能骤降,解决方案包括正则化、交叉验证等。

5. 监督学习 vs 无监督学习

  • 监督学习需要标注数据(如图像分类);无监督学习处理无标签数据(如聚类、降维)。

模型方法

1. 线性回归(Linear Regression)

  • 通过线性方程拟合数据,损失函数常为均方误差(MSE)。

2. 决策树(Decision Tree)

  • 基于树形结构做决策,通过信息增益(ID3)或基尼系数(CART)选择分裂特征。

3. 支持向量机(SVM)

  • 寻找最大化类别间隔的超平面,可使用核函数处理非线性问题。

4. 神经网络(Neural Network)

  • 模仿人脑结构的多层感知机,核心包括激活函数(ReLU)、反向传播等。

5. 集成方法(Ensemble Methods)

  • Bagging(如随机森林):并行训练多个弱模型,降低方差。
  • Boosting(如XGBoost):串行训练,侧重修正前序模型的误差。

训练与优化

1. 损失函数(Loss Function)

  • 量化模型预测与真实值的差距(如交叉熵用于分类,MSE用于回归)。

2. 梯度下降(Gradient Descent)

  • 通过迭代调整参数最小化损失,分批量梯度下降(BGD)、随机梯度下降(SGD)。

3. 学习率(Learning Rate)

  • 控制参数更新步长,过高可能导致震荡,过低则收敛慢。

4. 正则化(Regularization)

  • L1正则(Lasso):产生稀疏权重,可用于特征选择。
  • L2正则(Ridge):限制权重过大,防止过拟合。

5. 早停(Early Stopping)

  • 在验证集性能不再提升时终止训练,避免过拟合。

评估指标

1. 分类任务

  • 准确率(Accuracy):正确预测比例,对不平衡数据不敏感。
  • 精确率(Precision)与召回率(Recall):侧重减少FP或FN。
  • F1 Score:精确率和召回率的调和平均数。
  • ROC-AUC:衡量模型区分正负例的能力,AUC越接近1越好。

2. 回归任务

  • 均方误差(MSE):放大大误差的影响。
  • R²分数:解释方差比例,越接近1拟合越好。

3. 聚类任务

  • 轮廓系数(Silhouette Score):衡量样本与所属簇的紧密度(-1到1)。

数据技术

1. 归一化(Normalization) vs 标准化(Standardization)

  • 归一化将数据缩放到[0,1];标准化使均值为0、方差为1(更适合存在异常值的情况)。

2. 主成分分析(PCA)

  • 通过线性变换将高维数据降维,保留最大方差方向。

3. 交叉验证(Cross-Validation)

  • k折交叉验证:将数据分为k份,轮流用k-1份训练,1份验证,减少数据划分偏差。

4. 数据增强(Data Augmentation)

  • 通过对原始数据变换(如旋转图像)生成新样本,提升泛化能力。

进阶术语

1. 迁移学习(Transfer Learning)

  • 复用预训练模型(如ResNet)的特征提取能力,适应新任务。

2. 注意力机制(Attention Mechanism)

  • 动态分配权重聚焦关键信息(如Transformer的核心)。

3. 生成对抗网络(GAN)

  • 生成器与判别器对抗训练,用于图像生成等任务。

4. 强化学习(Reinforcement Learning)

  • 通过环境反馈优化策略(如Q-Learning、深度强化学习)。


评论区 0
发表评论
教程介绍
机器学习是人工智能的子领域,通过算法让计算机从数据中自动学习规律,并做出预测或决策。
29 章节
104 阅读
0 评论