• 《统计学习方法》自学笔记—1.概论


      对于非科班自学机器学习的人来说,李航的《统计学习方法》是最好的第一手入门资料,俗称“小蓝书”。本文是对小蓝书第一章的学习总结,一来希望通过总结归纳加深自己最本书的理解,二来希望自己的学习笔记能帮到其他自学本书的朋友。

    1.到底什么是机器学习?

      机器学习,即计算机利用已知数据学习概率统计模型,然后用此模型来预测和分析未知的新数据。

      咋一听,很难理解,咱们举一个初中数学题的例子:已知(1,2)(3,10)(2,y1)是y=ax2+b上的两点,求y1。在这里,(1,2)(3,10)是已知数据,(2,y1)是未知的新数据,y=ax2+b是模型,a、b是模型参数,求参数的过程即为学习。其实这就是机器学习中最简单的模型:线性回归。

    2.机器学习的分类:

      机器学习可以分为监督学习、非监督学习、半监督学习、强化学习。《统计学习方法》主要介绍监督学习,根据预测数据的不同,监督学习又分为以下三种:

    • 回归:预测连续值
    • 分类:预测离散值
    • 标注:预测序列值

    3.机器学习的四要素:数据、模型、策略、算法

    3.1 数据:原始数据选取特征之后,用特征向量表示(特征工程)。然后把数据按一定比例分为三类数据:

    • 训练集:用来学习模型,即求模型的参数
    • 验证集:用来选择模型,为改进模型提供依据
    • 测试集:用来评估模型,评估模型的泛化能力

    3.2 模型:模型=类型+参数,类型是人为选定的,参数是学习得到的。机器学习的模型有两种:条件概率分布P(Y|X)、决策函数f(x)

    3.3 策略:模型好坏的评价标准,模型越好,其预测值和真实值的差距越小

    • 损失函数:度量模型一次预测的好坏,主要有:0-1损失、平方差损失、绝对损失、对数损失
    • 期望损失:度量模型整体预测的好坏,即model关于联合分布P(Y,X)的期望,求不出
    • 经验损失:model关于训练集的平均损失,代替期望损失来评估模型,能求出
    • 目标函数:带正则项的经验损失

    3.4 算法:学习的过程就是通过最小化目标函数求模型参数的过程,而优化算法便是求参数的具体计算方法。eg:梯度下降法

    4.模型的获取、选择、评估、改进

    4.1 模型的获取:模型=类型+参数,人为选好类型,利用训练集+优化算法求出模型的参数

    4.2 模型的选择:两种方式:交叉验证、正则项

    4.3 模型的评估:一般用测试误差,即模型在测试集上的平均损失。在分类问题中,评估模型的标准有:

    • 分类准确率:即损失函数为0-1损失的测试误差
    • 精准率P:在所有被分为A类的数据中,被正确分类的比率
    • 召回率R:在所有实际为A类的数据中,被正确分类的比率
    • F1score:2PR/P+R

    4.4 模型的改进:可以从数据、模型、算法三个角度来改进模型,但在改进前,先要分析模型是过拟合还是欠拟合,再根据对应的方法改进。

    • 数据:质量+数量
    • 模型:类型+复杂度
    • 算法:超参数

    5. 欠/过拟合与正则化

    • 正则项:模型复杂度的单调递增函数,模型越复杂,其值越大。有两种:L1范数、L2范数

    5.1 欠拟合:模型在训练集上就变现不好

      欠拟合的原因是模型的复杂度太低,改进办法也是从模型角度考虑:增加特征,减小正则化参数

    5.2 过拟合:模型在训练集上表现很好,但在测试集上表现不好

      过拟合的原因有:数据有噪音、数据无噪音但数据量太小、数据正常但模型复杂度太高。改进办法从数据和模型两方面考虑:

    • 数据:增加数据的质量和数量
    • 模型:减少特征的数量、增大正则化参数

    5.3 正则化:模型选择的一种方法

      正则化的原理:目标函数=经验损失+正则项,正则项是模型复杂度的单调递增函数,模型越复杂,其值越大。模型参数是通过最小化目标函数得到的,所以正则化的目的是想得到一个经验损失和复杂度都小的模型。

    6. 监督学习的流程:原始数据特征工程→训练集→模型(参数未知)→目标函数+优化算法→模型(参数已知)→验证集→改进模型→测试集→预测新数据

    7. 监督学习的模型

      机器学习的四要素中,模型是核心。学习机器学习要以每个模型为中心,学习每个模型的原理,模型函数、目标函数、优化算法、优缺点、适用场景。根据用途的不同,监督学习的模型可以分为以下几类:

    • 回归:         线性回归
    • 分类+回归:K近邻、决策树
    • 分类:         贝叶斯、逻辑回归、感知机、SVM
    • 标注:         条件随机场(CRF)、隐马尔可夫(HMM)
  • 相关阅读:
    游戏性能保障体系
    一个ServiceHost寄宿多个服务
    EntLib PIAB 自定义CallHandler的一个BUG
    从MDK分散加载文件学习STM32启动流程
    .net 2.04.6下载
    QQ输入法使用「智能英文」模式(CTRL+SHIFT+E),快速输入英文单词
    QQ拼音输入法自定义短语(①②③≥≈÷★)
    指法输入中文打字俱乐部(TypingClub)是一款可以让用户从 0 开始练习打字的在线服务
    文件批量改名工具(RefilesName V2.0.exe)需要用安装「32位的VC++ 2005」
    博客园的「网摘」crx浏览器插件不错,支持键入多个标签
  • 原文地址:https://www.cnblogs.com/hailin2018/p/10409978.html
Copyright © 2020-2023  润新知