Devean 布洛克
机器学习基础概念
September 8, 2023

机器学习基础概念

发布 September 8, 2023  •  1 分钟  • 172 字
Table of contents

本文从机器学习与传统建模区别、机器学习分类:监督、非监督、半监督、强化,基础算法:K临近(KNN)、K均值(KMC)、朴素贝叶斯(NBC)、支持向量机(SVM)、回归、自组织映射、神经网络原理(NLP)

什么是机器学习

机器学习是人工智能的一个分支,它让计算机从数据中自动“学”到知识,并用这些知识做决策或预测,而不需要我们一步步明确地告诉它怎么做。

1696885427440

传统数学 vs 机器学习

1696886421687

1696886519537

相同点

不同点

  1. 目的
  1. 模型构建
  1. 验证
  1. 模型的解释性
  1. 应用
  1. 模型复杂性

总的来说,数学建模和机器学习都是理解、解释和预测现象的工具,但它们的关注点、方法和应用有所不同。

主要类别

机器学习主要分为三大类:监督学习、非监督学习、强化学习,而监督学习和非监督学习中又衍生出半监督学习。

监督学习

Supervised Learning是机器学习的一种方法,其模型是通过输入-输出(有标签的数据)对进行训练,目标是从给定的数据中学习一个映射函数,以便在给定新的输入时,模型可以预测相应的输出 。训练过程涉及到输入数据和其相应的标签,并尝试找到这两者之间的关系。一旦模型被训练,它可以用来预测新、未标签数据的输出。

1696918697490

非监督学习

Unsupervised Learning模型被训练在没有标签的数据上。它的目的是学习数据的底层结构、分布或表示,而不是预测标签。与监督学习不同,非监督学习的目标并不是预测一个输出。相反,它试图通过某种方式学习数据的结构,这可以是通过聚类、降维或生成模型等方式来实现的。

1696918812954

强化学习

Reinforcement Learning是通过与环境交互来学习如何行动,从而最大化某种定义的长期回报。与传统的监督学习不同,强化学习通常涉及决策问题,其中每个行动都会影响未来的回报。

1696922019053

半监督学习

Semi-supervised Learning是介于两个极端之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常,SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。)学习正如其名称所示,介于两个极端之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常,SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

1696918942278

为什么会用半监督学习

1696942056582

半监督学习位于监督学习和非监督学习之间,利用少量的标记数据和大量的未标记数据进行学习。以下是为什么要使用半监督学习的原因:

总之,半监督学习提供了一种在有限标记数据的情况下利用未标记数据的方法,这对于许多实际应用来说是非常有价值的。

模型

K近临

K Nearest-Neighbours是一种监督学习技术,给定一个新的观测值,KNN算法会从训练数据集中搜索出k个与其最相似的实例,然后基于这些邻居的属性来预测新观测值的标签。

原理

1696922323938

K均值

K-Means Clustering是一种无监督的聚类算法,其目的是将n个数据点分为k个聚类。每个聚类都有一个中心,这些中心最小化了其内部数据点与中心之间的距离。

原理

1696918922617

朴素贝叶斯

Naive Bayes Classifier监督学习技术是基于贝叶斯定理的一种简单概率分类器。它假设特征之间是独立的(这就是“朴素”一词的来源),即一个特征的出现不会影响另一个特征的出现。

原理

给定一个类别 C 和一个特定的特 x ,贝叶斯定理表示为:

1696938714805

其中

对于分类问题,我们可以忽略分母(因为它对所有的类别都是相同的)并计算每个类别的$P(C)×P(x∣C)$。我们将数据点分类为给出最大值的类别。

回归方法

Regression Methods是一种预测性监督学习技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。 这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。

支持向量机

Support Vector Machines, SVM)是一种在分类和回归分析中使用的监督学习模型,基本思想是找到一个超平面,使得两个类别之间的边界最大化。对于线性可分的数据,这意味着超平面可以完美地分隔两个类别,并且最大化与最近的训练数据点(即支持向量)之间的距离。SVM使用所谓的核方法进行扩展。核方法的思想是将数据映射到一个更高维度的空间,使其在新的空间中变得线性可分。

1696929242825

自组织映射

Self-Organizing Maps,简称SOM是一种无监督学习的神经网络,SOM是一种将高维数据映射到通常是二维(有时是三维)的网格结构上的方法。与其他神经网络不同,SOM没有激活函数,它根据输入特征的相似性将相似的输入向量组合在一起。

原理

决策树

Decision Trees是一种监督学习模型、主要用于分类和回归任务,决策树是一个树形结构,其中每个内部节点表示一个特征属性上的测试,每个分支代表一个测试结果,每个叶节点代表一个类别(在分类任务中)或连续的值(在回归任务中)。

原理

决策树通过一系列基于特征值的测试,将输入数据点分配到叶节点中的一个,从而完成分类或预测任务。

1696930200188

神经网络

Neural Networks是一种模仿生物神经网络结构和功能的计算模型。

基本结构
工作原理

每个神经元的输入都与一个权重相乘,所有加权输入的总和加上一个偏置,然后传递给激活函数。激活函数的输出是该神经元的输出。

1696933327363

欢迎扫码关注公众号,订阅更多文章!