用数据解锁机器学习 – 游侠安全网

日益增长的数字经济要求企业管理者对迅速变化的数字环境有深入的了解。其中人工智能（AI）是重要的利益相关者。希望为自动化的未来做好准备的企业就应该对人工智能有透彻的了解。然而，人工智能是一个涵盖多个学科的总括术语，每个学科对业务的影响略有不同。

人工智能可以分为三个不同的领域：

面对现实世界，可以直接与人类互动的机器人技术。机器人可以以各种方式改善我们的工作。
面对人类世界的认知系统，例如聊天机器人。聊天机器人是帮助个人和企业进行对话的通信接口，是人与机器共同努力实现目标的例子。
面对信息世界的机器学习。机器使用数据进行学习，使用统计方法进行改进，旨在从数据中获取意义。深度学习是机器学习的一个子集，支持多层神经网络。

人工智能就是包括机器人技术，认知系统和机器学习的无缝集成。

我们今天要研究的就是其中一个领域——机器学习。机器学习的目的是从数据中获取意义，因此数据是解锁机器学习的关键。机器学习共有七个步骤，每个步骤都围绕数据进行：

数据收集

首先是数据的收集。机器学习需要大量的训练数据，其中包含大量已标记的数据（意味着监督学习）或未标记的数据（意味着无监督学习）。

数据准备

第二步是数据准备。原始数据并不能直接使用，数据需要准备、标准化、去重复、消除错误和偏差。数据可视化可用于查找模式和异常值，以查看数据是否已正确收集或是否丢失。

选择模型

然后是选择正确的模型，根据不同目的可以选择不同模型。选择模型时，要确保模型符合业务目标。此外，我们应该知道这一模型需要多少准备工作，模型的准确性和可扩展性。模型构成并不是越复杂越好。常用的机器学习算法包括线性回归、逻辑回归、决策树、K均值、主成分分析（PCA）、支持向量机（SVM）、朴素贝叶斯、随机森林和神经网络。

训练

接下来是训练模型。训练模型是机器学习的主要内容，目的是使用训练数据逐步改善模型的预测。每个更新权重和偏差的周期都是一个训练步骤。在有监督的机器学习中，模型是使用标记的样本数据构建的，而无监督的机器学习则尝试从未标记的数据中得出推论（不参考已知或标记的结果）。

评估

训练模型后，即可评估模型。这需要针对未使用的控制数据集进行机器学习测试，以查看其性能。这可能代表了模型在现实世界中的工作方式，但也并不一定是这样。现实世界中变量的数量越大，训练和测试数据的数量就应越大。

参数调整

评估模型完成后，需要测试最初设置的参数以改进AI。增加训练周期数量可以得到更准确的结果。但也需要定义模型何时判定为足够完善，否则调整模型不会停止。

预测

一旦完成了上述几步的过程，就可以使用预测来回答问题了。这里可以进行各种预测，从图像识别到语义，再到预测分析等。

结论

机器学习使软件可以更准确地预测结果。在未来几年中，它将极大扩充使用率甚至实现业务流程全覆盖。因此，机器学习将成为未来自动化企业不可或缺的一部分。由于未来硬件速度会越来越快，我们将看到功能更强大、能够提供更精确预测的模型。

但是，由于数据和数据分析师都存在片面性，降低模型偏差的挑战也将持续。因此，我们应确保机器学习的模型和数据无偏差、训练有素、经过评估和正确调整。只有这样，企业才能真正从机器学习中受益。