使用机器学习预测国际足联世界杯2018（附代码）互联网技术圈互联网技术圈

使用机器学习预测国际足联世界杯2018（附代码）已关闭评论
400 views

A+

所属分类：编程开发

随着2018届国际足联世界杯的开球即将来临，世界上所有的球迷都渴望知道：谁将夺取垂涎的奖杯？
如果你不只是一个足球迷，也是一个技术专家，我猜你已经意识到机器学习和人工智能也只是流行语。让我们结合这两个来预测哪个国家将赢得国际足联世界杯。

使用机器学习预测国际足联世界杯2018（附代码）

免责声明：请不要以本文为依据投注或做财务决定。如果你非买不可的话，我也没法阻止你，只是如果你中了大奖的话，别忘了我哦：）足球比赛中涉及到很多因素，所有这些因素都不能在机器学习模型中发挥作用。

目标

我们的目标是使用机器学习来预测谁将赢得国际足联世界杯2018。
预测整个比赛的个人比赛结果。
模拟下一场比赛，即四分之一决赛、半决赛和决赛。

这些目标提出了一个独特的现实世界机器学习预测问题，涉及解决各种机器学习任务：数据集成，特征建模和结果预测。

数据

我使用了两个来自Kaggle的数据集。你可以在这里找到它们。我们将使用历史比赛的结果，自锦标赛开始以来（1930）为所有参赛队。
局限性：国际足联排名是在90年创建的，因此数据集的大部分是缺乏的。所以让我们坚持历史记录。

数据地址：https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data
环境和工具：jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。
首先对这两个数据集进行了探索性的分析，并通过一些特征工程来选择预测的相关特征，进行数据处理，选择机器学习模型，最后将其部署到数据集上。

开始动手

首先，导入必要的库并将数据集加载到数据文件。

使用机器学习预测国际足联世界杯2018（附代码）

导入库：

加载数据集。通过调用 world_cup.head() 和 results.head() ，务必将两个数据集都加载到数据框中，如下所示：

使用机器学习预测国际足联世界杯2018（附代码）

探索性分析

在分析这两个数据集之后，得到的数据集具有过去匹配的数据。新的（结果）数据集将有助于分析和预测未来的比赛。
探索性分析和特征工程：涉及建立与机器学习模型相关的特征是任何数据科学项目中最耗时的一部分。
现在我们将目标差异和结果列添加到结果数据集中。

使用机器学习预测国际足联世界杯2018（附代码）

检查一下新的结果数据框

使用机器学习预测国际足联世界杯2018（附代码）

然后我们将处理数据的子集。其中包括只有尼日利亚。这将有助于我们关注一个国家有哪些特点，然后扩展到参加世界杯的国家。

使用机器学习预测国际足联世界杯2018（附代码）

第一届世界杯于 1930 年举行。我们为年份创建一列，并选择所有 1930 年之后举行的比赛。

使用机器学习预测国际足联世界杯2018（附代码）

现在我们可以用图形表示这些年来尼日利亚队最普遍的比赛结果

使用机器学习预测国际足联世界杯2018（附代码）

每个参加世界杯的国家的胜率是非常有帮助性的指标，我们可以用它来预测此次比赛最可能的结果。

比赛的举行地点无关紧要。

锁定参加世界杯的队伍

我们为所有参赛队伍创建一个数据框。

使用机器学习预测国际足联世界杯2018（附代码）

然后从该数据框中进一步筛选出从 1930 年起参加世界杯的队伍，并去掉重复的队伍

使用机器学习预测国际足联世界杯2018（附代码）

为年份创建一列，去掉 1930 年之前的比赛，并去掉不会影响到比赛结果的数据列，比如 date（日期）、home_score（主场得分）、away_score（客场得分）、tournament（锦标赛）、city（城市）、country（国家）、goal_difference（目标差异）和 match_year（比赛年份）

使用机器学习预测国际足联世界杯2018（附代码）

为了简化模型的处理，我们修改一下预测标签。

如果主场队伍获胜，那么 winning_team（获胜队伍）一列显示“2”，如果平局则显示“1”，如果是客场队伍获胜则显示“0”。

使用机器学习预测国际足联世界杯2018（附代码）

通过设置哑变量（dummy variables），我们将 home_team（主场队伍）和away _team（客场队伍）从分类变量转换成连续的输入。

这时可以使用 pandas 的 get_dummies() 函数，它会将分类列替换成一位有效值（one-hot，由数字‘1’和‘0’组成），以便将它们加载到 Scikit-learn 模型中。

接下来，我们将数据按照 70% 的训练数据集和 30% 的测试数据集分成 X 集和 Y 集

使用机器学习预测国际足联世界杯2018（附代码）

这里我们将使用分类算法：逻辑回归。这个算法的工作原理是什么？该算法利用逻辑函数来预测概率，从而可以测量出分类因变量与一个或多个自变量之间的关系。具体来说就是累积的逻辑分布。

换句话说，逻辑回归可以针对一组可以影响到结果的既定数据集（统计值）尝试预测结果（赢或输）。

在实践中这种方法的工作原理是：使用上述的两套“数据集”和比赛的实际结果，一次输入一场比赛到算法中。然后模型就会学习输入的每条数据对比赛结果产生了积极的效果还是消极的效果，以及影响的程度。

经过充分的（好）数据的训练后，就可以得到能够预测未来结果的模型，而模型的好坏程度取决于输入的数据。

让我们看看最终的数据框：

使用机器学习预测国际足联世界杯2018（附代码）

看起来很不错。现在我们将这些数据传递到算法中：

使用机器学习预测国际足联世界杯2018（附代码）

我们的模型子训练数据集的正确率为 57%，在测试数据集上的正确率为 55%。虽然结果不是很好，但是我们先继续下一步。

接下来我们建立需要配置到模型的数据框。

首先我们加载 2018 年 4 月 FIFA 排名数据和小组赛分组状况的数据集。由于世界杯比赛中没有“主场”和“客场”，所以我们把 FIFA 排名靠前的队伍作为“喜爱”的比赛队伍，将他们放到“home_teams”（主场队伍）一列。然后我们根据每个队伍的排名将他们加入到新的预测数据集中。下一步是创建默认变量，并部署机器学习模型。

2018 年 4 月 FIFA 排名数据：

https://us.soccerway.com/teams/rankings/fifa/?ICID=TN_03_05_01

小组赛分组状况的数据集：

https://fixturedownload.com/results/fifa-world-cup-2018

▌比赛结果预测

到这里你可能在想我们究竟什么时候开始预测啊？看了这么多代码和唠叨，究竟什么时候才给我们看预测结果？别着急，我们马上就要开始了……

将模型部署到数据集中

首先，我们将模型部署到小组赛中：

使用机器学习预测国际足联世界杯2018（附代码）