留出法

                     

贡献者: xzllxls; addis

预备知识 数据,模型评估

   留出法(Hold-out)是评估一个机器学习模型性能的常用方法之一。对于一个整理好的数据集,随机选择一部分样本作为训练数据即训练集,用于训练模型,剩下的部分用于测试模型,作为测试集。

   在划分训练集和测试集的时候,须要遵循的原则之一是保持数据分布的一致性。比如,一个二分类任务,其数据样本的标签值为+或-。那么,在使用留出法划分训练集测试集时,要保证训练集中标签为+(或-)的样本比例与测试集中标签+(或-)的样本比例相同。通常可以采用分层采样的方法来实现这一原则。

   第二个要遵循的原则是多次反复划分,然后取多次测试的平均性能。由于每次随机划分所得到的训练集和测试集中的样本往往不相同,因此在不同的训练样本和测试样本下,所得出的模型性能显然会有一定的差异。为了尽可能消除这种由于随机划分数据集所产生的偏差,可以采用本条原则。

   第三个原则是测试集不可过大或者过小。如果测试集过大,则训练集会过小,由此训练出来的模型可能无法学习到整个原始数据集的规律。反之,如果测试集过小,训练集过大,模型可能会比较容易学习到原始数据中的规律,但由于测试集过小,测试出的性能难以代表模型的真实性能。在机器学习实践中,训练集与测试集的比例通常设置为 3:1 或 4:1。

图
图 1:留出法示意图

致读者: 小时百科一直以来坚持所有内容免费,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 10 元,我们一个星期内就能脱离亏损, 并保证在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

                     

友情链接: 超理论坛 | ©小时科技 保留一切权利