--在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(trainset),验证集(validation set ) 和测试集(testset)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。
- Training setis asubset of the dataset used to build predictive models.
- Validation setisa subset of the dataset used to assess the performance of modelbuilt in the training phase. It provides a test platform for finetuning model's parameters and selecting the best-performing model.Not all modeling algorithms need a validation set.
- Testsetorunseen examplesis a subset of the dataset to assess the likely futureperformance of a model.If a model fit to the training set much better than itfits the test set, overfitting is probably the cause.
但是,当样本总量少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leaveone out)。
训练集用于监督学习中,监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。
爱华网本文地址 » http://www.aihuau.com/a/25101015/277684.html
更多阅读
真三3.9D郭嘉如何出装、加点和游戏攻略——简介在三国演义中,郭嘉是一个非常重要也非常聪明的谋士。而在真三中,郭嘉同样是一个非常重要,并非常厉害的法师。郭嘉的成长值非常高,其作用和技能跟司马懿差不多。下面就说一说真三3.9D郭嘉如
批量授权、零售版和OEM的区别——简介批量授权、零售版和OEM的区别当涉及到购买许可证(license)的问题,相信许多人都有过迷茫。不知道一些相应的license的问题。而购买license的渠道很多,那么我们应该要购买哪些license呢?他们的区别又
人造鸡蛋、新鲜鸡蛋和真假土鸡蛋辨别法——简介记得十五六岁时俺娘就开始灌输女人要“入得厨房,出得厅堂”之类的观念,并时常要我陪她逛菜市场,而我常常心不在焉的听她喋喋不休,选黄瓜你要摸摸有没有刺的;西红柿你要看皮的颜色;那个鸡你摸
交换机、集线器、路由器区别和使用最近看到很多人在询问交换机、集线器、路由器是什么,功能如何,有何区别,笔者就这些问题简单的做些解答。首先说HUB,也就是集线器。它的作用可以简单的理解为将一些机器连接起来组成一个局域网。而交
西部数据黑盘、蓝盘和绿盘哪一个好?有什么区别?选购西部数据硬盘的时候经常要问:黑盘、蓝盘和绿盘哪一个好?有什么区别?其实,黑盘、蓝盘、绿盘就是指的西部数据硬盘上贴的那张纸是黑色、蓝色或绿色。一般用户建议购买蓝盘,要是为了