如何克服区块链分析中的过拟合问题?| 技术帖

当与区块链数据集一起使用时,机器学习模型往往会过度拟合,如何用简单原理,有效解决过拟合问题?

如何克服区块链分析中的过拟合问题?| 技术帖

过拟合指的是,在统计学中,过于紧密或者精确地匹配特定数据集,以导致无法良好地拟合其他数据或预测未来观察结果的现象。过拟合被认为是现代深度学习应用程序的最大挑战之一。过拟合模型指的是,相较有限的数据而言,参数过多或结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。简单理解的话,即模型从数据集中推断出错误的假设时会产生过拟合。

有的观点认为,使用机器学习来分析区块链数据集是一个非常吸引人的做法,但实际实施起来,这个想法充满了各种挑战。其中,缺乏标记数据集,就是将机器学习方法应用于区块链数据集时,需要克服的最大难题。对于区块链数据集,过拟合是缺少标记数据的直接结果。

区块链是大型的半匿名结构,此中所有事物都使用同一组通用的构造表示,例如:交易、地址和区块。从这个角度看,可以通过最少的信息证明区块链记录。是转账还是支付?是个人投资者的钱包地址还是交易所冷钱包的地址?这些限定符对于机器学习模型至关重要。

假设,现在需要创建一个模型来检测一组区块链上的交换地址。这个过程就必须要用到现有的区块链地址数据集,如果使用例如EtherScan或者其它什么小型数据集,那么,这个模型就很可能出现过拟合,并做出错误的分类。

之所以过拟合会成为如此大的难题,原因之一就是很难在不同的深度学习技术之间进行概括。在机器学习模型中,过拟合是一个持续的挑战,但在使用区块链数据集的时候,这却是几乎是必然的。虽然解决过拟合最显而易见的答案是使用更大的训练数据集,但这并非长久之计,因此需要依靠一系列基本方法来解决问题。

三个对抗策略

首先,对抗过拟合的第一个规则是认识到这一点。尽管没有防止过拟合的特效药,但实践表明,一些简单的,几乎是常识性的规则有助于在深度学习应用中避免这种现象。

数据/假设比率

当模型产生太多假设,却没有相应的数据来验证它们的时候,通常就会发生过拟合。因此,深度学习应用程序应该尝试在测试数据集和应该评估的假设之间保持适当的比率。

许多深度学习算法依赖于不断生成新的或者更复杂的假设,在这类情况下,有些统计技术可以帮助正确估计假设数量,以优化找到接近正确假设的机会。虽然该方法不能提供确切的答案,但却有助于在假设数量和数据集之间保持统计平衡的比率。

如何克服区块链分析中的过拟合问题?| 技术帖

哈佛的Valiant Brilliantly教授在他的《Probably Approximately Correct》这本书中解释到:进行区块链分析时,数据/假设比率非常明显。假设我们正在基于一年的区块链交易构建预测算法。因为我们不确定要测试哪种机器学习模型,所以我们使用了一种神经体系结构搜索(NAS)方法,可以针对区块链数据集测试数百种模型。假设数据集仅包含一年的交易,则NAS方法可能会生成一个完全适应训练数据集的模型。

支持简单假设

Simple is best! 不是吗?因此,第二种方法是不断生成更简单的假设。在深度学习算法的情况下,一个更简单的假设意味着我们需要将其减少到定量因素,深度学习假设中的属性数量与它的复杂程度成正比。

简单的假设相较于其它具有大量计算和认知属性的假设更易于评估。因此,与复杂模型相比,较简单的模型通常不易过拟合。

偏差/方差平衡

偏差和方差是深度学习模型中两个关键的估计量。从概念上来看,偏差是模型的平均预测与我们试图预测的正确值之间的差。具有高偏差的模型很少关注训练数据,从而简化了模型,却总会导致训练和测试数据的错误率很高。或者说,方差指的是给定数据点的模型预测的可变性,或一个告诉我们数据分布的值。具有高方差的模型将大量注意力放在训练数据上,并且没有对以前从未见过的数据进行概括。结果,这样的模型在训练数据上的表现很好,但是在测试数据上有很高的错误率。

偏差和方差与过拟合如何相关?简单来说,可以通过减少模型的偏差而不增加其方差来概括泛化的技巧。一种比较好的做法是对其进行建模,定期将产生的假设与测试数据集进行比较并评估结果。如果继续输出相同的错误,则说明存在很大偏差问题,需要调整或替换算法。如果没有明确的错误模式,问题则存在于差异,需要更多数据。因此,

–       任何低复杂度模型——由于高偏差和低方差,容易出现拟合不足。

–       任何高度复杂模型(深度神经网络)——由于低偏差和高方差,容易出现过拟合。

在区块链分析的背景下,偏差方差摩擦无所不在。

使用机器学习来分析区块链数据是一个新生领域,大多数模型都会遇到传统挑战,过拟合就是其中之一。虽然目前尚未发现解决过拟合的特效万能药,但是这三种简单的原理却已经被证明是有效的。

本文编译自Jesus Rodriguez的“The Overfitting Challenge in Blockchain Analysis”.

如何克服区块链分析中的过拟合问题?| 技术帖

踢马河:RaTiO Fintech合伙人,曾任某券商自营操盘手,十余年海外对冲基金和国内大型投资机构基金经理,资深交易建模专家,币圈大咖。

请尊重原创!转载请注明出处。

转载声明:本文 由CoinON抓取收录,观点仅代表作者本人,不代表CoinON资讯立场,CoinON不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。若以此作为投资依据,请自行承担全部责任。

声明:图文来源于网络,如有侵权请联系删除

风险提示:投资有风险,入市需谨慎。本资讯不作为投资理财建议。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2020年2月12日 下午7:34
下一篇 2020年2月12日 下午7:35

相关推荐

如何克服区块链分析中的过拟合问题?| 技术帖

星期三 2020-02-12 19:34:55

如何克服区块链分析中的过拟合问题?| 技术帖

过拟合指的是,在统计学中,过于紧密或者精确地匹配特定数据集,以导致无法良好地拟合其他数据或预测未来观察结果的现象。过拟合被认为是现代深度学习应用程序的最大挑战之一。过拟合模型指的是,相较有限的数据而言,参数过多或结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。简单理解的话,即模型从数据集中推断出错误的假设时会产生过拟合。

有的观点认为,使用机器学习来分析区块链数据集是一个非常吸引人的做法,但实际实施起来,这个想法充满了各种挑战。其中,缺乏标记数据集,就是将机器学习方法应用于区块链数据集时,需要克服的最大难题。对于区块链数据集,过拟合是缺少标记数据的直接结果。

区块链是大型的半匿名结构,此中所有事物都使用同一组通用的构造表示,例如:交易、地址和区块。从这个角度看,可以通过最少的信息证明区块链记录。是转账还是支付?是个人投资者的钱包地址还是交易所冷钱包的地址?这些限定符对于机器学习模型至关重要。

假设,现在需要创建一个模型来检测一组区块链上的交换地址。这个过程就必须要用到现有的区块链地址数据集,如果使用例如EtherScan或者其它什么小型数据集,那么,这个模型就很可能出现过拟合,并做出错误的分类。

之所以过拟合会成为如此大的难题,原因之一就是很难在不同的深度学习技术之间进行概括。在机器学习模型中,过拟合是一个持续的挑战,但在使用区块链数据集的时候,这却是几乎是必然的。虽然解决过拟合最显而易见的答案是使用更大的训练数据集,但这并非长久之计,因此需要依靠一系列基本方法来解决问题。

三个对抗策略

首先,对抗过拟合的第一个规则是认识到这一点。尽管没有防止过拟合的特效药,但实践表明,一些简单的,几乎是常识性的规则有助于在深度学习应用中避免这种现象。

数据/假设比率

当模型产生太多假设,却没有相应的数据来验证它们的时候,通常就会发生过拟合。因此,深度学习应用程序应该尝试在测试数据集和应该评估的假设之间保持适当的比率。

许多深度学习算法依赖于不断生成新的或者更复杂的假设,在这类情况下,有些统计技术可以帮助正确估计假设数量,以优化找到接近正确假设的机会。虽然该方法不能提供确切的答案,但却有助于在假设数量和数据集之间保持统计平衡的比率。

如何克服区块链分析中的过拟合问题?| 技术帖

哈佛的Valiant Brilliantly教授在他的《Probably Approximately Correct》这本书中解释到:进行区块链分析时,数据/假设比率非常明显。假设我们正在基于一年的区块链交易构建预测算法。因为我们不确定要测试哪种机器学习模型,所以我们使用了一种神经体系结构搜索(NAS)方法,可以针对区块链数据集测试数百种模型。假设数据集仅包含一年的交易,则NAS方法可能会生成一个完全适应训练数据集的模型。

支持简单假设

Simple is best! 不是吗?因此,第二种方法是不断生成更简单的假设。在深度学习算法的情况下,一个更简单的假设意味着我们需要将其减少到定量因素,深度学习假设中的属性数量与它的复杂程度成正比。

简单的假设相较于其它具有大量计算和认知属性的假设更易于评估。因此,与复杂模型相比,较简单的模型通常不易过拟合。

偏差/方差平衡

偏差和方差是深度学习模型中两个关键的估计量。从概念上来看,偏差是模型的平均预测与我们试图预测的正确值之间的差。具有高偏差的模型很少关注训练数据,从而简化了模型,却总会导致训练和测试数据的错误率很高。或者说,方差指的是给定数据点的模型预测的可变性,或一个告诉我们数据分布的值。具有高方差的模型将大量注意力放在训练数据上,并且没有对以前从未见过的数据进行概括。结果,这样的模型在训练数据上的表现很好,但是在测试数据上有很高的错误率。

偏差和方差与过拟合如何相关?简单来说,可以通过减少模型的偏差而不增加其方差来概括泛化的技巧。一种比较好的做法是对其进行建模,定期将产生的假设与测试数据集进行比较并评估结果。如果继续输出相同的错误,则说明存在很大偏差问题,需要调整或替换算法。如果没有明确的错误模式,问题则存在于差异,需要更多数据。因此,

–       任何低复杂度模型——由于高偏差和低方差,容易出现拟合不足。

–       任何高度复杂模型(深度神经网络)——由于低偏差和高方差,容易出现过拟合。

在区块链分析的背景下,偏差方差摩擦无所不在。

使用机器学习来分析区块链数据是一个新生领域,大多数模型都会遇到传统挑战,过拟合就是其中之一。虽然目前尚未发现解决过拟合的特效万能药,但是这三种简单的原理却已经被证明是有效的。

本文编译自Jesus Rodriguez的“The Overfitting Challenge in Blockchain Analysis”.

如何克服区块链分析中的过拟合问题?| 技术帖

踢马河:RaTiO Fintech合伙人,曾任某券商自营操盘手,十余年海外对冲基金和国内大型投资机构基金经理,资深交易建模专家,币圈大咖。

请尊重原创!转载请注明出处。