科普丨为什么说复制不利于去中心化存储

Bob鲍师傅 • 2019年7月15日下午2:54 • 头条 • 阅读 16794

原文作者：Patrick Gerbes And John Gleeson

翻译：头等仓 Jaden

原文地址：请查原文链接

译文版权归头等仓所有，任何转载请保留前言信息。

Storj的粉丝们，大家好！我们带来了备受期待的第二部分：为什么复制不利于去中心化存储。我们的第一部分表明在分布式存储系统中，相比复制，纠删码方案是更好的选择。如果你还没有读过它，就应该先去读第一部分（这真的很棒）。Tl；dr就是通过复制产生的与数据盈余相关的成本，这一花费高得令人无法接受。过度扩张严重限制了未来的网络增长，并导致资源配置效率低下。

在本期中，我们深入探讨了为什么加入和离开的网络节点（也称为流失）对依赖于复制的盈余策略有重大影响（也可以说是负面影响）。我们认为在高流失环境中使用复制不仅不切实际，而且注定要失败。引用Blake和Rodrigues的话：“数据盈余是保证数据的关键。但是，在成员高度活跃的情况下，保留盈余数据的成本非常高。”

关于动态的补充知识

在深入研究令人激动的数学问题之前，我们需要快速定义一些与网络动态相关的概念。节点的生命周期是指它出于某个原因加入和离开系统之间的持续时间。由多个节点组成的网络具有平均寿命，通常称之为平均故障时间（MTTF）。平均故障时间的倒数是流失率或每单位时间故障的频率。这个关系非常重要，需要我们去理解，特别是在MTTF的时间单位远大于特定问题所需的单位的时候。

分布式存储系统的机制是通过替换由于节点流失而变得不可用的区块来修复数据。但是，在分布式云存储系统中，文件在修复过程中会产生带宽成本。无论是简单地复制文件片段，还是纠删码来重新创建缺失片段，文件修复过程都需要从可用节点下载片段，并上传到其他不相关且可用的节点上。

阅读本系列的第一部分后，您能了解只依赖复制显然是不可行的，但有些项目已经提出将纠删码和复制两者相结合起来。一旦您对某一文件进行纠删码处理，并将其分布在一组节点上，它就会为给一定级别的节点流失提供一个确定的耐用性。如果要增加一定级别的节点流失的耐用性，您有两种选择：增加纠删代码k/n比率或使用复制手段来复制纠删码的片段。这两种策略非常不同，除了增加耐用性之外，还会对网络产生巨大影响。

我们的假设网络

因此，让我们定义两个假设的分布式存储网络，一个使用只通过纠删代码保持数据盈余（即Storj V3网络上使用的方法），另一个使用纠删码和复制确保数据盈余（这是Filecoin以及过去旧的Storj网络使用的方法）。我们假设两个网络上的节点可以随时自由加入和离开，并且基于硬件、操作系统、可用带宽和各种其他因素，各个节点的正常运行时间各不相同。当节点离开网络时，该节点上的数据将永不可用。当然，如果节点在指定月份内低于某个可用性阈值，则该该节点上的文件和完全离开网络的节点一样用不可用。

让我们假设两个设想网络都使用4/8 Reed-Solomon纠错码比率，并且在节点流失率为10％时具有99.9％的持续性。尽管两个网络都希望达到十一次时长为9秒的持续时间，但一个是通过是只通过纠删码实现它，另一个是将纠删码与复制相结合实现。

相关数学知识

事实证明，如果您知道目标耐用性、节点的MTTF，也知道纠删码方案，那么您就可以计算给定时间段内的数据流失量。计算数据流失的公式如下：

那么流失率究竟是多少：B是网络上的字节数，n是纠删总数，m是修复阈值，k是需要重建的区块数量。

例如，在我们假设的使用纠删码的网络中，即使我们使用30/80 Reed-Solomon方案（比上面给出的4/8方案更耐用），9个月的MTTF意味着你必须每月修复35％的数据，以达到99.999999999％的耐用性！

这表明节点流失是影响文件可用性的一个最大因素。增加节点流失会显着降低文件的可用性和持久性。纠删码和复制等策略是防止网络受节点流失影响的手段，但如果没有替换数据的机制，文件流失不仅仅会影响流失率。

所以，让我们把这个数学公式应用到我们的两个假设网络中。我们需要做的第一件事是计算在两种情况下如何各自获得11次9秒耐久性：

1.对于仅使用纠删码的方案，计算k/n比率，这个比率为定义的流失率提供目标持久性。

2.对于擦除代码加上复制的方案，计算需要复制纠删码片段的次数，以便为定义的流失率提供目标耐用性。

为了计算复制或纠删码文件的耐用性，我们需要考虑Poisson分布的CDF，由下列公式给出：

其中D是大多数n-k文件碎片丢失的事件。在简单复制的情况下，k = 1，因此当最多n-1个碎片丢失时，文件仍然是可恢复的；也就是说，如果至少有一个副本在网络上，则仍可访问数据。如果对已经进行纠删码的文件进行复制时，计算方式会发生变化。

假设文件采用k = 4，n = 8的纠删码（即创建8个碎片并且仅需要4个用于重建），然后进一步假设8个擦除份额中，每个都被复制（r = 10次），处理碎片数共80。这80个碎片的特别之处在于，不是任何4个碎片都可以用来重建文件，因此它们应该被认为一共是80个单个碎片，被分成8组，每组包含10个碎片。要想重建文件，4组碎片中，每个组都必须至少含有1个碎片。

因此，不是让P（D）这一单一因素确定耐久性（即最多丢失n-1个碎片），对于重建所需的每个唯一集合，P（D）只是其中的一个因素，因为现在每k 组不得丢失超过r-1个碎片，其中扩展因子r确定所制作的副本数量（为了达到r的扩展因子而制作r-1副本，包括原始文件）。计算这个概率需要使用二项分布，其中p是一组中丢失最多的r-1个拷贝的概率。然后，为了计算至少有k个集合，且每个集合至少包含1个拷贝的概率，我们找到二项式CDF的上尾区域：

让我们首先看一下基于两个假设方案的节点流失对持久性的影响，一个使用复制加上纠删码，另一个使用优化后的纠删码方案。基于以上公式，计算结果如下：

事实证明（可预测地），在仅有纠删码的情况下可以增加耐久性，且不会增加扩展因素。将复制添加到已经纠删码的数据后则更加有效，只需直接复制原始文件（需要17个副本才能实现），但其扩展因素数量是擦除代码的的三倍。

在流失率更高或变化很大的环境下，两种情况下的耐久性都会受到显着影响：

在不可预测或高度可变的环境中，解决最坏的情况以保持恒定的耐久性水平十分重要。同样，从下表中可以清楚地看出，节点流失有巨大影响，并且在使用复制时，这种巨大的影响直接转化为增加扩展因子。在下表中，您可以看到当尝试保持11个9秒的最小耐久性时流失对扩展因子产生的影响：

那么，这些表告诉我们什么呢？下面是一些有趣的观察结果：

在更高的流失率下，复制会显着增加扩展因子，正如我们在之前的博客文章中所了解到的那样，需要更高的带宽利用率才能进行修复。
可以使用纠删码来实现更高的耐用性，而不会增加扩展因子或用于修复的带宽量。

只是为了把问题讲清楚，让我们首先看一下两个假设网络上文件的实际存在的方式：

了解在两个网络上的实际修复过程差异是很有必要的，因为与纠删码相比，复制过程非常不同。继续上面1 TB文件的例子，让我们来看看当存储数据的1/3节点退出网络时，修复的实际情况如何：

关于分布式存储网络要记住的另一个重要事项是，网络可以存储的数据量不受节点上可用硬盘空间量的限制。它受节点可用带宽量的限制。请允许我解释一下。

以下变量和计算值用于确定操作员可以提供的存储节点上的数据量和带宽：

变量

1. 存储节点运营商的存储——存储节点可共享的硬盘空间量。

2. 下载速度——存储节点运行的网络上可用的下行带宽，以Mbps为单位。

3. 上传速度——存储节点运行的网络上可用的上行带宽，以Mbps为单位。

4. ISP带宽上限——存储节点运营商在受到带宽上限执行操作（例如引起经济损失或受到ISP的带宽限制）之前一个月内可以利用的最大带宽量。

5. 存储节点运营商带宽利用率百分比——假设某些百分比的带宽将用于其他服务，用户将专用于其存储节点的每月总带宽上限的百分比。

6. Egress带宽百分比——基于我们支持的用例的客户端下载的平均出口流量。

7. 修复带宽比率（占存储的百分比）——网络上修复流量的百分比，主要由节点流失、软件或硬件故障驱动。虽然实际节点可能会根据它们所持有的是文件碎片产生更高或更低的修复流量，但这是整个网络的平均值。

8. Ingress带宽百分比——可从客户端上传新数据的带宽量。

计算

1. 基于下载速度的总可用上载带宽（不包括上限）——可用于入口的最大数据量，基于下载速度（以Mbps为单位）乘以一个月内的秒数。

2. 基于上传速度的总可用下载带宽（不包括上限）——此计算是用户愿意专用于Storj网络的带宽上限乘以入口的带宽上限的百分比。

3. 基于BW上限的每月上传的最大数据（TB）×可上传的百分比——此计算是基于下载速度（以Mbps为单位乘以一个月中的秒数），可以上载的数据量，而不考虑上限。

4. 基于下载速度的每月上传的最大数据（TB）×每月的秒数——这个计算是用户愿意专用于Storj网络的带宽上限乘以带宽上限的百分比。

5. 基于BW上限的每月可下载的最大数据（TB）x可下载的百分比——此计算是可以下载的数据量，与上限速度无关，基于一个月内的Mbps乘以上传速度。

6. 基于上传速度的每月下载的最大数据（TB）——此计算是专用于Storj修复流量所需的带宽上限乘以带宽上限的百分比。

7. 基于BW上限的每月最大修复流量（TB）——此计算是修复流量的数据量，与基于上载速度的上限速度无关，以一个月的Mbps乘以秒为单位。

8. 基于上传速度的每月最大修复流量（TB）——这是以可用BW上限百分比或实际吞吐量的较低入口速率填充可用硬盘空间所需的月数。

虽然通常情况下，异步互联网连接中的下载速度较高，但从将文件上传到去中心化文件系统，或从去中心化文件系统下载文件来看，从客户端上传和下载与存储节点相反。简单来说，当客户端将数据上传到网络时，相当于下载到存储节点。类似地，当客户端下载数据时，等于存储节点上传数据。

以下示例基于具有不同带宽上限的两个不同存储节点。请注意，存储的数据量包括扩展因子。

带宽具有重大全面的影响。它通常是有限的，必须在入口、出口和修复之间分开。随着扩展因子的增加，这些功能消耗的实际带宽量以相同的速率增加。较低的带宽上限进一步降低了网络可以与给定数量的节点存储的实际数据量。增加文件修复所需的带宽量，该数量仍然会降低。

如果您还限制共享存储空间的实际限定的节点，那么让我们看看可用于修复的带宽的影响。在上面的方案中，节点具有：

2TB带宽上限
100Mbps下行/ 10 Mbps上行异步带宽
平均共享存储容量为2 TB
每月下载50％的数据
每月上传40％的数据
10％的流失率
节点100％的带宽容量和存储运行

每个节点的可用带宽小于0.12 TB。这就是存储档案数据的环境，没有大量的下载带宽。将分布式存储网络扩展到存储的exabyte数据时，扩展因子的影响确实明显。

最终，支持给定网络大小所需的节点数量结果上呈指数增长。如果增加服务给定量的存储数据所需的节点数量，这会导致较高带宽的使用情况进一步恶化这个问题。给定的网络规模具有与其相关的有限数量的收入，然后将其分布在越来越多的存储节点运营商上，这意味着随着时间的推移，存储节点运营商所赚取的金额将减少。

面对更多存储节点运营商的快速增长需求，每个节点的支出减少，导致节点流失增加，进而会加速周期。再次，增加的流失率也促使了复制的扩展因子数量的增加，增加了用于修复的带宽量，这也进一步削弱了可用于存储和出口的带宽量。

这意味着在关于依赖复制与纠删码的争论中，在必须不断优化带宽保护的环境中，单独的纠删码方案明显更胜一筹。像Filecoin网络中使用的复制以及复制证明方法，即使有带宽受限环境中运行的相应扩展因子和修复率，也根本无法维持可接受的持久性水平。想象一下上述的25％流失率的同一网络，其中复制示例需要1,400％的扩展因子来保持足够的耐久性。如果我这一引用吓到了您，我在此表示抱歉。

在即将发布的帖子中，我们将深入探讨运营分布式网络的经济效益，但是您必须考虑到在当前存储市场中，客户仅根据实际的预纠删码或复制卷来支付存储费用。在数据和出口带宽方面，当谈到美元时，复制就更没意义了。

原文：https://storj.io/blog/2019/01/why-proof-of-replication-is-bad-for-decentralized-storage-part-2-churn-and-burn/

稿源（译）：https://first.vip/shareNews?id=1880&uid=1

转载声明：本文由CoinON抓取收录，观点仅代表作者本人，不代表CoinON资讯立场，CoinON不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。若以此作为投资依据，请自行承担全部责任。

声明：图文来源于网络，如有侵权请联系删除

风险提示：投资有风险，入市需谨慎。本资讯不作为投资理财建议。

科普丨为什么说复制不利于去中心化存储

相关推荐