数据加密和数据去重
随着互联网,特别是移动互联网的不断发展,出现了大数据的概念。 META Group在2012年对大数据做出了更科学的定义:“大数据是一种大量,高速和多变的信息资产,需要新处理方式才能使其决策能力更加强大,洞察能力和优化能力。“数据去重技术可以说是为大数据量身定制的数据处理技术。

从某种意义上说,数据去重技术是所有大数据处理技术的基础技术,大数据处理的第一步通常是检测并消除重复数据。简单说,就是多个数据主体具有相同的数据,而不是重复存储,它们合并和共享相同的空间。只有做好重复数据删除工作才能减少数据处理量,减少存储空间和网络带宽,减少计算机网络相关硬件和软件的不必要消耗。
数据加密和数据去重都在存储中起着决定性的作用。但是,业界大部分都认为:加密后无法删除数据。因为数据加密会导致数据量的增加,而数据去重的目的是减少数据量,这两者是不允许的。其他人则认为数据加密变得混乱,无法执行数据删除。

HSN关键核心技术“加密去重”
在HSN区块链开放网络上,出于用户隐私和安全性考虑,用户私有数据需要使用其专有密钥加密后存储于HSN网络上。虽然用户的数据安全性大大提升,但也对去重技术提出了新的挑战。
因为不同用户拥有的完全相同的文件通过各自专属密钥加密后生成的二进制文件完全不一样,无法通过计算MD5指纹信息来判断不同用户拥有的文件是否完全相同,传统去重技术在区块链领域丧失了用武之地。
超速链HSN技术团队设计和实现了独有的“多份相同文件加密后去重存储技术”(简称加密去重技术),实现多份相同文件使用不同密钥加密后也只需存储一份的效果,提升整个HSN网络的存储空间使用效率。

HSN加密去重技术原理
加密去重技术原理涉及到大量的数据计算和公式,目前已经申请国家专利保护。不过可以简单描述为如下流程:
1) 对于需要存储的大文件,我们在加密之前,将其切分为若干个碎片,对每个碎片进行哈希值转换,再根据已有的“碎片- 哈希值-所在节点”映射表,判断该碎片值是否已经存在。
2) 如果已经存在,则用该已有碎片取代新碎片,并将其所在节点更新为原有节点。
3) 之后,再采用通过特定种子字符串生成的密钥,对数据碎片进行加密,再分发到边缘节点,并记录到映射表之中。
4) 当某个用户需要调用某个文件时,则会根据这个文件所包含的碎片,从各个边缘节点搜集相应碎片,解密,进而组合成一个完整的文件。
通过这种方式,我们即实现了多份文件只保存一份,又确保了所有信息在这个过程中都完全加密。关于这个算法的具体计算方法,请参考《HSNwhite paper》第4.4.1节“数据加密去重算法”。
HSNwhite paper地址:
https://cn.hsn.link/upload/files/2019/5/HSNWhitePaper_CN_V1.0.pdf
发表评论 取消回复