非同质信息理论、技术与应用(Working Paper)

TagtalLabs
Mar 18, 2021

--

非同质信息理论、技术与应用

摘要:

区块链NFT非同质化通证技术在经历技术泡沫之后开始得到越来越多人的关注。NFT有可能在链下链上资产关联上发挥重要作用,目前已经在加密艺术、游戏、IP等领域得到大量应用,不仅如此,NFT的思想具有在通用数据领域进行应用的潜力,但目前缺乏非同质化数据的相关理论与技术研究。本研究计划从NFT入手,形成更为一般化的非同质化数据NFD的理论和技术,并将其应用到Data Mesh中。

首先,数据的经典定义已经越来越不适应数字经济时代的需求,有必要从理论上沥清数据的概念,以及治理数据的技术与方法。本研究从存在论本体论出发,完善数据作为信息载体的经典定义,探索数据的一些新的性质。传统信息论用信息熵描述了信息传输中的基本性质,对于数据本体之外的性质缺乏讨论,比如数据的存在性所包含的数据所有权、可追溯性等。近年,以太坊的非同质化通证NFT(Non-Fungible Token)技术的出现,是一种数据非同质化的特定实现,已经取得了好的应用场景。但还需要进一步从信息理论上进行讨论和研究,形成的NFD(Non-Fungible Data)非同质化数据理论与更加通用的NFD非同质化数据技术。

非同质化数据的难点是链上链下数据的统一,以及非同质化数据接收、存储、分发的共识机制和算法,以及防止数据分发中的双花攻击。中国科技大学

本研究在理论研究和技术开发的基础上,有明确的应用方向。当前数据应用的一个瓶颈是数据的同质化问题,即数据可以以极低的成本复制,重复利用,在数据流通过程中难以确定数据的所有权与来源去向。NFD非同质化数据可望成为以数据为生产要素的数字经济的重要基础,极大地促进数据技术上的发展与数据利用,研究计划包括在NFD理论与技术基础上构建数据流通与治理的解决方案。数据管理在经历了数据仓库、数据湖之后正在走向分布式数据架构,最新的趋势是所谓Data Mesh。即将数据作为要素本身进行管理,而不仅仅将其作为平台运行的副产品,数据直接面向去中心化的业务角色而不是面向中心化的技术流程,也就是将数据作为一级本体来对待。作为理论与技术的应用,本研究将构建基于NFD的Data Mesh。

一、 研究背景

我们有大量的数据数据,但我们从未真正拥有过。

二、 相关工作:

我们拥有大量的数字资料,但我们从未真正拥有过。

显然,我们已经拥有大量的数字资料。但是,我们在多大程度上“拥有”这些数字产品?如果数字所有权仅表示某项商品属于您而不是其他人,那么您在某种意义上拥有它们。但是,如果数字所有权更像是物理世界中的所有权(无限期持有和转让的自由),那么数字资产似乎并非总是如此。而是,您在特定的上下文中拥有这些资产,这可能会或可能不会使它们轻松移动。尝试在eBay上出售Fortnite皮肤,您会发现将数字资产从一个人转移到另一个人的困难。

这就是区块链进入的地方!区块链为数字资产提供了一个协调层,赋予了用户所有权和管理权限。区块链为不可替代资产增加了一些独特的属性,从而改变了用户和开发人员与这些资产的关系。

从NFT到NFDT

OCEAN PROTOCOL:BigChainDB

三、 非同质信息理论基础与共识算法初探

Shannon的不确定性信息理论有其局限性,不能表述信息的其他属性,也不能代替其他信息量度和信息理论的研究。(王育民,纪念香农百年诞辰 — — 信息论对社会信息化的作用)

但是,不确定性信息论的研究又是研究其它信息类信息属性的基础。因为通信的基本目的是“在此时彼地或彼时彼地精确或近似地重现信源的输出”。这句话是对Shannon原话作了一点修正,使其不仅包括了信息传输,也包括了信息的存储问题。

我们只要看看连续消息的有失真信源编码问题就不难理解了。为了保证声频或视频的清晰度,我们必须加大不确定性信息的传信率。只要保证了不确定性信息的传输质量要求,也就能满足“美学”信息的传送要求了。至于每个人如何感受则是另外的问题了,Shannon的信息论回答不了。

现有的区块链技术也是通过提高传信率,满足“价值”信息的传送要求,比如拜占庭协议,超过2/3节点确认才将交易数据打包成区块,交易正式生效。但与音视频传送不同,目前对价值还没有相应的理论,用以描述传信率与价值传送可靠性的关系。由于缺乏理论支撑,当前区块链的实现需要大量的对等节点,也可能是不必要的冗余,这也是导致当前区块链性能差的主要原因之一。

经典信息理论通常与同质化(Fungible)信息有关,即,其编码方式不重要的信息。例如,香农的编码定理对经典位的两个值``0'’和``1'’是否对应于磁带上的两个磁化值,传输线上的两个电压或磁珠的两个位置无关紧要在算盘上。计算机科学家和信息理论家感兴趣的大多数信息处理任务都是这种类型的,无论它们是诸如数据压缩之类的通信任务,密钥分发之类的加密任务还是诸如因子分解之类的计算任务。尽管如此,仍有许多任务无法通过同质化的信息来完成,但也被巧妙地描述为“信息处理”任务。(来源:Stephen D. Bartlett, Terry Rudolph, and Robert W. Spekkens

Rev. Mod. Phys. 79, 555 — Published 5 April 2007)比如数字1,如果这个数字出现在你银行的=美元账户中则表明你的账户上有1美元,如果是在本文中则与资产无关。区块链是一种编码方式,一旦对信息进行了区块链编码,这些信息就可能成为非同质化的信息。比如比特币上的地址中的余额数字1表明该地址拥有1个比特币。对值0或者1的区块链编码赋予了信息非同质化的含义,比特币、以太坊、或者其他区块链的编码信息含义完全不同。同质化信息也可以理解为绝对信息,非同质化信息可以理解为相对信息。这里的相对信息与王勇提出的相对信息有一定相似性。“物理中物体运动的相对性是它的参照系,而这里信息的相对性针对的是我们认定的条件,包括哪些信息的可靠的,哪些信息是不可信的,它们的可靠程度如何等等。我们建立一个信息产生的模型:首先,信息处理者从各方收集信息,比如可以从不同的人或者资料来获取信息,这许多的信息需要进行相关的处理,处理者可以根据各种已知的知识,规律等等来进一步衍生新的信息,好比机械设备在获得一定的作用的时候,它会根据机械设备的机制来作用于其他的物体,从而衍生了新的作用。衍生的信息以及最初获得的各种信 息之间本身还可能不一致,有些是相互补充的,有些则是不一致的,因此需要整合和折衷, 这好比机械设备产生的一些作用导致一些被作用的物体相互发生碰撞,产生反作用,或者由于力的作用在同一个物体上,力的作用不一致的时候,最终对物体的作用是这些力的综 合。折衷整合的时候需要以我们认定的条件为基础,包括各个信息的可靠程度。”(香农信息论的局限性分析,王勇)

非同质信息的另一些例子:同步远处的时钟,对准远方的笛卡尔坐标系以及确定一个人的全局位置。想象一下,例如,爱丽丝和鲍勃在不同的星系飞船中,没有共享的笛卡尔坐标系(尤其是无法进入固定恒星)。对于Alice而言,显然没有办法抽象地描述Bob的空间方向,即只使用一串经典位。相反,她必须向Bob发送一个可以指向某个方向的系统,该系统指向她自己的笛卡尔坐标系的轴之一。该令牌不能是球对称的;它必须具有可以编码方向信息的自由度。另一方面,如果她希望通过向Bob发送令牌系统来使时钟与Bob同步,则她需要使用具有自然振荡的系统。类似地,在区块链上发送信息必须通过通证(令牌)来进行。这些任务中传达的信息被认为是不可替代的。这两种信息,可替代和不可替代,也被称为可言说和不可言说(Peres和Scudo,2002b)。

价值的传递,发正在两个不同的信任空间中,Alice和Bob分别处于不同的信任度空间(不同的飞船中)。没有共享的笛卡尔坐标系(尤其是无法进入固定恒星)也就是没有共同信任的第三方。

字典的作用是通过已知单词来定义未知单词。但是,有些术语(如左或右)在此无法解释方式。在没有正式定义的情况下,必须使用实体对象举例说明这些术语:例如,我们可以说人的肝脏在

右边。同样,螺旋度的符号可以称为DNA结构,或弱相互作用的性质。在这里,我们考虑了一些无法用口头解释信息的情况。最简单的一种是发射器(通常称为Alice)想要向接收器(Bob)指示空间方向。如果他们有共同点他们可以参考的坐标系统,或者如果他们可以通过观察遥远的固定恒星来创建一个坐标系,爱丽丝只需向鲍勃传达一个沿该方向的单位矢量n或其球坐标θ和φ。但是如果还没有建立通用的坐标系,她所能做的就是发送一个方向稳定的真实物理对象(例如陀螺仪)。(Peres和Scudo,2002b)

以下数段翻译自:Stephen D. Bartlett, Terry Rudolph, and Robert W. Spekkens

Rev. Mod. Phys. 79, 555 — Published 5 April 2007

相对较年轻的量子信息理论领域主要与发展可言说(speakable)信息的量子理论有关。假设用于执行这些抽象信息处理任务的系统遵守量子理论定律,研究人员已设法确定可以完成各种抽象信息处理任务的成功程度。但是,在开发非同质化信息的量子理论方面也取得了进展,例如,概述了在量子世界中可以成功完成诸如时钟同步和笛卡尔坐标系等任务的情况。

必须依靠物理学来回答计算机科学家感兴趣的问题,这一事实还不是很明显。(Landauer(1993)在口号“信息是物理”中总结了这一点。)另一方面,必须依靠物理来回答有关无法言语信息处理的问题也就不足为奇了。尽管如此,无法言喻的信息的量子理论才刚刚开始被探索。

至关重要的是要注意,当一个系统具有编码方向信息的系统时,例如纯状态下的自旋1/2粒子,该方向并不是相对于任何所谓的绝对牛顿空间来定义的,而是相对于任何所谓的绝对牛顿空间来定义的。另一个系统,例如实验室中的一组陀螺仪。类似地,不是相对于任何声称的绝对时间而是相对于时钟来定义包含相位信息的系统,例如以基态和激发态的连贯重叠的两级原子。我们将时钟,陀螺仪,量尺等定义为无法言说/非同质化信息的系统称为参考系(reference frame)。到目前为止,我们突出显示的任务都可以描述为参考帧的对齐。非同质化信息恰恰是非同质化的,因为它只能针对特定类型的参考系进行定义。

即使是对时钟同步和笛卡尔坐标系对齐等任务不感兴趣的量子信息理论家,也必须考虑使用参考系的物理系统。原因是,尽管同质化信息可以被编码为任意自由度,从而可以相对于任何参考系进行定义,但是仍然必须选择一定的自由度,因此仍需要一定的参考系。例如,如果某个任务使用了两级原子量子位,则即使任务是执行抽象的量子信息处理,仍然需要一个时钟在后台执行对该量子位的任意准备和测量。而不是一种分布式相位(distributing phase)信息的方法。在此示例中,可以通过在特定时间间隔内打开静态电场来将两级原子的基态和激发态之间的相对相位改变指定的量,但是这需要适当地需要时钟以及对准原子偶极矩的磁场。

由此可见,缺乏特定自由度的参考系会影响人们执行某些量子信息处理任务的成功。在某些情况下,某些任务的执行存在争议,因为这种影响被忽略或未得到适当处理。就像我们将看到的,在量子形式主义中可以将缺乏参考系视为退相干的一种形式-量子噪声。与典型的去相干性起因相反,该去相干性是由于与一个人无法访问相关的环境导致的,而这种去相干性可以看作是由于其中一方无法访问该(可能是假想的)参考系而导致的。这是一个有力的结果,因为如果可以将缺乏参考系视为退相干的一种形式,那么可以应用目前在量子信息理论中与退相干作斗争的标准技术(特别是使用无退相干的子系统)。

事实证明,缺少参考系的限制在数学上等同于所谓的超选择(superselection rule)规则-假定的规则禁止制备在某些可观察物之间和本征态之间表现出相干性的量子态。最初,引入超选择规则是为了对量子理论施加额外的约束,而不是经过精心研究的选择规则(守恒定律)。它们被认为是公理性限制,仅适用于某些自由度。例如,电荷的超选择规则断言不可能准备不同电荷本征态的相干叠加。但是,正如我们将看到的,对于与紧凑对称组相关的超选择规则,适当的参考系的存在实际上可以允许这种叠加状态的准备,从而在实践中避免了超选择规则。这表明缺少参考系的限制与超选择规则的限制之间有着密切的联系。

正如Schumacher(2003)所强调的,对实验操作的有趣限制产生了有趣的信息理论。例如,与量子信道相比,经典信道和本地操作是一种廉价的资源,这使我们研究了本地操作和经典通信(LOCC)可以实现的目标。由此产生的信息论就是纠缠理论。作为另一个例子,人们可以相对容易地实现量子光学中的高斯运算,这导致人们考虑了信息理论,这些信息理论是由对这些运算的限制而产生的。通过比较和对比各种不同限制产生的信息理论,我们对所有这些有了更广阔的视野。特别是,由此产生的理论之间的类比使我们能够应用在一种情况下获得的见解来解决在另一种情况下出现的问题。从这个意义上讲,研究超选择规则的限制-或等效地,如我们将证明的,缺少参考系的限制-可能会为其余的量子信息理论提供经验教训。

在某些情况下,很难想象缺少参考系。例如,笛卡尔坐标系的精度约为度的几分之一,而时钟精度约为几分之一的秒,这足以说明它们的存在。但是,如果需要非常高的精度或非常好的稳定性,则这些相同的参考系将变得非常难以准备和维护。此外,即使仅需要低精度和较差的稳定性,有些参考系也很难准备。例如,Bose-Einstein所指的碱原子可以作为与原子序数共轭的相的参照系,而可靠的制备方法仅在过去十年中才得以实现。另外,可以很容易地想象两个具有不相关参考系的参与方(例如之前提供的太空旅行Alice和Bob的示例)。在这种情况下,我们说它们缺少共享的参考系。所有这些事实表明,必须将参考系视为资源。

无论所考虑的自由度如何,参考系始终与某些物理系统相关联。这样,可以在量子力学的形式主义内对其进行处理。在这种情况下,我们说的是量子参考系。确实,可以想象到一种极端情况,其中一方拥有的唯一具有参考系(或与另一方共享参考系的系统)的系统规模是有限的。例如,可以想象一个由最大激发次数很少的振荡器组成的量子时钟,或者是由几个自旋1/2系统组成的量子陀螺仪。然后自然会问这样一个有界尺寸的参考系与无界尺寸的参考系的近似程度如何。

有界参照系代替无界参照系的能力类似于纠缠态代表有非局部操作可能性的能力。回想一下,隐形传态协议允许纠缠和经典通信来替代非本地操作。更一般而言,当人们缺乏执行非本地操作的能力时(例如,当量子位被远程分离时),纠缠成为一种可量化的资源。类似地,当一个人要服从超选择规则时(即,当一个人缺乏某种自由度的参照系时),有界参照系就成为一种可量化的资源,我们可以就此提出与纠缠相同的问题。例如,我们可能会问以下问题:哪些状态可以互换?从给定状态可以提取多少个标准形式的状态,以及形成给定状态需要多少个状态?给定任务需要多少资源?它用完多快?等等

最后,由于很容易忘记参考系的存在,因此这些参考系是各种概念混淆的根源。这些包括:解释在单一模式下表现出数态之间相干性的量子态(量子光学,玻色-爱因斯坦凝聚和超导性引起争议);玻色子或费米子系统或操作受限的情况下纠缠的量化;帧对齐的效率,同步时钟等;以及超选择规则对实现各种量子信息处理任务的可能性的意义。

Bartlett在2003年提出无共享参照系SRF(Shared Reference Frame)的通信理论上可以通过量子纠缠进行,但很难实现。2009年Bartlett设计了有限尺度(Bounded-Size)量子装置用于实现无SRF的通信。

为了处理上述非同质化信息,物理学家的方法是在宇宙各处量子力学都是成立的前提下,通过发送量子态的物理装置来完成时间、空间参照系的交换,或者参照系对齐。我们自然会得出香农信息通信中是否就是缺乏参照系的交换,因为在香农的通信模型中,发送和接收双方都有共同的参照系。那么非同质化信息是否就是在同质化信息基础上增加了参考系。

非同质化信息 = 同质化信息 + 参考系

区块链网络的诸多特性契合通信信道需求,区块链主要用于传输、存储、处理非同质化信息,互联网则主要是处理同质化信息。非同质化信息论还处于早期的研究中。本研究计划借鉴量子非同质化信息论的研究方法,将区块链作为非同质化信息混合的信道,重点对非同质化信息传送、存储和处理进行分析。

区块链就是一种“参照系”,我们一般以为“拥有”1个比特币,但实际上是我拥有的比特币离0有1个单位距离。比特币的分布式账本(非对称、难以篡改的类物理量特征)就提供了比特币的0参照点,即参照系。

四、 非同质信息网络信道模型

五、 一种基于非同质信息理论的区块链数据网络

六、 以区块链数据网络为基础设施的社会数字治理技术架构

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response