元计算总结:Meta Computing互联网计算的新范式

概要

在信息基础设施不断进步的今天,学术界和工业界一直在探索新的计算范式,以充分利用计算能力。Meta Computing是一种新兴的计算范式,旨在利用互联网上所有可用的计算资源,为任何任务或个人提供高效、容错和个性化的服务,并具有强大的安全和隐私保障。简而言之,Meta Computing将互联网虚拟化为一个巨大的计算机,即“网络即计算机(NaaC)”,或简称为“Meta Computer”。

背景

自20世纪60年代以来,计算范式经历了显著的发展,从最初的客户端-服务器模型演变为云计算、物联网(IoT)和边缘计算等新型模型。这些范式的发展主要是基于高性能后端、个人电脑前端和物联网终端端的基础设施类型。然而,随着对各种计算资源需求的增加,客户端-服务器模型沿着三个方向发展,而这些方向在20世纪末之前用户群体和应用领域几乎没有重叠。这种融合突显了计算能力供需之间的巨大差距,即计算资源(CPU、带宽等)的线性增长无法满足终端设备不断产生的海量数据的指数级增长需求。这一矛盾推动了边缘计算的出现,其核心主题是实现云-边-端协调,充分利用网络边缘的闲置计算资源进行数据处理,只有在更近的资源不足以处理时才将计算任务转移到更远的资源,从而减轻网络核心的大规模数据传输压力和云上的昂贵数据处理,同时提高实时性能和安全性。

现有的计算范式有以下问题:(1)终端物联网资源未得到充分利用。(2)全网计算能力整合存在障碍。(3)当前计算范式缺乏较强的容错能力。一方面,服务提供商之间由于缺乏信任而无法协调以实现尽可能多地利用附近可用计算资源的目标;另一方面,目前的工作主要集中在边缘资源的利用上,很大程度上忽略了无处不在且具有空闲计算能力的终端设备。基于这个背景,一种新的计算范式元计算被提出,旨在充分利用连接在互联网上的所有可用计算资源,打破计算能力孤岛的障碍,实现适应低端设备的容错网络计算。元计算的终极目标是将互联网变成一个分布式的巨型计算能力池,以满足不断增长的计算能力需求。元计算是推动计算范式向下一代发展的重要一步。元计算的基础在于云计算、边缘计算和物联网计算的最新进展。

元计算定义

Meta Computing是一种新的计算范式,它旨在利用互联网上所有可用的计算资源,提供高效、容错和个性化的服务,并具有强大的安全和隐私保障。它将互联网虚拟化为一个巨大的计算机,即“网络即计算机(NaaC)”,或简称为“Meta Computer”。元计算的核心内容为:

(1)最大限度利用连接在互联网上的所有可用计算资源。为了解决当前计算范式的限制,就需要创新技术,有效整合云、边缘、终端三层的计算资源,打破设备所有者、制造商、服务提供商的多样性和异构性壁垒。

(2)使用零信任的容错计算。必须假设操作环境是不可信的,或者所涉及的实体之间是零信任的,以考虑最坏的情况,并且硬件和软件随时可能出现故障。因此,必须具备容错能力,并强调计算结果的可验证正确性,而不是像传统的计算范式那样依赖于完美可信的硬件和软件来保证计算结果的正确性。对不同服务提供者和应用领域的各种异构资源的集成是对系统容错需求的主要驱动。

(3)构建元计算机并满足任何任务或任何人的需求。元计算将整个互联网按需虚拟化成一台计算机,底层的资源整合和管理对终端用户是透明的,同时保证终端用户在任何时间、任何地点都能获得足够的计算能力来满足人的需求。

体系结构

基于Meta Computing的定义,一个元计算机体系结构的设计目标如下:(1)基于零信任的容错计算;(2)云-边-端资源整合,使整个网络成为计算能力基础设施;(3)将网络虚拟化为元计算机。这些目标旨在解决下一代信息系统和应用(如元宇宙和Web 3.0)面临的信任、计算能力和服务这三个关键问题。

元计算机体系结构由中间件和物理硬件&软件组成,即元计算机由中间件驱动,赋能元计算。它包括(1)设备管理模块(2)零信任计算模块和(3)一些辅助模块,以及云/边缘端设备资源等等。

设备管理模块将海量异构设备的资源抽象为资源调度器可以自由操控的对象,包含设备管理器与资源调度器两部分。

(1)设备管理器(Device Manager) 是链接底层设备与中间件的重要组成主要功能是将海量异构设备的资源抽象为资源调度器可以自由操控的对象。主要做法是将设备的内存、存储、CPU/GPU等映射到一个共享资源空间(Shared Resource Space,SRS)中,可以看作将海量异构设备抽象为一台巨大的计算机。该技术能够最大程度抽象底层设备将设备管理器与资源管理器去耦合,当设备发生变动时,动态更新共享资源空间,有利于高效调度资源。另外,共享资源空间能够避免上层组件过多考虑底层异构设备的特点,当某个具体计算任务下发时,上层组件无需考虑设备异构性,而只需要面向SRS编程。由此中间件操纵“一台”计算机的难度将远低于操纵多台计算机。

(2)资源调度器(Resource Scheduler)则根据资源描述动态执行在线调度和优化应用程序,负责为每个任务分配适当的资源,并为最终的收入计算计算资源利用率。它将(1)不断地感知设备管理器报告的底层硬件配置细节的变化,(2)动态地对提交的任务和任务组执行在线(重新)编译和(重新)优化,(3)动态地将生成的任务工件分发到合适的节点,从而满足任务性能规范中的约束,优化资源(例如内存、功率、带宽、延迟等)的利用。(4)不断保证任务的可靠性和安全性符合规定的等级。

零信任计算模块包含身份与权限管理器、任务管理器与零信任计算管理器。主要功能为根据合法用户提交的任务需求直接从设备管理模块调度计算资源,利用零信任计算管理器支持强容错的计算能力输出可验证的计算结果并完成收益分配。

(1)身份和访问管理器:与任务管理器和分布式分类账一起工作,以基于功能的方式共享信息并确保安全和细粒度的访问控制。功能是授予某些操作访问权限的不可伪造令牌。只有当用户或任务显式地委托或授予已经具有对资源的能力的另一个用户或任务时才能访问它们。例如,如果用户A需要使用用户B的数据,则A必须具有合法身份,并提供B授予的访问该数据的适当能力。

(2)任务管理器:接收来自用户的请求并对其进行预处理。它根据各种约束(例如,实时约束、资源/预算限制、任务关键性、数据安全级别等)对任务进行分解,指定输入和输出、数据存储位置、数据边界和数据流。它还负责转换任务,以便它们可以由资源调度程序处理。

(3)零信任计算管理器:提供了一个安全和容错计算的可信环境,负责通过区块链确保状态的一致性。区块链为创建零信任环境建立了先例,利用区块链技术,可以在零信任的基础上为用户建立可信的计算环境。区块链有两种常用的计算模型:链上计算和链下计算。链上计算具有较强的一致性和安全性,在一定程度上牺牲了计算效率;相反,脱链计算减少了链上计算的负担,由于相应的计算过程没有直接受到链的保护,从而牺牲了计算的安全性。为了支持不同信任和安全级别下的计算,零信任计算管理器根据信任的局部性选择合适的计算方法,并根据节点的信任程度及其所需的安全级别建立可信的计算环境。

用户:每个用户在网络上都有一个唯一的数字身份,这样他们就可以被识别和验证。有了这个标识,用户就可以提交各种计算任务的请求,比如模型训练、数据共享和数据处理。请求只包括任务程序、输入、支付金额、预期输出等相关信息,与元计算机的硬件配置细节是正交的:(1)硬件细节是时变的;(2)任务到特定硬件资源的映射由元计算机根据任务规范处理;(3)任务程序侧重于描述算法而不是实现工件,以便元计算机中间件可以根据当前硬件资源配置细节执行在线优化。为了维持可行的经济模式,用户还拥有私人钱包账户,以便(1)支付消费租金,(2)通过网络提供计算资源获得利益。

特别地,用户对元计算中间件“无感知”即并不需要掌握中间件的技术细节也无需遵循中间件制定的特定要求,因此对于用户来说整个网络就像一台完整的计算机具备强大的易用性与灵活性。

可能的挑战

Meta Computing面临的挑战包括:

  1. 全面资源整合:如何整合整个网络中的所有资源,包括计算能力、内存容量、存储容量和通信质量,以及它们的可靠性和能效,是一个主要挑战。

  2. 零信任计算:如何在潜在的零信任或低信任网络中协作完成计算任务,尤其是在涉及安全漏洞和误算的情况下。

  3. 编程范式:Meta Computing的编程范式需要描述计算任务的算法(“做什么”)而不是其实现细节(“怎么做”),这要求一个元编译器在程序执行过程中动态执行分析、优化和重新优化,以应对计算拓扑的变化。

  4. 安全和隐私:在Meta Computing环境中,用户可能会对使用应用程序或存储数据,尤其是输入敏感数据时的安全性和隐私保护有所顾虑。如何创建一个访问管理组件,以确保精确的访问控制和严密监控用户数据访问活动,是一个需要解决的问题。

Meta Computing作为一种创新的解决方案,旨在解决日益严重的计算能力短缺问题,为学术界和工业界开辟了一个新的领域,以发明新技术来应对零信任或低信任计算环境以及错误倾向和异构低端无处不在的终端设备的挑战。

工业互联网的应用:

与因特网的发展类似,元计算的主要发展思路是“由局部过渡到整体”,从小范围的区域内进行典型示范,逐渐扩展到跨地域计算,最终实现全球化的元计算。推动这个发展进程主要依靠元计算的激励机制。总体来讲,元计算最主要的激励作用在于通过中间件合理利用、分配空闲资源,为用户和资源拥有者之间构建桥梁,提高资源利用率的同时降低资源使用成本。具体来说,元计算的激励作用可在两个层次展开。小范围组织可以是一个实验室、一个智能家居环境等等,设备可以自由注册、接入元计算机,在空闲时间提供算力,在非空闲时间暂停服务。上述过程能够提高组织内部的运行效率,整合内部算力资源(第一层激励)。进一步,独立分散的组织可以接入主网,零信任计算机制保障设备安全性不受影响,因此免除了用户对于安全性的忧虑。组织提供算力可获得主网上的收益(第二层激励),这一过程能够激励组织参与主网,帮助元计算进一步整合网络上的可用资源。

工业互联网是新一代信息通信技术融合工业生态的基础设施,强调人机物的全面连接与产业全覆盖的价值体系。另一个与工业互联网接近的概念是工业物联网(Industrial Internet of Things,IIoT)。从技术特点来看,工业物联网是物联网技术与工业的融合,更强调利用云、边、工业设备之间的协同实现对生产的管控;工业互联网则强调利用互联网基础设施实现上层不同工业实体网络之间的互联与数据流通。

元计算可从多维度推动工业互联网的发展:(1)工业互联网的重要目标之一是实现工业生产知识的集成和复用,与因特网集结人类生产知识类似。元计算强调的零信任环境与激励作用,能够赋予知识生产者更高的价值回报,以此促进知识的传播速度。(2)进一步,工业互联网将像人类大脑一样,在知识积累基础上进行思考与决策,即实现工业互联网的智能化,这种思考与决策在底层即体现为复杂的计算过程(例如推荐算法、知识蒸馏)。元计算的主要特点正是提供充分的算力需求,为分布式数据采集、存储、训练学习等技术提供基础设施。工业互联网架构从上层一直延伸到设备端,元计算的算力也充分囊括了端设备的算力资源,可以与工业互联网架构完美匹配。(3)最后,工业互联网需要跨领域、跨地域的大范围人机物协同决策。元计算机能够提供的跨平台、跨应用服务体系可满足上述需求,整个网络以一体化的形式呈现,打破了领域、地域等因素带来的隔阂,人机物协同的实时性也将得到保障。

总结:

元计算,这是一种新的计算范式,旨在将整个互联网及其连接的资源转变为一个巨大的计算能力池,以实现具有强实时性和安全性要求的新兴数据密集型应用。元计算为学术界和工业界发明新技术,应对零信任或低信任计算环境以及易出错、异构的低端泛在终端设备带来的挑战开辟了新的舞台。在元计算技术的推动下,互联网可以被虚拟成一个元计算机,具有足够的计算能力,可以处理任何任务或任何人,而底层的按需资源分配和信任管理对最终用户是透明的。在本文中,我们还提出了一种元计算机体系结构,并分析了其设计目标和挑战。元计算被认为是解决日益严重的计算能力短缺问题的一种创新方法。