FedDAT:一种多模态异构联邦学习中的基础模型微调方法
FedDAT:一种多模态异构联邦学习中的基础模型微调方法FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning
[2308.12305] FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning
摘要:近年来,基础模型在多模态学习中取得了显著进展,但通常需要大量数据进行微调。联邦学习(FL)作为一种很有前途的解决方案出现,使多个客户端能够协作训练神经网络,而无需集中其本地数据。为了减轻客户端的计算负担和通信开销,已有工作针对FL采用了参数高效微调(PEFT)方法,从而在联邦通信中只对一小部分模型参数进行优化和通信。然而,大多数之前的工作都专注于单一的模式,而忽视了一个常见的现象,即客户端之间存在数据异构。因此,在这项工作中,我们提出了一个针对异构多模态FL的微调框架,称为联邦双适配器教师(federald ...
FLORA:具有异构低秩适应的联邦微调大型语言模型
FLORA:具有异构低秩适应的联邦微调大型语言模型FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations
[2409.05976] FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations
摘要:微调LLM,由于其庞大的参数规模,对FL中资源受限和异构的客户端提出了挑战。以前的方法采用低秩自适应(LoRA)进行有效的联邦微调,但在LoRA适配器上使用传统的FL聚合策略。这些方法导致数学上不准确的聚合噪声,降低了微调效率,并且未能解决异构LoRA。在这项工作中,我们首先强调现有联邦微调方法中LoRA聚合的数学错误。
我们引入了一种新的方法,称为FLORA,通过一种新的基于堆叠的聚合方法,可以跨客户端对异构LoRA适配器进行联合微调。我们的方法是无噪声的,并且无缝地支持异构LoRA适配器。大量的实验证明了FLORA在同构和异构环境中的上级性能, ...
非均匀数据的个性化联邦微调,一种两层低秩自适应方法
非均匀数据的个性化联邦微调:一种两层低秩自适应方法 PERSONALIZEDFEDERATEDFINE-TUNINGFORHET EROGENEOUS DATA: A TWO-LEVEL LOW RANK ADAPTATIONAPPROACH
[2503.03920v1] Personalized Federated Fine-tuning for Heterogeneous Data: An Automatic Rank Learning Approach via Two-Level LoRA
摘要:我们在基础模型的上下文中研究了具有异构客户端数据的个性化联邦微调任务,其中客户端协作微调基础模型虽然最近的努力已经应用了参数高效的微调技术,如低秩自适应(LoRA)或联合设置中的训练提示,他们经常忽视数据异构性和模型个性化。主要的挑战是单个公共适配器或提示学习器可能不足以满足所有客户端的不同数据。为了解决这个问题,我们提出了PF2LoRA,提出了一种新的个性化联邦微调算法,在LoRA之上的低级别自适应框架。给定权重被冻结的预训练基础模型,我们的算法旨在同时学习两个级别的自适应:第一级旨在 ...
FedFMSL:使用稀疏激活LoRA的基础模型的联邦学习
FedFMSL:使用稀疏激活LoRA的基础模型的联邦学习FedFMSL: Federated Learning of Foundation Models With Sparsely Activated LoRA
FedFMSL: Federated Learning of Foundation Models With Sparsely Activated LoRA | IEEE Journals & Magazine | IEEE Xplore
摘要:抽象基础模型(Abstract-Foundation Models,简称FM)在自然语言处理等中取得了巨大的成功。FM具有大量的模型参数,因此,在训练过程中需要大量的数据来帮助优化模型。联邦学习通过从分散的数据中进行协作学习,同时仍然保护客户的数据隐私,从而彻底改变了机器学习。模型可以通过联邦学习来增强,其庞大的模型参数给现代网络带来了严峻的通信挑战,特别是对边缘设备带来了计算挑战。此外,不同客户端的数据分布可能不同,从而导致统计挑战。我们提出了一个新的两个-阶段联邦学习算法称为FedFMSL。在第一阶段训练全局专家,在第二阶段训 ...
LORA:大型语言模型的低阶自适应
论文阅读:LORA-大型语言模型的低阶自适应LoRA: Low-Rank Adaptation of Large Language Models
[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models
摘要:对于大模型,重新训练所有模型参数的完全微调变得不太可行,代价高昂。我们提出了低秩自适应(Low-Rank Adaptation,简称LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数数量。与使用Adam微调的GPT-3 175 B相比,LoRA可以将可训练参数的数量减少10,000倍,将GPU内存需求减少3倍。LoRA在RoBERTa,DeBERTa,GPT-2和GPT-3上的模型质量方面表现相当或优于微调,尽管具有更少的可训练参数,更高的训练吞吐量,并且与适配器不同,没有额外的推理延迟。我们还提供了对语言模型自适应中的秩不足的实证调查,这揭示了LoRA的功效。我们发布了一个包,便于LoRA与PyTorch模型的集成,并提供了我 ...
手机端部署deepseek模型-1.5B
手机端部署deepseek模型-1-5B简介:用ggml中的llamacpp部署deepseek1.5b在手机端,使用cpu运行大模型。
实验过程(手机端推理时间测试)
横着是prompt长度,纵轴是影响时间
实验思路就是找一组prompt,丢给它,从它生成回复到结束的时间,计时下来,然后放到excel表中,或者拿Python或excel内置的图表,绘一个折线图
本来和量化都要,本来的有一条折线,量化一条,不同的量化方案对应不同的折线
量化方案选取:
无量化
./build/bin/llama-cli -m DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf -cnv
Q2_K
./build/bin/llama-quantize DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-Q2_K.ggu ...
FlexNN_Efficient_and_Adaptive_DNN_Inference_on_Memory_Constrained_Edge_Devices
FlexNN: Efficient and Adaptive DNN Inference on Memory-Constrained Edge Devices题目:FlexNN:基于内存约束边缘设备的高效自适应深度神经网络推理
出处:ACM MobiCom
时间:2024.11
作者:Xiangyu Li,Institute for AI Industry Research(AIR), Tsinghua University Beijing, China
代码:xxxxyu/FlexNN: Code for ACM MobiCom 2024 paper “FlexNN: Efficient and Adaptive DNN Inference on Memory-Constrained Edge Devices”
摘要由于深度神经网络(DNN)的普及以及对网络开销、数据隐私和推理延迟的考虑,近年来人们对将DNN部署到边缘设备越来越感兴趣。然而,有限的内存成为设备上DNN部署的主要瓶颈,因此减少DNN的内存占用至关重要。主流的模型定制解决方案需要大量的部署工作,并且可能导致严重的精度下降 ...
Asteroid_Resource_Efficient_Hybrid_Pipeline_Parallelism_for_Collaborative DNN_Training_on_Heterogeneous_Edge_Devices
Asteroid_Resource_Efficient_Hybrid_Pipeline_Parallelism_for_Collaborative DNN_Training_on_Heterogeneous_Edge_Devices题目:小行星:异构边缘设备上协同DNN训练的资源高效混合管道并行
出处:ACM MobiCom
时间:2024.11
作者:Shengyuan Ye等
代码:Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices | Papers With Code
摘要设备上深度神经网络(DNN)训练已被认为是边缘保护隐私的机器学习的关键。然而,密集的训练工作量和有限的机载计算资源对模型训练的可用性和效率提出了重大挑战。虽然现有的工作通过本地资源管理优化来解决这些挑战,但我们利用我们的观察,即边缘环境通常包含一组丰富的随附可信边缘设备,这些设备具有超出单个终端的空闲资源。我们提出了一个分布式边缘 ...
元计算Meta Computing总结
元计算总结:Meta Computing互联网计算的新范式概要在信息基础设施不断进步的今天,学术界和工业界一直在探索新的计算范式,以充分利用计算能力。Meta Computing是一种新兴的计算范式,旨在利用互联网上所有可用的计算资源,为任何任务或个人提供高效、容错和个性化的服务,并具有强大的安全和隐私保障。简而言之,Meta Computing将互联网虚拟化为一个巨大的计算机,即“网络即计算机(NaaC)”,或简称为“Meta Computer”。
背景自20世纪60年代以来,计算范式经历了显著的发展,从最初的客户端-服务器模型演变为云计算、物联网(IoT)和边缘计算等新型模型。这些范式的发展主要是基于高性能后端、个人电脑前端和物联网终端端的基础设施类型。然而,随着对各种计算资源需求的增加,客户端-服务器模型沿着三个方向发展,而这些方向在20世纪末之前用户群体和应用领域几乎没有重叠。这种融合突显了计算能力供需之间的巨大差距,即计算资源(CPU、带宽等)的线性增长无法满足终端设备不断产生的海量数据的指数级增长需求。这一矛盾推动了边缘计算的出现,其核心主题是实现云-边-端协调,充分利用网 ...
plato运行测试
程序运行
plato运行测试今天安装、配置并且运行了plato,完成一个其中的小实验FedAtt,结果如下:
最终的运行结果:[Server #29348] Global model accuracy: 78.44%