手机端部署deepseek模型-1.5B
手机端部署deepseek模型-1-5B简介:用ggml中的llamacpp部署deepseek1.5b在手机端,使用cpu运行大模型。
实验过程(手机端推理时间测试)
横着是prompt长度,纵轴是影响时间
实验思路就是找一组prompt,丢给它,从它生成回复到结束的时间,计时下来,然后放到excel表中,或者拿Python或excel内置的图表,绘一个折线图
本来和量化都要,本来的有一条折线,量化一条,不同的量化方案对应不同的折线
量化方案选取:
无量化
./build/bin/llama-cli -m DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf -cnv
Q2_K
./build/bin/llama-quantize DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf DeepSeek-R1-Distill-Qwen-1.5B/DeepSeek-R1-Distill-Qwen-1.5B-Q2_K.ggu ...
FlexNN_Efficient_and_Adaptive_DNN_Inference_on_Memory_Constrained_Edge_Devices
FlexNN: Efficient and Adaptive DNN Inference on Memory-Constrained Edge Devices题目:FlexNN:基于内存约束边缘设备的高效自适应深度神经网络推理
出处:ACM MobiCom
时间:2024.11
作者:Xiangyu Li,Institute for AI Industry Research(AIR), Tsinghua University Beijing, China
代码:xxxxyu/FlexNN: Code for ACM MobiCom 2024 paper “FlexNN: Efficient and Adaptive DNN Inference on Memory-Constrained Edge Devices”
摘要由于深度神经网络(DNN)的普及以及对网络开销、数据隐私和推理延迟的考虑,近年来人们对将DNN部署到边缘设备越来越感兴趣。然而,有限的内存成为设备上DNN部署的主要瓶颈,因此减少DNN的内存占用至关重要。主流的模型定制解决方案需要大量的部署工作,并且可能导致严重的精度下降 ...
Asteroid_Resource_Efficient_Hybrid_Pipeline_Parallelism_for_Collaborative DNN_Training_on_Heterogeneous_Edge_Devices
Asteroid_Resource_Efficient_Hybrid_Pipeline_Parallelism_for_Collaborative DNN_Training_on_Heterogeneous_Edge_Devices题目:小行星:异构边缘设备上协同DNN训练的资源高效混合管道并行
出处:ACM MobiCom
时间:2024.11
作者:Shengyuan Ye等
代码:Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices | Papers With Code
摘要设备上深度神经网络(DNN)训练已被认为是边缘保护隐私的机器学习的关键。然而,密集的训练工作量和有限的机载计算资源对模型训练的可用性和效率提出了重大挑战。虽然现有的工作通过本地资源管理优化来解决这些挑战,但我们利用我们的观察,即边缘环境通常包含一组丰富的随附可信边缘设备,这些设备具有超出单个终端的空闲资源。我们提出了一个分布式边缘 ...
元计算Meta Computing总结
元计算总结:Meta Computing互联网计算的新范式概要在信息基础设施不断进步的今天,学术界和工业界一直在探索新的计算范式,以充分利用计算能力。Meta Computing是一种新兴的计算范式,旨在利用互联网上所有可用的计算资源,为任何任务或个人提供高效、容错和个性化的服务,并具有强大的安全和隐私保障。简而言之,Meta Computing将互联网虚拟化为一个巨大的计算机,即“网络即计算机(NaaC)”,或简称为“Meta Computer”。
背景自20世纪60年代以来,计算范式经历了显著的发展,从最初的客户端-服务器模型演变为云计算、物联网(IoT)和边缘计算等新型模型。这些范式的发展主要是基于高性能后端、个人电脑前端和物联网终端端的基础设施类型。然而,随着对各种计算资源需求的增加,客户端-服务器模型沿着三个方向发展,而这些方向在20世纪末之前用户群体和应用领域几乎没有重叠。这种融合突显了计算能力供需之间的巨大差距,即计算资源(CPU、带宽等)的线性增长无法满足终端设备不断产生的海量数据的指数级增长需求。这一矛盾推动了边缘计算的出现,其核心主题是实现云-边-端协调,充分利用网 ...
plato运行测试
程序运行
plato运行测试今天安装、配置并且运行了plato,完成一个其中的小实验FedAtt,结果如下:
最终的运行结果:[Server #29348] Global model accuracy: 78.44%
论文阅读-A_Low_Complexity_Algorithm_with_OgenTRegretandO1Constraint_Violations_for_Online_Convex_Optimization_with_Long_Term_Constraints
论文阅读
A Low Complexity Algorithm with O($\sqrt{T}$) Regret and O(1) Constraint Violations for Online Convex Optimization with Long Term Constraints(未完待续)题目:A Low Complexity Algorithm with O($\sqrt{T}$) Regret and O(1) Constraint Violations for Online Convex Optimization with Long Term Constraints
出处:JMLR
时间:2020
作者:Hao Yu eeyuhao@gmail.comDepartment of Electrical EngineeringUniversity of Southern CaliforniaLos Angeles, CA, 90089-2565, USA
Michael J. Neely mjneely@usc.eduDepartment of Electrical E ...
论文阅读模板
论文英文题目题目:
出处:
时间:
作者:
代码:
摘要结论研究背景研究目的论文贡献相关工作论文方法方法一方法二方法三实验与结果个人想法引用内容(自用)图片引用:
论文阅读_Online_Distributed_Optimization_with_Efficient_Communication_via_Temporal_Similarity
论文阅读
Online Distributed Optimization with Efficient Communication via Temporal Similarity题目:基于时间相似性的高效通信在线分布式优化
出处:CCFA-INFOCOM
时间:2023
作者:Juncheng Wang∗, Ben Liang∗, Min Dong†, Gary Boudreau‡, and Ali Afana‡∗Department of Electrical and Computer Engineering, University of Toronto, Canada,†Department of Electrical, Computer and Software Engineering, Ontario Tech University, Canada, ‡Ericsson Canada, Canada
摘要:考虑网络系统中的在线分布式优化,其中由服务器辅助的多个设备协同最小化可能随时间变化的全局损失函数序列的积累。为了减少通信量,设备向服务器发送量化和压缩的本地决策,从而产生嘈杂 ...
计算机网络学习1
计算机网络
计算机网络学习day1