地瓜LLM的整体开发步骤主要包括环境部署、大模型量化以及端侧部署。
这一阶段中,您需要按照我们的要求完成开发环境以及运行环境(端侧)的正确安装部署,以便进行后续的流程,详细介绍可参考环境部署 章节的介绍。
这一阶段中,需要您在HuggingFace下载您所需的大语言模型,我们会将这个模型转换为能够在地瓜平台上部署的格式, 以便进行下一步的推理,包括如下步骤:
获取原始模型,我们支持的模型类型包括:
开源的Hugging Face格式的 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、InternLM2-1.8B、Qwen2.5-1.5B、Qwen2.5-7B、Qwen2.5-1.5B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-Omni-3B 模型。
自行训练得到的大语言模型,要求与上方提到的Hugging Face格式的模型结构一致。
模型量化(也可直接使用我们提供的转换好的模型跳过此步):
通过 oellm_build 命令行工具进行转换编译,构建能够部署在地瓜平台上部署的模型,在构建过程中可根据实际使用情况对量化参数进行设置。
得到的 *.hbm 文件用于后续的端侧部署。
这一阶段中,可以进行上一阶段我们得到的量化后模型的实际部署和推理运行,包括如下步骤:
交叉编译工具链配置,此过程需要正确解压交叉编译工具链安装包并配置路径。
通过预提供的编译脚本生成用于端侧部署的可执行文件。
端侧推理运行,准备好全部用于端侧部署的模型、可执行文件以及依赖文件之后,在端侧运行可执行文件,运行完成后即可进行端侧的推理运行,此时可进行对话测试。
资源释放,在完成运行流程后,销毁推理任务接口,释放占用的资源。
环境部署、模型量化以及端侧部署三个步骤共同构成了完整的D-Robotics-LLM的开发流程,确保大语言模型能够成功完成转换、调优,最终在地瓜平台上实现高效部署。