oellm_build工具是地瓜提供的将原始浮点模型映射为量化模型的工具。基于原始浮点模型、json配置文件(可选)和校准数据(可选)完成模型的量化及编译,最终生成可用于部署的*.hbm模型。
| 参数名称 | 参数说明 | 可选/必选 |
--model_name | 参数描述:模型名称。 | 必选 |
--input_model_path | 参数描述:指定浮点模型路径。 | 必选 |
--output_model_path | 参数描述:用于保存量化编译后生成的模型路径。 | 必选 |
--march | 参数描述:指定产生出上板模型需要支持的平台结构。 | 必选 |
--calib_text_path | 参数描述:用于设置文本calibrate数据所在路径,支持配置单个json文件路径或者文件夹路径。 | 可选 |
--calib_conversation_path | 参数描述:用于设置校准数据所在路径,仅支持配置单个json路径或者文件夹路径。 | 可选 |
--chunk_size | 参数描述:用于指定输入chunk size。 | 可选 |
--cache_len | 参数描述:用于指定kv cache大小。
| 可选 |
--device | 参数描述:用于设置使用的计算设备。 | 可选 |
文本calibrate数据json配置文件,参考示例如下:
Qwen2.5-Omni模型所需calibrate数据json配置文件,参考示例如下:
配置文件参数说明:
(1) 当"role"为"system"时,content列表中的第一个元素必须是文本元素,且包含text字段,否则会在格式化模板时访问不到text而报错。
支持在同一conversation中存在多个system消息,但是首条必须是文本元素,且包含text字段。除首条以外,其他system消息支持类型包含text,audio,image,video。
(2) 当"role"为"user"时,content列表中支持类型包含text,audio,image,video。具体规则如下:
content列表支持两种消息组织形式:
同一类型的消息:可包含单个或多个(如多个text消息、多个image消息,多个video消息,多个audio消息)。
不同类型的消息:可将多种类型组合(如text+image+audio消息搭配)。
当content列表中类型为"text"时:
格式限制:无特殊格式要求,纯文本、带标点的句子、短句指令、长段落等均支持。
来源支持:无固定来源限制。
参考示例:
当content列表中类型为"video"时:
格式限制:MP4、MKV。
来源支持:本地视频文件、本地文件URL(file://)、网络URL(http(s)://)。
参考示例:
当content列表中类型为"image"时:
格式限制:PNG、JPG、JPEG、BMP。
来源支持:本地图像文件、本地文件URL(file://)、网络URL(http(s)://)、Data URI。
参考示例:
当content列表中类型为"audio"时:
格式限制:WAV、MP3、FLAC。
来源支持:本地音频文件、本地文件URL(file://)、网络URL(http(s)://)、Data URI。
参考示例:
DeepSeek-R1-Distill-Qwen模型使用oellm_build工具进行模型量化,参考命令如下:
DeepSeek-R1-Distill-Qwen模型使用oellm_build工具进行模型量化,并对量化生成的HBM模型进行一致性校验,参考命令如下:
InternLM2模型使用oellm_build工具进行模型量化,参考命令如下:
Qwen2.5模型使用oellm_build工具进行模型量化,参考命令如下:
Qwen2.5-Omni模型使用oellm_build工具进行模型量化,参考命令如下: