บทความ

กำลังแสดงโพสต์จาก กันยายน, 2023

OpenThaiGPT 1.0.0 7B beta GPTQ 4 bit

รูปภาพ
OpenThaiGPT 1.0.0 7B beta GPTQ 4 bit ทดสอบ การใช้งาน Model แบบ GPTQ แบบ 4 bit GPTQ-for-LLaMA 4 bits quantization of  LLaMA  using  GPTQ GPTQ is SOTA one-shot weight quantization method This code is based on  GPTQ There is a  pytorch branch  that allows you to use  groupsize  and  act-order  together. Original Model ( FP16 ) https://huggingface.co/Adun/openthaigpt-1.0.0-beta-7b-ckpt-hf GPTQ 4 bit Model https://huggingface.co/Adun/openthaigpt-1.0.0-7b-chat-beta-gptq-4bit Demo Code Text generation web UI A Gradio web UI for Large Language Models. Setting Parameters Test on  Hardware CPU : Intel i9-7900 3.3GHz GPU : NVIDIA RTX-2060 6GB Software OS  : Ubuntu 20.04.6 LTS Youtube Demo ChatBot Q&A Run Demo code    Reference GPTQ-for-LLaMa  https://github.com/amphancm/GPTQ-for-LLaMa OpenThaiGPT  https://openthaigpt.aieat.or.th/

Demo OpenThaiGPT 1.0.0-beta on Colab

รูปภาพ
Demo OpenThaiGPT 1.0.0-beta on Colab Colab code on official Website https://colab.research.google.com/drive/1NkmAJHItpqu34Tur9wCFc97A6JzKR8xo ถ้าใช้  model ตาม original colab code ที่ OpenThaiGPT Website  Model นี้จะใช้ RAM ถึง 22.6 GB เพราะเป็น model FP32 และ ต้อง Run เป็น  NVIDIA A100 GPU ไม่สามารถ run บน NVIDIA T4 GPU ที่มี ram แค่ 16GB ได้ ดังนั้น จึงต้อง convert model เป็น FP16    Convert Model to FP16 ผมได้ convert model OpenThaiGPT เป็น แบบ FP16 เพื่อสามารถ run บน NVIDIA T4 GPU ได้ ( และ เอา Base Model + LoRa adaptor แล้ว ที่ code เลยไม่ต้องมี lora_weights อีก) แล้ว upload ที่ Hugging face ตามนี้ https://huggingface.co/Adun/openthaigpt-1.0.0-beta-7b-ckpt-hf และ แก้ไข code ตามนี้ ก็สามารถ run บน NVIDIA T4 ได้ ถ้าใช้ mode 8 bit ก็จะใช้ RAM ประมาณ 8 GB Run Demo  Run Demo with Gradio สรุป การใช้ RAM แต่ละ  Quantization Model  Reference OpenThaiGPT https://openthaigpt.aieat.or.th/ Colab Code  https://colab.research.google.com/drive/1NkmAJHItpqu34Tur9wCFc97A6JzKR8xo Facebook LLaMA 7B