AI and IoT Platforms

บทความ

กำลังแสดงโพสต์จาก กันยายน, 2023

OpenThaiGPT 1.0.0 7B beta GPTQ 4 bit

OpenThaiGPT 1.0.0 7B beta GPTQ 4 bit ทดสอบ การใช้งาน Model แบบ GPTQ แบบ 4 bit GPTQ-for-LLaMA 4 bits quantization of LLaMA using GPTQ GPTQ is SOTA one-shot weight quantization method This code is based on GPTQ There is a pytorch branch that allows you to use groupsize and act-order together. Original Model ( FP16 ) https://huggingface.co/Adun/openthaigpt-1.0.0-beta-7b-ckpt-hf GPTQ 4 bit Model https://huggingface.co/Adun/openthaigpt-1.0.0-7b-chat-beta-gptq-4bit Demo Code Text generation web UI A Gradio web UI for Large Language Models. Setting Parameters Test on Hardware CPU : Intel i9-7900 3.3GHz GPU : NVIDIA RTX-2060 6GB Software OS : Ubuntu 20.04.6 LTS Youtube Demo ChatBot Q&A Run Demo code Reference GPTQ-for-LLaMa https://github.com/amphancm/GPTQ-for-LLaMa OpenThaiGPT https://openthaigpt.aieat.or.th/

อ่านเพิ่มเติม

Demo OpenThaiGPT 1.0.0-beta on Colab

กันยายน 23, 2566

Demo OpenThaiGPT 1.0.0-beta on Colab Colab code on official Website https://colab.research.google.com/drive/1NkmAJHItpqu34Tur9wCFc97A6JzKR8xo ถ้าใช้ model ตาม original colab code ที่ OpenThaiGPT Website Model นี้จะใช้ RAM ถึง 22.6 GB เพราะเป็น model FP32 และ ต้อง Run เป็น NVIDIA A100 GPU ไม่สามารถ run บน NVIDIA T4 GPU ที่มี ram แค่ 16GB ได้ ดังนั้น จึงต้อง convert model เป็น FP16 Convert Model to FP16 ผมได้ convert model OpenThaiGPT เป็น แบบ FP16 เพื่อสามารถ run บน NVIDIA T4 GPU ได้ ( และ เอา Base Model + LoRa adaptor แล้ว ที่ code เลยไม่ต้องมี lora_weights อีก) แล้ว upload ที่ Hugging face ตามนี้ https://huggingface.co/Adun/openthaigpt-1.0.0-beta-7b-ckpt-hf และ แก้ไข code ตามนี้ ก็สามารถ run บน NVIDIA T4 ได้ ถ้าใช้ mode 8 bit ก็จะใช้ RAM ประมาณ 8 GB Run Demo Run Demo with Gradio สรุป การใช้ RAM แต่ละ Quantization Model Reference OpenThaiGPT https://openthaigpt.aieat.or.th/ Colab Code https://colab.research.google.com/drive/1NkmAJH...

อ่านเพิ่มเติม