Spaces:

Steven10429
/

apply_lora_and_quantize

Paused

App Files Files Community

Steven10429 commited on Feb 13

Commit

1d6ffe4

1 Parent(s): ee65134

quit

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -68,8 +68,7 @@ def check_system_resources(model_name):
     if total_memory_gb >= required_memory_gb:
         log.info("✅ Sufficient CPU memory available; using CPU.")
         return "cpu", total_memory_gb
-    else:
-        raise MemoryError(f"❌ Insufficient system memory (requires {required_memory_gb:.1f}GB, available {available_memory_gb:.1f}GB).")
 @timeit
 def setup_environment(model_name):
@@ -114,19 +113,20 @@ def download_and_merge_model(base_model_name, lora_model_name, output_dir, devic
     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
-    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="auto", trust_remote_code=True, offload_folder="temp")
     log.info("Loading adapter tokenizer...")
-    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="auto", offload_folder="temp")
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
-    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="auto", trust_remote_code=True, offload_folder="temp")
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
     model.save_pretrained(output_dir)
     adapter_tokenizer.save_pretrained(output_dir)
     return output_dir
 @timeit

     if total_memory_gb >= required_memory_gb:
         log.info("✅ Sufficient CPU memory available; using CPU.")
         return "cpu", total_memory_gb
 @timeit
 def setup_environment(model_name):
     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
+    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="auto")
     log.info("Loading adapter tokenizer...")
+    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="auto")
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
+    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="auto")
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
     model.save_pretrained(output_dir)
     adapter_tokenizer.save_pretrained(output_dir)
+    del model, peft_model
     return output_dir
 @timeit