Spaces:

rayymaxx
/

DirectEd-AI-LoRA-API

Sleeping

rayymaxx commited on Aug 23

Commit

516d1c9

1 Parent(s): cce707f

Made changes to app structure

Files changed (4) hide show

Dockerfile CHANGED Viewed

@@ -1,18 +1,11 @@
-# Use Python 3.12
-FROM python:3.12-slim
-# Set working directory
-WORKDIR /app
-# Copy files
-COPY . .
-# Install dependencies
-RUN pip install --upgrade pip
-RUN pip install -r requirements.txt
-# Expose FastAPI port
-EXPOSE 7860
-# Run FastAPI
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

+FROM python:3.10
+WORKDIR /code
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+# Run FastAPI app with uvicorn
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -8,3 +8,16 @@ pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+# DirectEd-AI-LoRA-API 🚀
+This Hugging Face Space hosts my fine-tuned LoRA model using FastAPI.
+Endpoint: `POST /generate`
+Example request:
+```json
+{
+  "prompt": "Explain React in MERN stack.",
+  "max_new_tokens": 200,
+  "temperature": 0.7
+}

app.py → app..py RENAMED Viewed

@@ -2,30 +2,41 @@ from fastapi import FastAPI
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 from peft import PeftModel
-# --- Config ---
-BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"
-FINETUNED_ADAPTER = "rayymaxx/DirectEd-AI-LoRA"
-MAX_NEW_TOKENS = 200
-app = FastAPI(title="Directed AI FastAPI")
-# --- Load model & tokenizer once at startup ---
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-base_model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto")
-model = PeftModel.from_pretrained(base_model, FINETUNED_ADAPTER)
-text_generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")
-class Prompt(BaseModel):
     prompt: str
 @app.post("/generate")
-def generate_text(prompt_data: Prompt):
-    prompt_text = prompt_data.prompt
-    output = text_generator(prompt_text, max_new_tokens=MAX_NEW_TOKENS, do_sample=True, temperature=0.7)
     return {"response": output[0]["generated_text"]}
-@app.get("/")
-def greet_json():
-    return {"Hello": "World!"}

 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 from peft import PeftModel
+import torch
+app = FastAPI()
+# 👇 Replace with your actual repos
+BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"
+ADAPTER_REPO = "rayymaxx/DirectEd-AI-LoRA"  # your adapter repo
+# Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+# Load base model
+model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
+    device_map="auto",
+    torch_dtype=torch.float16,
+)
+# Load adapter
+model = PeftModel.from_pretrained(model, ADAPTER_REPO)
+# Pipeline
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")
+class Request(BaseModel):
     prompt: str
+    max_new_tokens: int = 150
+    temperature: float = 0.7
 @app.post("/generate")
+def generate(req: Request):
+    output = pipe(
+        req.prompt,
+        max_new_tokens=req.max_new_tokens,
+        temperature=req.temperature,
+        do_sample=True
+    )
     return {"response": output[0]["generated_text"]}

requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
 fastapi
 uvicorn
-transformers>=4.35.0
 torch
 peft
-trl

 fastapi
 uvicorn
+transformers
+accelerate
 torch
 peft