Aralık 13 2024

Kendi Lokalinizde LLM Çalıştırmak: Ollama Kurulum Rehberi

Son dönemde yapay zeka hayatımızın merkezine oturdu ancak veri güvenliği, yani privacy konusu hâlâ büyük bir soru işareti. İşte tam da bu yüzden, bulut servislerine bağımlı kalmadan kendi bilgisayarınızda bir local llm (yerel büyük dil modeli) çalıştırmak altın değerinde bir alternatif haline geldi. Bu rehberde, Mac ve Linux üzerinde llama, mistral ve Phi-3 gibi dev modelleri saniyeler içinde ayağa kaldırmanızı sağlayan sihirli aracımız ollama kurulumunu ve gerçek dünya testlerimizi ele alacağız.

Neden Local LLM? (Neden OpenAI Değil?)

Şimdi dürüst olalım; ChatGPT, Claude veya Gemini gibi devler harika çalışıyor. Ancak her prompt gönderdiğinizde verilerinizin o şirketlerin sunucularına gittiğini, modellerini eğitmek için kullanılabileceğini biliyorsunuz. Eğer şirket sırrı barındıran kodlar yazıyorsanız, günlük tutuyorsanız veya sadece kişisel verilerinizin güvende kalmasını istiyorsanız bulut modelleri risklidir.

Kendi lokalinizde model çalıştırmak ise size şu avantajları sağlar:

Sonsuz Gizlilik (Privacy): İnternet kablosunu çekseniz bile modeliniz çalışmaya devam eder. Hiçbir veri bilgisayarınız dışına çıkmaz.
Sıfır Maliyet: API anahtarlarına, aylık abonelik ücretlerine son.
Özelleştirme Özgürlüğü: Modeli kendi dökümanlarınızla besleyebilir, tamamen kendi ihtiyaçlarınıza göre ayarlayabilirsiniz.

Ollama Nedir ve Nasıl Kurulur?

Eskiden yerel bilgisayarda model çalıştırmak; karmaşık kütüphanelerle, CUDA sürücüleriyle ve terminal hatalarıyla boğuşmak demekti. Ollama, tüm bu karmaşayı tek bir paketle çözen, Docker benzeri çalışan bir komut satırı aracıdır.

macOS Kurulumu

Mac kullanıyorsanız kurulum oldukça basittir. Homebrew kullanıyorsanız terminali açıp şu komutu yazmanız yeterli:

brew install ollama

Alternatif olarak, Ollama’nın resmi web sitesinden .dmg dosyasını indirip klasik yöntemle de kurabilirsiniz.

Linux Kurulumu

Linux (Ubuntu/Debian) kullanıcıları için tek bir curl komutu işi çözüyor:

curl -fsSL https://ollama.com/install.sh | sh

[Görsel: Ollama Linux terminal kurulum ekranı ve başarıyla tamamlandı mesajı]

Modelleri Deniyoruz: Llama 3, Mistral ve Phi-3

Kurulum bittikten sonra arkamıza yaslanıp en popüler açık kaynaklı modelleri test etmeye başlayabiliriz. Promis etmek yok, deniyoruz ve raporluyoruz!

1. Llama 3 (Meta’nın Güçlü Oyuncusu)

Meta’nın açık kaynak dünyasına hediyesi olan Llama 3 (8B parametreli versiyonu), genel sohbet ve Türkçe anlama konusunda oldukça başarılı. Çalıştırmak için şu komutu yazıyoruz:

ollama run llama3

Test Raporumuz: Türkçe dil desteği şaşırtıcı derecede akıcı. Şiir yazmasını veya teknik bir konuyu açıklamasını istediğimizde kelime haznesi oldukça genişti. Ancak 8 milyar parametre, en az 16 GB RAM’e sahip bilgisayarlarda tam performans veriyor.

2. Mistral (Avrupa’nın Hızlı Kodcusu)

Fransa menşeili Mistral, özellikle kod yazma ve mantıksal akıl yürütme konularında çok popüler. Çalıştırmak için:

ollama run mistral

Test Raporumuz: Mistral, Llama 3’e göre biraz daha “doğrudan konuya giren” bir karaktere sahip. Kod blokları oluştururken daha az hata yaptı. İngilizce performansı muazzam, Türkçe performansı ise fena değil.

3. Phi-3 (Küçük Ama Zehir Gibi)

Microsoft’un geliştirdiği Phi-3, “küçük dil modelleri” (SLM) kategorisinin liderlerinden biri. Sadece 3.8B parametreye sahip. Çalıştırmak için:

ollama run phi3

Test Raporumuz: Şaşkınız! Çok az kaynak tüketmesine rağmen yanıt hızları inanılmaz yüksek. Eğer GPU’nuz yoksa ve işlemci (CPU) üzerinden çalışıyorsanız, kullanmanız gereken model kesinlikle Phi-3’tür.

[Görsel: Terminalde ollama run phi3 komutu ile sorulan bir soruya gelen anlık cevap ekranı]

Grafik Arayüz Olmadan Olmaz: Open WebUI Entegrasyonu

Terminalde çalışmak havalı olsa da, günlük kullanımda ChatGPT benzeri bir web arayüzü arıyoruz. İşte burada devreye Open WebUI giriyor. Docker yüklü bilgisayarınızda şu tek satırlık komutla arayüzü ayağa kaldırabilirsiniz:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Tarayıcınızdan http://localhost:3000 adresine girdiğinizde, Ollama’ya indirdiğiniz tüm modelleri seçebileceğiniz, sohbet geçmişinizi tutabileceğiniz harika bir arayüz sizi karşılar.

[Görsel: Open WebUI arayüzü, Llama 3 modeli seçilmiş ve sol tarafta geçmiş sohbetler listeleniyor]

GPU Olmadan Performans Optimizasyonu Nasıl Yapılır?

Eğer güçlü bir ekran kartınız (GPU) yoksa, LLM çalıştırmak bilgisayarınızı bir kalorifer peteğine dönüştürebilir. Ancak üzülmeyin, bazı optimizasyonlarla CPU üzerinden de verim almak mümkün:

Kuantize Modeller Seçin: Ollama varsayılan olarak modellerin kuantize edilmiş (sıkıştırılmış, örn: Q4_K_M) versiyonlarını indirir. Bu, modelin doğruluğunu neredeyse hiç kaybetmeden RAM kullanımını yarı yarıya düşürür.
Sistem Belleğini Boşaltın: Modeli çalıştırmadan önce arka plandaki tarayıcı sekmelerini ve RAM canavarı uygulamaları kapatın. Bellek yetersiz kaldığında sistem diskten (swap) yemeye başlar ve hız yerlerde sürünür.
Doğru Boyutu Seçin: GPU’nuz yoksa 8B veya daha büyük modeller yerine 3B (Phi-3) ya da Qwen 1.5B gibi mikro modelleri tercih edin. Yanıt hızınız saniyede 1-2 kelimeden saniyede 15-20 kelimeye fırlayacaktır.

Karşılaştırma Tablosu: Yerel (Local) vs Bulut (Cloud)

Hangi senaryoda hangisini tercih etmelisiniz? İşte net bir karşılaştırma:

Özellik	Ollama (Local LLM)	Cloud APIs (OpenAI/Claude)
Fiyat	Tamamen Ücretsiz	Kullandığın kadar öde / Aylık abonelik
Gizlilik (Privacy)	Maksimum (Veri dışarı çıkmaz)	Düşük (Sunucuya gönderilir)
İnternet Gereksinimi	Gerekmez (Çevrimdışı çalışır)	Zorunlu
Hız	Bilgisayarınızın gücüne bağlı	Genellikle çok hızlı
Donanım İhtiyacı	Yüksek RAM / İyi GPU önerilir	Sıfır donanım ihtiyacı

Fiyat ve Ücretsiz Alternatifler

Ollama tamamen ücretsiz ve açık kaynak kodlu bir araçtır. Ancak donanımınız yerel modeller için yetersiz kalıyorsa ve yine de gizlilik odaklı, uygun maliyetli alternatifler arıyorsanız şunlara göz atabilirsiniz:

LM Studio: Ollama’ya en büyük alternatif. Kod yazmadan, tamamen görsel bir arayüz üzerinden yerel modelleri indirip çalıştırmanızı sağlar (Ücretsiz).
AnythingLLM: Belge analizi (RAG) odaklı çalışan, yerel modellerle entegre olabilen ücretsiz bir masaüstü uygulaması.
Groq: Eğer lokalde çalıştıramayacak kadar eski bir bilgisayarınız varsa, Groq bulut üzerinde Llama 3 ve Mistral modellerini ultra yüksek hızlarda ve şu an için oldukça cömert ücretsiz limitlerle sunuyor.

Son Söz

Kendi bilgisayarınızda çalışan, sizin sözünüzden çıkmayan ve verilerinizi kimseyle paylaşmayan bir yapay zekaya sahip olmak inanılmaz bir lüks. Ollama, bu lüksü herkes için erişilebilir kılıyor. Kurulumu yapın, Phi-3 veya Llama 3’ü indirin ve terminalden yapay zekaya “Merhaba” deyin. Gerçek gücün kendi donanımınızda olduğunu hissetmek paha biçilemez.

Posted 13 Aralık 2024 by Kerem Danış in category "Genel