Aralık 13 2024

Kendi Lokalinizde LLM Çalıştırmak: Ollama Kurulum Rehberi

Son dönemde yapay zeka hayatımızın merkezine oturdu ancak veri güvenliği, yani privacy konusu hâlâ büyük bir soru işareti. İşte tam da bu yüzden, bulut servislerine bağımlı kalmadan kendi bilgisayarınızda bir local llm (yerel büyük dil modeli) çalıştırmak altın değerinde bir alternatif haline geldi. Bu rehberde, Mac ve Linux üzerinde llama, mistral ve Phi-3 gibi dev modelleri saniyeler içinde ayağa kaldırmanızı sağlayan sihirli aracımız ollama kurulumunu ve gerçek dünya testlerimizi ele alacağız.

Neden Local LLM? (Neden OpenAI Değil?)

Şimdi dürüst olalım; ChatGPT, Claude veya Gemini gibi devler harika çalışıyor. Ancak her prompt gönderdiğinizde verilerinizin o şirketlerin sunucularına gittiğini, modellerini eğitmek için kullanılabileceğini biliyorsunuz. Eğer şirket sırrı barındıran kodlar yazıyorsanız, günlük tutuyorsanız veya sadece kişisel verilerinizin güvende kalmasını istiyorsanız bulut modelleri risklidir.

Kendi lokalinizde model çalıştırmak ise size şu avantajları sağlar:

  • Sonsuz Gizlilik (Privacy): İnternet kablosunu çekseniz bile modeliniz çalışmaya devam eder. Hiçbir veri bilgisayarınız dışına çıkmaz.
  • Sıfır Maliyet: API anahtarlarına, aylık abonelik ücretlerine son.
  • Özelleştirme Özgürlüğü: Modeli kendi dökümanlarınızla besleyebilir, tamamen kendi ihtiyaçlarınıza göre ayarlayabilirsiniz.

Ollama Nedir ve Nasıl Kurulur?

Eskiden yerel bilgisayarda model çalıştırmak; karmaşık kütüphanelerle, CUDA sürücüleriyle ve terminal hatalarıyla boğuşmak demekti. Ollama, tüm bu karmaşayı tek bir paketle çözen, Docker benzeri çalışan bir komut satırı aracıdır.

macOS Kurulumu

Mac kullanıyorsanız kurulum oldukça basittir. Homebrew kullanıyorsanız terminali açıp şu komutu yazmanız yeterli:

brew install ollama

Alternatif olarak, Ollama’nın resmi web sitesinden .dmg dosyasını indirip klasik yöntemle de kurabilirsiniz.

Linux Kurulumu

Linux (Ubuntu/Debian) kullanıcıları için tek bir curl komutu işi çözüyor:

curl -fsSL https://ollama.com/install.sh | sh

[Görsel: Ollama Linux terminal kurulum ekranı ve başarıyla tamamlandı mesajı]

Modelleri Deniyoruz: Llama 3, Mistral ve Phi-3

Kurulum bittikten sonra arkamıza yaslanıp en popüler açık kaynaklı modelleri test etmeye başlayabiliriz. Promis etmek yok, deniyoruz ve raporluyoruz!

1. Llama 3 (Meta’nın Güçlü Oyuncusu)

Meta’nın açık kaynak dünyasına hediyesi olan Llama 3 (8B parametreli versiyonu), genel sohbet ve Türkçe anlama konusunda oldukça başarılı. Çalıştırmak için şu komutu yazıyoruz:

ollama run llama3

Test Raporumuz: Türkçe dil desteği şaşırtıcı derecede akıcı. Şiir yazmasını veya teknik bir konuyu açıklamasını istediğimizde kelime haznesi oldukça genişti. Ancak 8 milyar parametre, en az 16 GB RAM’e sahip bilgisayarlarda tam performans veriyor.

2. Mistral (Avrupa’nın Hızlı Kodcusu)

Fransa menşeili Mistral, özellikle kod yazma ve mantıksal akıl yürütme konularında çok popüler. Çalıştırmak için:

ollama run mistral

Test Raporumuz: Mistral, Llama 3’e göre biraz daha “doğrudan konuya giren” bir karaktere sahip. Kod blokları oluştururken daha az hata yaptı. İngilizce performansı muazzam, Türkçe performansı ise fena değil.

3. Phi-3 (Küçük Ama Zehir Gibi)

Microsoft’un geliştirdiği Phi-3, “küçük dil modelleri” (SLM) kategorisinin liderlerinden biri. Sadece 3.8B parametreye sahip. Çalıştırmak için:

ollama run phi3

Test Raporumuz: Şaşkınız! Çok az kaynak tüketmesine rağmen yanıt hızları inanılmaz yüksek. Eğer GPU’nuz yoksa ve işlemci (CPU) üzerinden çalışıyorsanız, kullanmanız gereken model kesinlikle Phi-3’tür.

[Görsel: Terminalde ollama run phi3 komutu ile sorulan bir soruya gelen anlık cevap ekranı]

Grafik Arayüz Olmadan Olmaz: Open WebUI Entegrasyonu

Terminalde çalışmak havalı olsa da, günlük kullanımda ChatGPT benzeri bir web arayüzü arıyoruz. İşte burada devreye Open WebUI giriyor. Docker yüklü bilgisayarınızda şu tek satırlık komutla arayüzü ayağa kaldırabilirsiniz:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Tarayıcınızdan http://localhost:3000 adresine girdiğinizde, Ollama’ya indirdiğiniz tüm modelleri seçebileceğiniz, sohbet geçmişinizi tutabileceğiniz harika bir arayüz sizi karşılar.

[Görsel: Open WebUI arayüzü, Llama 3 modeli seçilmiş ve sol tarafta geçmiş sohbetler listeleniyor]

GPU Olmadan Performans Optimizasyonu Nasıl Yapılır?

Eğer güçlü bir ekran kartınız (GPU) yoksa, LLM çalıştırmak bilgisayarınızı bir kalorifer peteğine dönüştürebilir. Ancak üzülmeyin, bazı optimizasyonlarla CPU üzerinden de verim almak mümkün:

  • Kuantize Modeller Seçin: Ollama varsayılan olarak modellerin kuantize edilmiş (sıkıştırılmış, örn: Q4_K_M) versiyonlarını indirir. Bu, modelin doğruluğunu neredeyse hiç kaybetmeden RAM kullanımını yarı yarıya düşürür.
  • Sistem Belleğini Boşaltın: Modeli çalıştırmadan önce arka plandaki tarayıcı sekmelerini ve RAM canavarı uygulamaları kapatın. Bellek yetersiz kaldığında sistem diskten (swap) yemeye başlar ve hız yerlerde sürünür.
  • Doğru Boyutu Seçin: GPU’nuz yoksa 8B veya daha büyük modeller yerine 3B (Phi-3) ya da Qwen 1.5B gibi mikro modelleri tercih edin. Yanıt hızınız saniyede 1-2 kelimeden saniyede 15-20 kelimeye fırlayacaktır.

Karşılaştırma Tablosu: Yerel (Local) vs Bulut (Cloud)

Hangi senaryoda hangisini tercih etmelisiniz? İşte net bir karşılaştırma:

Özellik Ollama (Local LLM) Cloud APIs (OpenAI/Claude)
Fiyat Tamamen Ücretsiz Kullandığın kadar öde / Aylık abonelik
Gizlilik (Privacy) Maksimum (Veri dışarı çıkmaz) Düşük (Sunucuya gönderilir)
İnternet Gereksinimi Gerekmez (Çevrimdışı çalışır) Zorunlu
Hız Bilgisayarınızın gücüne bağlı Genellikle çok hızlı
Donanım İhtiyacı Yüksek RAM / İyi GPU önerilir Sıfır donanım ihtiyacı

Fiyat ve Ücretsiz Alternatifler

Ollama tamamen ücretsiz ve açık kaynak kodlu bir araçtır. Ancak donanımınız yerel modeller için yetersiz kalıyorsa ve yine de gizlilik odaklı, uygun maliyetli alternatifler arıyorsanız şunlara göz atabilirsiniz:

  • LM Studio: Ollama’ya en büyük alternatif. Kod yazmadan, tamamen görsel bir arayüz üzerinden yerel modelleri indirip çalıştırmanızı sağlar (Ücretsiz).
  • AnythingLLM: Belge analizi (RAG) odaklı çalışan, yerel modellerle entegre olabilen ücretsiz bir masaüstü uygulaması.
  • Groq: Eğer lokalde çalıştıramayacak kadar eski bir bilgisayarınız varsa, Groq bulut üzerinde Llama 3 ve Mistral modellerini ultra yüksek hızlarda ve şu an için oldukça cömert ücretsiz limitlerle sunuyor.

Son Söz

Kendi bilgisayarınızda çalışan, sizin sözünüzden çıkmayan ve verilerinizi kimseyle paylaşmayan bir yapay zekaya sahip olmak inanılmaz bir lüks. Ollama, bu lüksü herkes için erişilebilir kılıyor. Kurulumu yapın, Phi-3 veya Llama 3’ü indirin ve terminalden yapay zekaya “Merhaba” deyin. Gerçek gücün kendi donanımınızda olduğunu hissetmek paha biçilemez.

Category: Genel | LEAVE A COMMENT
Aralık 13 2024

Kendi Lokalinizde LLM Çalıştırmak: Ollama Kurulum Rehberi

Verilerimizin internette uçuştuğu, yazdığımız her satırın ve gönderdiğimiz her prompt’un bir yerlerde sunuculara kaydedildiği bu dönemde, veri gizliliği yani privacy meselesi her zamankinden daha kritik bir hale geldi. Peki, OpenAI veya Anthropic gibi devlere mahkum olmadan, tamamen kendi bilgisayarınızda çalışan bir yapay zeka kurmak mümkün mü? Cevap kesinlikle evet. Ollama sayesinde, internet bağlantısına bile ihtiyaç duymadan local llm dünyasına adım atabilir; bilgisayarınızda llama, mistral ve Phi-3 gibi devasa açık kaynaklı modelleri koşturabilirsiniz. Bu yazıda, “Benim bilgisayarım bunu kaldırır mı?” korkusunu bir kenara bırakıp, adım adım kendi yapay zekamızı nasıl kuracağımızı test edip göreceğiz.

Neden Kendi Bilgisayarımızda LLM Çalıştıralım?

Bulut tabanlı modeller harika iş çıkarıyor, orası kesin. Ancak her sorgu için internete bağımlı olmak, API ücretleri ödemek ve en önemlisi gizli verilerinizi (örneğin şirket içi belgelerinizi veya kişisel günlüklerinizi) üçüncü parti sunuculara göndermek her zaman iyi bir fikir olmayabilir. Local LLM çalıştırmak size tam bir egemenlik verir. Bilgisayarınızın fişini çekseniz bile yapay zekanız çalışmaya devam eder. Üstelik tamamen ücretsizdir ve sansürsüz model kullanma özgürlüğü sunar.

Ollama Nedir ve Nasıl Çalışır?

Eskiden kendi bilgisayarımızda model çalıştırmak tam bir işkenceydi. Python kütüphaneleriyle boğuşur, CUDA sürücü hataları alır, en sonunda bilgisayara format atmak isterdik. Ollama, bu karmaşayı tek bir paketle çözen bir runtime ve model yönetim aracıdır. Docker kullanmaya aşina olanlar için söyleyelim; Ollama, LLM’ler için Docker neyse tam olarak odur. Modeli tek bir komutla indirir, arka planda API sunucusunu başlatır ve sizin için hazır hale getirir.

[Görsel: Mac terminalinde Ollama kurulum adımları ve ilk indirme ekranı]

Adım Adım Ollama Kurulumu

Ollama; macOS ve Linux platformlarında yerel olarak, Windows’ta ise önizleme sürümüyle harika çalışıyor. Biz bu rehberde Mac ve Linux adımlarına odaklanacağız.

macOS Kurulumu

Mac kullanıcıları için süreç oldukça konforlu. Resmi web sitesinden indireceğiniz bir DMG dosyasıyla kurulumu saniyeler içinde tamamlayabilirsiniz. Veya bilgisayarınızda Homebrew kuruluysa terminalden şu komutu vermeniz yeterli:

brew install ollama

Linux Kurulumu

Linux kullanıcıları için de süreç tek bir curl komutundan ibaret. Terminalinizi açın ve aşağıdaki komutu yapıştırın:

curl -fsSL https://ollama.com/install.sh | sh

İlk Modeli Ayaklandırmak

Kurulum bittikten sonra en keyifli kısma geliyoruz: Modeli indirmek ve onunla konuşmak. Ollama kütüphanesinde pek çok model var ancak başlangıç için Meta’nın popüler modeli Llama 3 veya Microsoft’un küçük ama yetenekli modeli Phi-3 harika birer seçenektir.

Terminalinize şu komutu yazın ve arkaya yaslanın:

ollama run llama3

Bu komut, modelin yaklaşık 4.7 GB boyutundaki “8B” (8 milyar parametreli) sürümünü otomatik olarak indirecek ve ardından size bir sohbet satırı açacaktır. Artık kendi bilgisayarınızda çalışan, tamamen offline bir yapay zekanız var!

GPU Olmadan Performans Optimizasyonu (CPU ile Hayatta Kalmak)

Peki ya güçlü bir Nvidia ekran kartınız ya da Apple Silicon (M1/M2/M3) işlemciniz yoksa? Sadece standart bir işlemci (CPU) ve RAM ile bu modelleri çalıştırabilir misiniz? Evet, ama bazı kurallara dikkat ederek.

Modellerin boyutları küçüldükçe, ihtiyaç duydukları donanım gücü de azalır. LLM dünyasında bu durum quantization (kuantizasyon) denilen bir yöntemle çözülür. Büyük modeller matematiksel olarak sıkıştırılır. Örneğin, 8B parametreli bir modeli CPU ile çalıştırmak yerine, Microsoft’un 3.8B parametreli Phi-3 modelini çalıştırmak çok daha mantıklıdır. Phi-3, boyutu küçük olmasına rağmen mantık yürütme konusunda devasa modellerle yarışır seviyededir.

Performans için altın kurallar:

  • En az 16 GB sistem RAM’ine sahip olduğunuzdan emin olun.
  • Eğer model çok yavaş yanıt veriyorsa (saniyede 1-2 kelime), hemen ollama run phi3 komutuyla daha hafif bir modele geçiş yapın.
  • Arka plandaki yüksek RAM tüketen uygulamaları (evet, Chrome sekmelerinden bahsediyorum) kapatın.

Terminalden Sıkılanlara: Open WebUI Entegrasyonu

Terminalde siyah ekrana bakarak yapay zekayla sohbet etmek bir süre sonra sıkıcı gelebilir. Kendinize tıpkı ChatGPT arayüzü gibi şık bir arayüz kurmak istemez misiniz? İşte burada devreye Open WebUI giriyor.

[Görsel: Open WebUI arayüzünde Llama 3 ile Türkçe sohbet örneği]

Eğer bilgisayarınızda Docker kuruluysa, Open WebUI’yi kurmak ve Ollama ile bağlamak tek bir satır komutla mümkün:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Bu komutun ardından tarayıcınızdan http://localhost:3000 adresine giderek, kendi bilgisayarınızda çalışan muhteşem bir yapay zeka arayüzüne kavuşabilirsiniz. Buradan geçmiş sohbetlerinizi görebilir, belgelerinizi yükleyip onlar üzerinde analizler yapabilirsiniz.

Model Karşılaştırmaları

Peki hangi modeli ne zaman kullanmalısınız? Sizin için en popüler üç modeli karşılaştırdık:

Model Adı Parametre Boyutu Güçlü Yönleri Zayıf Yönleri
Llama 3 (8B) 8 Milyar Genel kültür, Türkçe dil desteği, yaratıcı yazarlık. RAM tüketimi yüksektir, eski CPU’larda yavaş çalışır.
Mistral (7B) 7 Milyar Kod yazma becerisi, hızlı yanıt süresi, dengeli performans. Bazen karmaşık mantık yürütme adımlarında tökezleyebilir.
Phi-3 (3.8B) 3.8 Milyar Çok hızlıdır, inanılmaz düşük sistem kaynağı tüketir. Uzun metin yazımlarında yaratıcılığı görece düşüktür.

Maliyetler ve Ücretsiz Alternatifler

Ollama tamamen ücretsiz ve açık kaynaklıdır. İndirdiğiniz modeller için hiçbir ücret ödemezsiniz. Tek maliyetiniz, bilgisayarınızın harcayacağı elektrik faturası olacaktır.

Eğer Ollama’ya alternatif daha görsel bir araç arıyorsanız, LM Studio harika bir seçenektir. LM Studio da tamamen ücretsizdir (kapalı kaynak kodlu olsa da) ve arayüzü üzerinden tek tıkla Hugging Face üzerindeki binlerce modeli indirip test etmenize olanak tanır.

Sonuç: Gelecek Bizim Disklerde

Kendi bilgisayarınızda bir LLM çalıştırmak sadece teknik bir fantezi değil; aynı zamanda veri egemenliğinizi geri kazanma hareketidir. Ollama bize gösteriyor ki, çok da uzak olmayan bir gelecekte her birimizin kişisel asistanı tamamen kendi cihazlarımızda, internete bile ihtiyaç duymadan çalışacak. Siz de bugün ufak bir adım atın, terminalinizi açın ve bu benzersiz deneyimi kendi lokalinizde test edin!

Category: Genel | LEAVE A COMMENT