llama – KertenKerem.NET

Mayıs 28 2026

Kendi Lokalinizde LLM Çalıştırmak: Ollama Kurulum Rehberi

Yapay zeka hayatımızın merkezine oturdu ama her sorduğumuz sorunun OpenAI veya Google sunucularına gitmesi canınızı sıkmıyor mu? İşte tam bu noktada local llm (yerel büyük dil modeli) kavramı devreye giriyor. Tamamen kendi bilgisayarınızda çalışan, internete ihtiyaç duymayan ve en önemlisi privacy (gizlilik) endişelerinizi sıfıra indiren bir yapay zeka deneyimi artık hayal değil. Bu rehberde, bu işi çocuk oyuncağı haline getiren ollama aracını mercek altına alıyor, Mac ve Linux sistemlerimizde llama, mistral gibi canavarları nasıl koşturacağımızı adım adım inceliyoruz.

Neden Bulut Değil de Local LLM?

ChatGPT veya Claude kullanırken aslında verilerimizi sürekli uzak sunuculara kiralıyoruz. Şirket sırları, kişisel günlükler veya üzerinde çalıştığınız yeni bir startup fikri… Hepsi birilerinin veri merkezinde işleniyor. Kendi bilgisayarınızda bir yapay zeka çalıştırmak ise size tam bir veri egemenliği sunar.

Bunun yanında, “Çevrimdışı çalışabilme” lüksü de cabası. Metroda, uçakta ya da internetin çekmediği bir kamp alanında, kod yazarken takıldığınız bir yeri yapay zekaya sorabildiğinizi hayal edin. Üstelik API ücreti yok, aylık abonelik derdi yok. Bilgisayarınızın elektriği ve donanımı yettiği sürece sınırsız kullanım hakkına sahipsiniz.

Ollama Nedir ve Ne İşe Yarar?

Eskiden lokalde model çalıştırmak tam bir işkenceydi. Hugging Face’ten gigabaytlarca dosya indirmeniz, doğru Python kütüphanelerini (PyTorch, llama.cpp vb.) kurmanız ve uyumluluk sorunlarıyla boğuşmanız gerekirdi. Ollama, bu karmaşayı tek bir satır kodla çözen harika bir araç. Kendisini yapay zeka modellerinin “Docker”ı olarak düşünebilirsiniz. Modelleri paketler, yönetir ve sisteminizde optimize bir şekilde çalıştırır.

[Görsel: Ollama logosu ve terminalde koşan şık, minimalist bir model çalıştırma ekranı]

Adım Adım Ollama Kurulumu

Lafı fazla uzatmadan işe koyulalım. Biz bu rehberde Mac ve Linux odaklı gideceğiz ancak Ollama’nın artık resmi bir Windows desteği de sunduğunu belirtelim.

macOS Kurulumu

Mac kullanıcıları için süreç inanılmaz derecede basit. Eğer sisteminizde Homebrew kuruluysa terminali açıp şu komutu yazmanız yeterli:

brew install ollama

Alternatif olarak, Ollama’nın resmi web sitesinden direkt bir `.dmg` dosyası indirip uygulamalar klasörünüze de sürükleyebilirsiniz.

Linux Kurulumu

Linux severler için ise tek satırlık bir script yeterli oluyor. Terminalinizi açın ve aşağıdaki komutu yapıştırın:

curl -fsSL https://ollama.com/install.sh | sh

İlk Modeli Ayaklandırmak: Llama 3, Mistral ve Phi-3

Kurulum bittiğine göre şimdi motoru çalıştırma zamanı. Ollama kütüphanesinde kullanabileceğimiz onlarca model var. Biz en popüler üç tanesini test ettik:

Llama 3 (8B): Meta’nın geliştirdiği, genel yetenekleri ve Türkçe anlama kapasitesi oldukça yüksek olan amiral gemisi.
Mistral (7B): Fransız menşeili Mistral AI tarafından geliştirilen, özellikle kodlama ve mantık yürütmede boyutuna göre devleşen bir model.
Phi-3 (3.8B): Microsoft’un “küçük ama zehir gibi” modeli. Düşük sistem kaynakları için ideal.

Gelin, hemen Meta’nın llama 3 modelini indirelim ve çalıştıralım:

ollama run llama3

Bu komutu verdiğinizde Ollama önce yaklaşık 4.7 GB boyutundaki modeli arka planda indirecek, ardından terminalinizi interaktif bir chat ekranına dönüştürecektir.

[Görsel: Terminal ekranında Ollama üzerinden Llama 3 modeline ‘Merhaba, bana yerel bir yapay zekanın avantajlarını anlat’ sorusunun sorulduğu ve saniyeler içinde alınan yanıtın ekran görüntüsü]

Deneyim ve Raporlama: Gerçekten Hızlı mı?

Lafı dolandırmayalım, doğrudan test sonuçlarımızı paylaşalım. Testi gerçekleştirdiğimiz makine: M1 MacBook Air (16 GB RAM).

Llama 3 (8B) modeline Türkçe bir soru sorduğumuzda aldığımız hız yaklaşık saniyede 15-18 token civarındaydı. Bu hız, rahatça okuyabileceğinizden daha hızlı bir şekilde metnin ekrana akması demek. Microsoft’un Phi-3 modelinde ise bu hız saniyede 30-35 token seviyelerine fırladı. Yani GPU olmadan, sadece Apple Silicon işlemcinin gücüyle bile akıcı bir deneyim elde etmek son derece mümkün.

Terminalden Sıkılanlara: Open WebUI Entegrasyonu

Terminal ekranında yapay zekayla sohbet etmek havalı görünse de, uzun vadede ChatGPT benzeri, sohbet geçmişini tutan, temiz bir arayüz arıyoruz. İşte burada imdadımıza Open WebUI yetişiyor.

Open WebUI’ı bilgisayarınızda çalıştırmanın en temiz yolu Docker kullanmaktır. Eğer bilgisayarınızda Docker kuruluysa, terminale şu komutu yazarak arayüzü başlatabilirsiniz:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Bu işlemden sonra tarayıcınızı açıp http://localhost:3000 adresine gittiğinizde, yerel ağınızda çalışan şık bir ChatGPT klonuyla karşılaşacaksınız. Üstelik Ollama ile indirdiğiniz tüm modeller sol üstteki açılır menüde otomatik olarak belirecektir.

[Görsel: Open WebUI arayüzünün karanlık modda çekilmiş ekran görüntüsü. Sol tarafta sohbet geçmişi, ortada ise Llama 3 ile yapılan Türkçe bir sohbet görünüyor.]

GPU Olmadan Performans Optimizasyonu Nasıl Yapılır?

Eğer güçlü bir ekran kartınız (NVIDIA RTX serisi gibi) veya bir Apple Silicon Mac’iniz yoksa, saf CPU gücüyle LLM çalıştırmak bilgisayarınızı biraz terletebilir. Ancak pes etmenize gerek yok, işte uygulayabileceğiniz optimizasyon adımları:

Kuantize (Quantized) Modeller Seçin: Ollama varsayılan olarak modellerin 4-bit kuantize edilmiş sürümlerini indirir. Bu, modelin beynini (ağırlıklarını) biraz küçültmek ama zekasından çok az ödün vererek RAM kullanımını 1/4 oranına düşürmek demektir. Ekstra bir şey yapmanıza gerek yok, Ollama bunu sizin yerinize zaten yönetiyor.
Küçük Modellere Yönelin: 8B (8 milyar parametre) yerine 3B veya 1.5B parametreli modelleri tercih edin. Örneğin ollama run phi3 veya ollama run gemma:2b düşük RAM’li bilgisayarlar için biçilmiş kaftandır.
Arka Plan Uygulamalarını Kapatın: Yerel LLM çalıştırırken en kritik kaynak RAM’dir. Docker ve Ollama çalışırken özellikle RAM canavarı tarayıcı sekmelerini kapatmak performansı gözle görülür şekilde artırır.

Ollama: Artılar ve Eksiler

Kendi deneyimlerimiz doğrultusunda hazırladığımız dürüst tabloya göz atalım:

Artıları (+)	Eksileri (-)
Tamamen ücretsiz ve açık kaynak kodlu.	Çok büyük modeller (70B+) için aşırı güçlü donanım ister.
%100 gizlilik ve internet gerektirmeyen çalışma yapısı.	Mobil cihazlarda doğrudan çalıştırmak (henüz) pratik değil.
Tek satırla model indirme ve güncelleme kolaylığı.	Modeller geliştikçe diskte ciddi yer kaplıyorlar.
Aktif topluluk desteği ve harika API entegrasyonu.	Türkçe dil desteği GPT-4 seviyesinde değil ama tatminkar.

Fiyat ve Ücretsiz Alternatifler

Ollama tamamen ücretsizdir. Kullandığınız modeller de açık kaynaklı olduğu için herhangi bir lisans ücreti ödemezsiniz.

Eğer Ollama’nın terminal tabanlı yapısı size hitap etmediyse, alternatif olarak şu tamamen ücretsiz araçları da deneyebilirsiniz:

LM Studio: Görsel bir arayüze sahip, modelleri arayıp tek tıkla indirebileceğiniz ve yerel sunucu kurabileceğiniz harika bir masaüstü uygulaması (Mac/Windows/Linux).
Jan.ai: Tamamen açık kaynaklı, şık arayüzlü bir başka yerel LLM istemcisi.

Kendi local LLM dünyanızı kurmak işte bu kadar kolay. Terminali açın, Ollama’yı kurun ve yapay zekanın kontrolünü kendi ellerinize alın. Bir sonraki rehberde görüşmek üzere!

Category: Genel | LEAVE A COMMENT