Ollama tutorial Indonesia ini membahas cara menginstall dan menjalankan model AI besar secara lokal di komputer sendiri menggunakan Ollama — platform open source yang memungkinkan kamu menggunakan model seperti Llama 3, Gemma, dan Mistral tanpa koneksi internet, tanpa biaya API, dan tanpa data yang keluar dari perangkatmu.
Ada satu pertanyaan yang semakin sering muncul di komunitas developer Indonesia: “apakah bisa pakai AI tanpa harus kirim data ke OpenAI atau Anthropic?” Jawabannya adalah ya — dan Ollama adalah cara termudah untuk melakukannya.
Menjalankan AI lokal dengan Ollama bukan hanya soal privasi — meski itu salah satu alasan terkuat. Ini juga soal tidak ada biaya API yang terus berjalan, tidak ada ketergantungan pada koneksi internet, dan kebebasan untuk mengeksperimen tanpa khawatir tagihan membengkak.
Yang berubah signifikan di 2024: kualitas model open source seperti Llama 3.1 dan Gemma 2 sudah sangat dekat dengan GPT-4 untuk banyak use case umum. Gap antara model komersial dan open source semakin sempit — dan Ollama adalah yang paling mudah digunakan untuk mengakses model-model ini.
Untuk konteks yang lebih luas tentang cara kerja model bahasa besar yang akan kamu jalankan secara lokal, LLM adalah membahas fondasi teknis yang membantu memahami apa yang sebenarnya terjadi saat Ollama menjalankan sebuah model.
Ollama Tutorial Indonesia: Apa itu Ollama dan Mengapa Berbeda
Sebelum ada Ollama, menjalankan model AI lokal membutuhkan: download model dalam format yang benar, install dependencies yang kompleks, konfigurasi CUDA untuk GPU, dan menulis kode Python hanya untuk membuat model bisa menjawab satu pertanyaan.
Ollama menyederhanakan semua itu menjadi satu command:
bash
ollama run llama3.1Satu command — model didownload, dikonfigurasi, dan langsung bisa dipakai. Tidak ada setup CUDA manual, tidak ada Python environment yang harus dikonfigurasi, tidak ada dependency hell.
Yang Membuat Ollama Berbeda dari Alternatif Lain
LM Studio — GUI yang bagus untuk pemula tapi kurang fleksibel untuk integrasi programatik. Lebih cocok untuk penggunaan personal lewat antarmuka chat.
llama.cpp — sangat powerful dan fleksibel, tapi butuh compile dari source dan konfigurasi manual yang cukup teknis.
Ollama — sweet spot antara kemudahan dan fleksibilitas. Punya CLI yang clean, API yang kompatibel dengan OpenAI API format (sehingga banyak tools yang sudah ada langsung bisa dipakai), dan aktif diupdate dengan model terbaru.
Persiapan: Spesifikasi Komputer yang Dibutuhkan
Ini yang paling sering ditanyakan sebelum mencoba — dan jawabannya bergantung pada model yang ingin dijalankan:
| Ukuran Model | RAM Minimum | VRAM GPU (opsional) | Contoh Model |
|---|---|---|---|
| 1–3B parameter | 4GB RAM | Tidak butuh GPU | Llama 3.2 1B, Phi-3 Mini |
| 7B parameter | 8GB RAM | 4GB VRAM | Llama 3.1 8B, Gemma 2 9B |
| 13B parameter | 16GB RAM | 8GB VRAM | Llama 2 13B |
| 30B+ parameter | 32GB+ RAM | 16GB+ VRAM | Llama 3.1 70B (quantized) |
Catatan penting tentang GPU:
Ollama bisa berjalan tanpa GPU — menggunakan CPU saja. Tapi kecepatan respons akan jauh lebih lambat (bisa 5–30 detik per token tergantung model dan spesifikasi CPU). Untuk penggunaan yang responsif, GPU sangat direkomendasikan.
GPU yang didukung:
- NVIDIA: semua GPU dengan CUDA support (GTX 10xx ke atas)
- AMD: GPU dengan ROCm support (RX 6000 series ke atas)
- Apple Silicon: M1/M2/M3 — performa sangat baik karena unified memory
Untuk laptop atau PC dengan RAM 16GB dan GPU entry-level, model 7B sudah memberikan pengalaman yang sangat baik untuk sebagian besar use case.
Instalasi Ollama: Langkah per Langkah
Windows
Download installer dari ollama.com/download. Jalankan file .exe, ikuti wizard instalasi. Setelah selesai, Ollama berjalan sebagai background service yang otomatis start saat Windows menyala.
Verifikasi instalasi di Command Prompt atau PowerShell:
bash
ollama --versionmacOS
bash
# Download dan install via curl
curl -fsSL https://ollama.com/install.sh | sh
# Atau download langsung dari ollama.com/download (pkg installer)Untuk Apple Silicon (M1/M2/M3), Ollama secara otomatis menggunakan Metal GPU acceleration — performa sangat baik bahkan untuk model 7B.
Linux (Ubuntu/Debian)
bash
curl -fsSL https://ollama.com/install.sh | shSatu command ini menginstall Ollama, mengkonfigurasi systemd service, dan setup CUDA jika GPU NVIDIA terdeteksi.
Verifikasi service berjalan:
bash
systemctl status ollamaCommand Dasar yang Wajib Dikuasai
Download dan Jalankan Model
bash
# Download dan langsung chat dengan model
ollama run llama3.1
# Download model tanpa langsung menjalankan
ollama pull gemma2
# Jalankan model yang sudah didownload
ollama run gemma2Saat pertama kali menjalankan model yang belum didownload, Ollama otomatis mendownloadnya. Ukuran file bervariasi — model 7B biasanya sekitar 4–5GB.
Manajemen Model
bash
# Lihat semua model yang sudah diinstall
ollama list
# Hapus model yang tidak dipakai (bebaskan ruang disk)
ollama rm llama2
# Lihat informasi detail model
ollama show llama3.1Menghentikan Model yang Sedang Berjalan
bash
# Hentikan model tertentu
ollama stop llama3.1
# Lihat model yang sedang aktif
ollama psModel yang Paling Direkomendasikan untuk Pemula Indonesia
Untuk Penggunaan Umum (7B — Sweet Spot)
Llama 3.1 8B — model terbaik di kelasnya untuk bahasa Indonesia. Meta melatihnya dengan data multilingual yang lebih baik dari Llama 2. Kemampuan reasoning cukup baik untuk tugas sehari-hari.
bash
ollama run llama3.1Gemma 2 9B — model Google yang sangat efisien. Performa per parameter-nya salah satu yang terbaik di kategori ini. Bagus untuk coding dan analisis.
bash
ollama run gemma2Untuk Komputer dengan RAM Terbatas (< 8GB)
Llama 3.2 3B — sangat ringan, bisa berjalan di 4GB RAM, masih bisa memberikan respons yang berguna untuk tugas sederhana.
bash
ollama run llama3.2:3bPhi-3 Mini — model Microsoft yang sangat efisien untuk ukurannya. Bagus untuk coding assistance di komputer dengan resource terbatas.
bash
ollama run phi3:miniUntuk Coding Khusus
DeepSeek Coder — model yang dilatih khusus untuk coding. Sangat baik untuk code completion, debugging, dan penjelasan kode.
bash
ollama run deepseek-coderCodeLlama — alternatif dari Meta yang juga sangat baik untuk berbagai bahasa pemrograman.
bash
ollama run codellamaMenggunakan Ollama via API
Ini yang membuat Ollama sangat powerful untuk integrasi — Ollama menjalankan REST API lokal di http://localhost:11434 yang formatnya kompatibel dengan OpenAI API.
Akses via curl
bash
curl http://localhost:11434/api/generate \
-d '{
"model": "llama3.1",
"prompt": "Jelaskan cara kerja REST API dalam bahasa Indonesia yang mudah dipahami",
"stream": false
}'Akses via Python
python
import requests
def tanya_ollama(pertanyaan, model="llama3.1"):
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": model,
"messages": [
{"role": "user", "content": pertanyaan}
],
"stream": False
}
)
return response.json()["message"]["content"]
# Contoh penggunaan
jawaban = tanya_ollama("Apa perbedaan supervised dan unsupervised learning?")
print(jawaban)Kompatibilitas dengan OpenAI SDK
Karena API Ollama kompatibel dengan format OpenAI, kamu bisa menggunakan OpenAI Python SDK dengan sedikit modifikasi:
python
from openai import OpenAI
# Arahkan ke Ollama local server
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # diperlukan tapi tidak diverifikasi
)
response = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "user", "content": "Tulis fungsi Python untuk menghitung fibonacci"}
]
)
print(response.choices[0].message.content)Kompatibilitas ini berarti tools dan aplikasi yang sudah dibangun untuk OpenAI API bisa langsung diarahkan ke Ollama dengan mengubah base_url saja — termasuk integrasi n8n dan Make.com.
Membuat Custom Model dengan Modelfile
Salah satu fitur paling berguna Ollama adalah kemampuan membuat model custom dengan instruksi, persona, dan parameter yang sudah dikonfigurasi.
modelfile
# Simpan sebagai file bernama "Modelfile"
FROM llama3.1
# Konfigurasi parameter
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# System prompt yang mendefinisikan perilaku model
SYSTEM """
Kamu adalah asisten teknis untuk developer Indonesia.
Selalu jawab dalam bahasa Indonesia yang jelas dan praktis.
Sertakan contoh kode yang konkret untuk pertanyaan programming.
Akui ketidakpastian dengan jelas daripada mengarang jawaban.
"""Build dan jalankan model custom:
bash
ollama create asisten-developer -f Modelfile
ollama run asisten-developerModel custom ini bisa dibagikan ke tim atau digunakan untuk use case spesifik tanpa harus mengetik system prompt yang sama setiap kali.
Seminggu lalu, Fikri — security researcher yang bekerja untuk perusahaan konsultan di Jakarta — butuh AI untuk menganalisis log dan kode yang berisi informasi sensitif klien. Menggunakan ChatGPT atau Claude berarti data klien dikirim ke server luar negeri — sesuatu yang kliennya tidak izinkan. Setelah setup Ollama dengan model CodeLlama di laptop kerja M2 Pro-nya, dia bisa menganalisis kode dan log secara lokal dengan kualitas yang menurutnya “90% setara dengan GPT-4 untuk task yang saya butuhkan, dan 100% lebih tenang karena data tidak kemana-mana.”
Integrasi Ollama dengan Tools Lain
Dengan n8n
Di n8n, tambahkan node “Ollama Chat Model” — n8n punya integrasi native dengan Ollama. Arahkan ke http://localhost:11434 (atau IP server tempat Ollama berjalan) dan pilih model yang ingin dipakai. Ini memungkinkan membangun AI workflow menggunakan model lokal tanpa biaya API apapun.
Dengan Open WebUI
Open WebUI adalah antarmuka chat yang bisa diinstall di atas Ollama — memberikan pengalaman seperti ChatGPT tapi sepenuhnya lokal:
bash
docker run -d \
--network=host \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:mainBuka http://localhost:3000 dan kamu punya antarmuka chat lokal yang terhubung ke semua model Ollama yang sudah diinstall.
Dengan VS Code (Continue Extension)
Extension Continue di VS Code bisa dikonfigurasi untuk menggunakan Ollama sebagai backend — memberikan AI coding assistant yang sepenuhnya lokal, tanpa mengirim kode ke server eksternal.
Tips Tambahan: Ollama yang Lebih Optimal
Gunakan quantized model untuk efisiensi — model tersedia dalam berbagai level quantization (Q4, Q5, Q8). Q4 menggunakan RAM setengah dari Q8 dengan penurunan kualitas yang minimal untuk kebanyakan use case. Ollama secara default mendownload versi yang paling seimbang.
bash
# Download versi Q4 yang lebih ringan
ollama pull llama3.1:8b-instruct-q4_0Set OLLAMA_NUM_PARALLEL untuk throughput lebih tinggi — kalau menjalankan Ollama sebagai server yang melayani beberapa request bersamaan, set environment variable ini:
bash
OLLAMA_NUM_PARALLEL=4 ollama serveKeep model loaded di memory — Ollama secara default unload model dari memory setelah 5 menit tidak dipakai. Untuk response yang lebih cepat di penggunaan yang sering:
bash
# Set ke 0 untuk keep model loaded selamanya
OLLAMA_KEEP_ALIVE=0 ollama serveMonitor resource usage — gunakan ollama ps untuk melihat model yang aktif dan berapa VRAM/RAM yang digunakan. Ini membantu memutuskan model mana yang bisa dijalankan bersamaan.
Untuk memahami cara memaksimalkan local LLM dengan Ollama — dari konfigurasi lanjutan, fine-tuning, hingga deployment sebagai server untuk tim — kursus ini membahas seluruh ekosistem Ollama secara mendalam: pelajari cara menjalankan local LLM dengan Ollama →
Ollama mengubah AI lokal dari sesuatu yang butuh keahlian teknis tinggi menjadi sesuatu yang bisa disetup dalam 10 menit. Untuk developer yang peduli privasi data, yang punya use case offline, atau yang ingin bereksperimen tanpa khawatir biaya API — Ollama adalah titik masuk terbaik yang ada saat ini.
Model open source semakin baik setiap bulannya, dan gap dengan model komersial semakin sempit. Memulai sekarang berarti kamu sudah familiar dengan ekosistem ini ketika kualitasnya benar-benar setara — dan momen itu mungkin lebih dekat dari yang kita kira.
FAQ
Apakah Ollama gratis sepenuhnya?
Ya — Ollama adalah software open source yang sepenuhnya gratis. Model yang tersedia di Ollama Library juga sebagian besar gratis untuk digunakan, termasuk untuk keperluan komersial (tergantung lisensi masing-masing model — selalu cek lisensi model yang digunakan untuk use case komersial).
Apakah model yang dijalankan di Ollama bisa berbahasa Indonesia dengan baik?
Model generasi terbaru seperti Llama 3.1 dan Gemma 2 sudah cukup baik dalam bahasa Indonesia — jauh lebih baik dari Llama 2. Untuk tugas sederhana seperti menjawab pertanyaan, merangkum, atau menulis teks, kualitasnya sudah sangat acceptable. Untuk tugas yang butuh nuansa bahasa Indonesia yang sangat halus, model komersial masih sedikit lebih unggul.
Bisakah Ollama digunakan di VPS atau server cloud?
Bisa — Ollama bisa diinstall di VPS Linux dan diakses remotely. Untuk setup ini, pastikan port 11434 hanya bisa diakses oleh IP yang diizinkan (jangan expose ke publik tanpa autentikasi). VPS dengan minimal 8GB RAM dan GPU NVIDIA adalah konfigurasi yang umum digunakan untuk deployment server Ollama untuk tim kecil.



