Yapay Zekada Token Tasarrufu ve Prompt Sıkıştırma Rehberi

Büyük Dil Modelleri (LLM) ile çalışırken karşılaşılan en büyük problemlerden biri yüksek token tüketimi ve buna bağlı olarak artan API maliyetleridir. Token tasarrufu yapmak, sadece bütçenizi korumakla kalmaz, aynı zamanda modelin bağlam penceresini (context window) daha verimli kullanmasını ve daha hızlı yanıt üretmesini sağlar.

Bu rehberde, prompt kalitesinden ödün vermeden token tüketimini %50 ile %80 oranında azaltabileceğiniz en etkili ve az bilinen teknikleri detaylandıracağız.

1. Token Nedir ve Neden Tasarruf Etmeliyiz?

Token, yapay zekanın metinleri anlamlandırmak için böldüğü en küçük karakter gruplarıdır (yaklaşık 4 karakter veya 0.75 kelime). Türkçe gibi eklemeli dillerde, kelimeler daha fazla heceye ve karaktere bölündüğü için İngilizceye kıyasla 1.5 ila 2.5 kat daha fazla token tüketilir.

Dolayısıyla, Türkçe prompt'larda optimize edilmemiş uzun metinler kullanmak ciddi maliyet artışlarına yol açar.

2. LLMLingua ile Prompt Sıkıştırma (Prompt Compression)

Prompt sıkıştırma, bir metindeki anlamsal yoğunluğu kaybetmeden gereksiz kelimeleri, bağlaçları ve tekrarları temizleme işlemidir. Microsoft tarafından geliştirilen LLMLingua algoritması bu konuda öncüdür.

LLMLingua Nasıl Çalışır?

LLMLingua, küçük ve hızlı bir dil modeli (örneğin LLaMA-2-7B) kullanarak asıl prompt içerisindeki kelimelerin "entropisini" (bilgi değerini) ölçer. Düşük bilgi değerine sahip bağlaçlar ve dolgu kelimeleri elenerek metin sıkıştırılır.

Örnek Sıkıştırma:

Orijinal Prompt (120 Token): "Lütfen bana sunduğum bu makale içerisindeki en önemli ana fikirleri, okuyucunun konuyu en kolay şekilde anlayabilmesi için detaylı ama sade bir dille madde işaretleri halinde yazabilir misin?"
Sıkıştırılmış Prompt (35 Token): "Makalenin ana fikirlerini sade dille listele."

Yapay zeka iki prompt'a da neredeyse tamamen aynı yanıtı verecektir. Ancak ikincisi %70 daha az token harcar.

3. Sistem Promptlarını Optimize Etme (Context Caching)

Eğer kendi uygulamanızı geliştiriyorsanız, her istekte (request) aynı sistem promptunu göndermek yerine API sağlayıcınızın Context Caching (Bağlam Önbellekleme) özelliğini aktif edin.

Claude (Anthropic) ve Gemini: Sabit olan sistem promptunu ve referans belgelerini önbelleğe alarak sonraki sorgularda %90 oranında token maliyet indirimi sağlar.

4. Çıktı Formatını Sınırlandırma

Modelin gereksiz açıklamalar yapmasını engellemek token tüketimini düşürmenin en basit yoludur.

Prompt sonuna şu ifadeyi ekleyin: "Sadece sonucu ver, açıklama veya giriş cümlesi yazma."
JSON çıktı formatı kullanırken şemayı (schema) en sade haliyle belirtin.

Yapay Zekada Token Tasarrufu: Prompt Sıkıştırma ve Maliyet Düşürme Yöntemleri

Yapay Zekada Token Tasarrufu ve Prompt Sıkıştırma Rehberi

1. Token Nedir ve Neden Tasarruf Etmeliyiz?

2. LLMLingua ile Prompt Sıkıştırma (Prompt Compression)

LLMLingua Nasıl Çalışır?

3. Sistem Promptlarını Optimize Etme (Context Caching)

4. Çıktı Formatını Sınırlandırma

Benzer Yazılar

Zero-Shot Prompting Nedir? Örnekli Anlatım

Few-Shot Prompting ile Model Yanıtlarını Standartlaştırma

Chain of Thought (CoT) Prompting: Adım Adım Düşünme Tekniği