Dia-1.6B'yi Yerel Olarak Çalıştırma ve Kullanma

Yaklaşık 7 dakika

Dia-1.6B'yi Yerel Olarak Çalıştırma ve Kullanma - Tam Kılavuz

Robotik sesli metinden-konuşmaya (TTS) seslerinden hiç sıkıldınız mı? Ya da sınırlı özelleştirme sunan bulut tabanlı TTS hizmetleri için abonelik ücretleri ödemekten bıktınız mı? Ben kesinlikle bıkmıştım, ta ki Dia-1.6B ile tanışana kadar - metinden-konuşmaya teknolojisinde mümkün olanları yeniden tanımlayan devrim niteliğinde açık kaynaklı bir model.

Dia-1.6B tarafından oluşturulan ses örneklerini ilk duyduğumda, bunun makine tarafından üretildiğine inanamadım. Doğal duraklamalar, duygusal tonlamalar ve hatta kahkaha ya da boğaz temizleme gibi sözsüz ipuçları gerçekten insana benziyordu. Basit anlatımlardan karmaşık çok karakterli diyaloglara kadar çeşitli senaryolarda bir hafta boyunca test ettikten sonra, bunun bugün mevcut en etkileyici açık kaynak TTS çözümlerinden biri olduğuna ikna oldum.

Bu kılavuzda, Dia-1.6B'yi yerel makinenizde çalıştırmak için bilmeniz gereken her şeyi, kurulumdan gelişmiş kullanım tekniklerine kadar adım adım anlatacağım. Sonunda, kendi bilgisayarınızdan stüdyo kalitesinde diyaloglar oluşturacak, tam kontrol ve gizlilikle çalışacaksınız.

Dia-1.6B Nedir?

Dia-1.6B, küçük ve özverili bir araştırmacı ekibi olan Nari Labs tarafından geliştirilen çığır açan bir metinden-konuşmaya modelidir. Geleneksel TTS modellerinin tek sesli anlatıma odaklanmasının aksine, Dia diyalog üretimi için özel olarak tasarlanmıştır. 1.6 milyar parametresiyle, yazılı metinleri doğrudan gerçekçi konuşma haline dönüştürebilir; doğal tonlamalar, hız ve hatta sözsüz öğelerle birlikte.

Apache 2.0 lisansı altında yayımlanan Dia-1.6B, ElevenLabs Studio ve Sesame CSM-1B gibi tescilli çözümlere karşı güçlü bir açık kaynak alternatifi sunar. Onu özellikle özel kılan özellikler:

Farklı seslere sahip dinamik, çok konuşmacılı diyaloglar oluşturabilme
Metinde belirtildiğinde kahkaha, öksürük, iç çekme gibi sözsüz sesler üretebilme
Ses örneklerinden ses klonlama yaparak tutarlı konuşma üretme
Ses tonunu ve sunumu ses koşullandırmasıyla kontrol edebilme

Temelde Dia-1.6B, yüksek kaliteli konuşma sentezi teknolojisinin demokratikleşmesinde önemli bir ilerlemeyi temsil eder. Modelin tamamen açık olması, internet bağlantısı olmadan yerel çalıştırabilmenizi, abonelik ücretlerinden kaçınmanızı ve içeriğiniz üzerinde tam gizlilik sağlamanızı mümkün kılar.

Donanım ve Yazılım Gereksinimleri

Kuruluma başlamadan önce, sisteminizin Dia-1.6B'yi çalıştırmaya hazır olduğundan emin olalım. Model yeteneklerine göre oldukça verimli olsa da bazı özel gereksinimleri var.

Donanım Gereksinimleri

1.6 milyar parametreli bir modeli yerel olarak çalıştırmak kolay değil, ancak süper bilgisayara da ihtiyacınız yok. İşte gerekenler:

Bileşen	Minimum Gereksinim	Tavsiye Edilen
GPU	CUDA destekli NVIDIA GPU	RTX 3070/4070 veya daha iyisi
VRAM	8GB (bazı kısıtlamalarla)	10GB+
RAM	16GB	32GB
Depolama	10GB boş alan	20GB+ SSD
CPU	Dört çekirdek	6+ çekirdek

En kritik bileşen GPU'nuzdur. Ben Dia-1.6B'yi 11GB VRAM'li eski bir GTX 1080 Ti'da çalıştırmayı başardım, ancak üretim hızı modern bir RTX 3080'e kıyasla belirgin şekilde daha yavaştı. Uygun GPU'nuz yoksa, modeli çevrimiçi denemek için Hugging Face'in ZeroGPU Space'ini kullanabilir veya gelecekteki güncellemelerde planlanan CPU desteğini bekleyebilirsiniz.

Yazılım Önkoşulları

Sorunsuz kurulum için ihtiyacınız olanlar:

İşletim Sistemi: Windows 10/11, macOS (M1/M2/M3 MPS ile) veya Linux
Python: 3.8 veya üzeri (Ben Python 3.10 kullandım, çok iyi sonuçlar aldım)
CUDA Toolkit: 12.6 sürümü (NVIDIA GPU'lar için)
Git: Depoyu klonlamak için
Sanal Ortam Yöneticisi: venv, conda veya uv (önerilen)

Uv paket yöneticisi kullanmak kurulum sürecini oldukça kolaylaştırdığı için hem standart hem de uv yöntemi için talimatlar vereceğim.

Dia-1.6B'yi Yerel Olarak Kurma

Gerekli olanları öğrendiğimize göre, Dia-1.6B'yi makinenizde çalıştırmaya başlayalım. Her adımı birlikte inceleyeceğiz.

Adım 1: Depoyu Klonlayın

Öncelikle GitHub’dan kodu almalıyız. Bir terminal veya komut istemcisi açın ve şunu çalıştırın:

git clone https://github.com/nari-labs/dia.git
cd dia

Bu, gerekli tüm kodları içeren "dia" adlı yeni bir klasör oluşturacak.

Adım 2: Ortamı Kurun

İki seçeneğiniz var. En basit yöntem uv kullanmak, bunu şiddetle tavsiye ederim:

Seçenek A: uv Kullanarak (Önerilen)

Eğer uv yüklü değilse, şu komutla yükleyebilirsiniz:

pip install uv

Sonra tek bir komutla uv her şeyi halleder:

uv run app.py

Bu, otomatik olarak sanal ortam oluşturur, tüm bağımlılıkları yükler ve Gradio arayüzünü başlatır. Ben bu yöntemi denediğimde, iyi bir internet bağlantısıyla yaklaşık 5 dakika sürdü.

Seçenek B: Manuel Kurulum

Geleneksel yöntemi tercih ederseniz:

# Sanal ortam oluşturun
python -m venv .venv

# Ortamı aktif edin
# Windows:
.venv\Scripts\activate
# macOS/Linux:
source .venv/bin/activate

# Bağımlılıkları yükleyin
pip install -e .

# Uygulamayı çalıştırın
python app.py

İlk denememde sistemimde eski bir kütüphane nedeniyle bağımlılık çakışması yaşadım. Benzer sorunlarla karşılaşırsanız, farklı bir dizinde temiz bir sanal ortam oluşturmayı deneyin.

Adım 3: İlk Başlatma

Dia-1.6B'yi ilk kez çalıştırdığınızda, model ağırlıklarını Hugging Face’den (yaklaşık 3GB) ve ayrıca Descript Audio Codec’i indirir. İnternet hızınıza bağlı olarak birkaç dakika sürebilir.

İndirme tamamlandığında, terminalde Gradio sunucusunun çalıştığını belirten ve http://127.0.0.1:7860 gibi bir URL göreceksiniz. Bu URL’yi web tarayıcınızda açarak arayüze erişebilirsiniz.

Her şey yolunda giderse, Dia-1.6B Gradio arayüzü karşınıza çıkar ve metinlerinizden konuşma üretmeye hazır olur!

Dia-1.6B’yi Gradio Arayüzü ile Kullanma

Gradio arayüzü, Dia-1.6B ile etkileşim kurmanın sezgisel bir yolunu sunar. Nasıl etkili kullanacağınızı keşfedelim.

Temel Metinden-Konuşmaya Üretim

İlk diyalogunuzu oluşturmak için:

Metin giriş alanına, farklı konuşmacıları belirtmek için konuşmacı etiketleri kullanarak bir senaryo yazın:

[S1] Dia’ya hoş geldiniz, inanılmaz bir metinden-konuşmaya modeli. [S2] Çoklu konuşmacılarla gerçekçi diyaloglar oluşturabilir. [S1] Ve hatta kahkaha gibi sözsüz ipuçlarını bile yönetir! (laughs)

"Generate" (Oluştur) butonuna tıklayın ve işlemin tamamlanmasını bekleyin.
İşlem bittiğinde, ses dosyasını oynatabilir veya daha sonra kullanmak üzere indirebilirsiniz.

İlk testimde, Dia’nın konuşmacı geçişlerini ve sondaki doğal kahkahayı ne kadar iyi yönettiğine şaşırdım. Sesler her konuşmacı için belirgindi, ancak ses örneği vermediğiniz veya sabit tohum ayarlamadığınız sürece her üretimde değişebilir.

Konuşmacı Etiketleri ve Sözsüz İpuçları ile Çalışma

Dia-1.6B basit bir gösterim sistemi kullanır:

Konuşmacı Etiketleri: Farklı konuşmacılar için [S1], [S2] vb. kullanın
Sözsüz İpuçları: (laughs), (coughs), (sighs) gibi açıklamaları parantez içinde yazın

Örnek:

[S1] O şakayı duydun mu? (laughs) Çok komikti! [S2] (clears throat) Sanırım anlamadım. Açıklayabilir misin? [S1] (sighs) Boş ver.

Model bu ipuçlarını yorumlayacak ve uygun sesleri üreterek gerçekten sürükleyici bir diyalog deneyimi yaratacaktır.

Ses Klonlama ile Ses Örnekleri Kullanma

Dia-1.6B’nin en güçlü özelliklerinden biri, ses örneklerinden ses klonlayabilmesidir. Kullanımı şöyle:

Klonlamak istediğiniz sesin bir ses dosyasını hazırlayın (MP3 veya WAV)
Gradio arayüzünde "Audio Prompt" bölümüne ses dosyanızı yükleyin
"Transcript of Audio Prompt" alanına ses dosyasındaki tam metni yazın
Ana metin alanına yeni senaryonuzu ekleyin
Normal şekilde oluşturun

Model ses örneğinizi analiz edecek ve çıkışını ses özelliklerine göre koşullandıracaktır. En iyi sonuçları, en az 10-15 saniye uzunluğunda, net ve kaliteli kayıtlarla aldım.

Ses klonlama mükemmel değil — uzun üretimlerde biraz sapma olabilir — ancak birden fazla üretimde tutarlı karakter sesleri sağlamakta oldukça etkili.

Dia-1.6B’yi Python Uygulamalarına Entegre Etme

Gradio arayüzü denemeler için kullanışlı olsa da, Dia-1.6B’yi kendi Python uygulamalarınıza entegre etmek isteyebilirsiniz. Neyse ki, model Python kütüphanesi olarak kolayca erişilebilir.

Temel Entegrasyon Örneği

Başlamak için basit bir örnek:

import soundfile as sf
from dia.model import Dia

# Modeli yükle
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# Senaryonuzu tanımlayın
text = "[S1] Dia ile Python entegrasyonu gerçekten çok kolay. [S2] Evet, herhangi bir uygulamaya ekleyebilirsiniz. [S1] Harika! (laughs)"

# Ses üret
output = model.generate(text)

# Dosyaya kaydet
sf.write("output.wav", output, 44100)
print("Ses üretildi ve output.wav olarak kaydedildi")

Bu kod modeli yükler, senaryodan konuşma üretir ve WAV dosyası olarak kaydeder. İlk çalıştırmada biraz zaman alabilir, ancak sonraki üretimler çok daha hızlıdır.

Python’da Gelişmiş Ses Klonlama

Ses klonlama üzerinde daha fazla kontrol için audio_prompt_path parametresini kullanabilirsiniz:

import soundfile as sf
from dia.model import Dia

# Modeli yükle
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# Ses örneği detayları
clone_from_audio = "your_voice_sample.mp3"
clone_from_text = "[S1] Bu, klonlamak istediğim ses örneğimin transkripti."

# Klonlanmış sesle yeni senaryo
new_script = "[S1] Bu, ses örneğimdeki sese benzeyecek. [S2] Ama bu tamamen farklı bir ses olacak."

# Ses klonlama ile üret
output = model.generate(
    clone_from_text + new_script,  # İpucu transkripti ve yeni senaryoyu birleştir
    audio_prompt_path=clone_from_audio
)

# Dosyaya kaydet
sf.write("cloned_voice.wav", output, 44100)

Podcast projem için birden fazla dosyada karakter tutarlılığı sağlamakta bu yöntemi çok faydalı buldum.

Çoklu Senaryoları Toplu İşleme

Birden fazla senaryoyu işlemek gerekiyorsa, modeli bir kez yükleyip tekrar kullanmak daha verimlidir:

import soundfile as sf
from dia.model import Dia

# Modeli bir kez yükle
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# İşlenecek senaryolar listesi
scripts = [
    "[S1] Bu ilk senaryo. [S2] Çoklu konuşmacılarla.",
    "[S1] İşte başka bir örnek. [S2] Dia hepsini verimli şekilde yönetiyor.",
    "[S1] Toplu işlem çok daha hızlı. [S2] Katılıyorum! (laughs)"
]

# Her senaryoyu işle
for i, script in enumerate(scripts):
    output = model.generate(script)
    sf.write(f"output_{i+1}.wav", output, 44100)
    print(f"output_{i+1}.wav oluşturuldu")

Bu yöntem, modeli tekrar tekrar yüklemekten kaçınarak önemli ölçüde zaman kazandırır.

Gelişmiş Teknikler ve Optimizasyonlar

Dia-1.6B ile birkaç gün deney yaptıktan sonra, modelden en iyi verimi almak için bazı teknikler keşfettim.

Ses Tutarlılığını Artırma

Dia-1.6B belirli sesler üzerinde ince ayar yapılmadığı için, üretimler arasında ses değişiklikleri olabilir. Tutarlılığı artırmak için:

Rastgele Tohumu Sabitleyin: Şu anda halka açık API’da belgelenmemiş olsa da, üretim öncesi PyTorch rastgele tohumunu ayarlamayı deneyebilirsiniz
Daha Uzun Ses İpuçları Kullanın: 20+ saniyelik ses ipuçları daha tutarlı ses klonlama sonuçları verdi
Konuşmacı Desenlerini Koruyun: Senaryolarınızda tutarlı kalın, örneğin ana anlatıcı için hep [S1] kullanın

Performans Optimizasyonu

Dia-1.6B’den en iyi performansı almak için:

torch.compile Özelliğini Etkinleştirin: Uyumlu GPU’larda bu, çıkarım hızını önemli ölçüde artırabilir:

import torch
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")
# Daha hızlı çıkarım için derlemeyi etkinleştir
if torch.cuda.is_available() and hasattr(torch, 'compile'):
    model.generator = torch.compile(model.generator)

# Kalan kodunuz...

Benzer Senaryoları Toplu İşleyin: Benzer konuşmacı veya ton içeren senaryoları birlikte işleyin, daha tutarlı sonuçlar için
VRAM Kullanımını İzleyin: Bellek hataları alıyorsanız, daha kısa senaryolar deneyin veya daha fazla belleğe sahip bulut örneği kullanmayı düşünün

Yaratıcı Uygulamalar

Testlerim sırasında Dia-1.6B için birkaç ilginç kullanım alanı keşfettim:

Podcast Üretimi: Farklı sunucu ve konuk sesleriyle röportaj tarzı içerikler oluşturma
Sesli Kitap Üretimi: Diyalog ağırlıklı pasajları karakter sesleriyle canlandırma
Dil Öğrenimi: Doğal tonlamalı konuşma örnekleri oluşturma
Oyun Geliştirme: Duygusal aralıklı dinamik NPC diyalogları yaratma

Dia-1.6B’yi Diğer TTS Çözümleriyle Karşılaştırma

Dia-1.6B’nin TTS ekosistemindeki yerini anlamanıza yardımcı olmak için popüler diğer çözümlerle karşılaştırma:

Özellik	Dia-1.6B	ElevenLabs	OpenAI TTS	Sesame CSM-1B
Maliyet	Ücretsiz (Açık Kaynak)	Abonelik bazlı	Kullanım başı ücret	Ücretsiz (Açık Kaynak)
Diyalog Desteği	Yerel çok konuşmacılı	Sınırlı	Sınırlı	Temel
Sözsüz Sesler	Evet (yerel)	Sınırlı	Hayır	Hayır
Ses Klonlama	Evet	Evet (premium)	Sınırlı	Temel
Yerel Kurulum	Evet	Hayır	Hayır	Evet
Dil Desteği	Sadece İngilizce	29+ dil	10+ dil	Sadece İngilizce
Gerekli VRAM	~10GB	Bulut tabanlı	Bulut tabanlı	~4GB
Lisans	Apache 2.0	Tescilli	Tescilli	Apache 2.0

ElevenLabs ve OpenAI daha fazla dil seçeneği sunarken ve yerel donanım gerektirmezken, Dia-1.6B diyalog yetenekleri, sözsüz ses üretimi ve abonelik ücretlerinden tamamen özgür olmasıyla öne çıkar. Sesame CSM-1B’ye kıyasla daha fazla kaynak gerektirir ancak kalite ve özellik açısından belirgin şekilde üstündür.

Çok sayıda örnek karşılaştırdıktan sonra, Dia-1.6B’nin diyalog geçişlerinde ve duygusal ifade zenginliğinde diğer alternatiflerden daha doğal olduğunu gördüm.

Yaygın Sorunların Çözümü

Testlerim sırasında karşılaşabileceğiniz bazı sorunlar ve çözümleri:

CUDA Bellek Yetersizliği Hataları

Belirti: CUDA belleği yetersiz hatası alıyorsunuz.
Çözüm:

Diğer GPU yoğun uygulamaları kapatın
Senaryolarınızın uzunluğunu azaltın
Daha fazla VRAM’e sahip bir makinede çalıştırmayı deneyin

Yavaş Üretim

Belirti: Ses üretimi beklenenden çok daha uzun sürüyor.
Çözüm:

CUDA uyumlu GPU kullandığınızdan emin olun
Optimizasyon bölümünde bahsedilen torch.compile’ı etkinleştirin
GPU kaynaklarını kullanan arka plan işlemlerini kontrol edin

Ses Tutarsızlığı

Belirti: Üretimler arasında sesler çok değişiyor.
Çözüm:

Daha tutarlı sonuçlar için ses ipucu kullanın
Senaryoları benzer alan veya duygusal aralıkta tutun
Sabit rastgele tohumlarla deneyler yapın

Kurulum Bağımlılık Çakışmaları

Belirti: Bağımlılık yükleme sırasında hatalar alıyorsunuz.
Çözüm:

Temiz bir sanal ortam kullanın
pip yerine uv yöntemini deneyin
CUDA toolkit ve GPU sürücülerini güncelleyin

Gelecek Gelişmeler ve Sınırlamalar

Dia-1.6B etkileyici olsa da, mevcut sınırlamaları ve gelecekteki planları not etmek faydalı.

Mevcut Sınırlamalar

Sadece İngilizce Desteği: Şu anda sadece İngilizce metinlerle çalışıyor
GPU Bağımlılığı: Henüz CPU desteği yok, bu da bazı kullanıcılar için erişilebilirliği azaltıyor
VRAM Gereksinimleri: Verimli çalışması için yüksek GPU belleği gerekiyor
Ses Tutarlılığı: İpucu verilmediğinde üretimler arasında farklı sesler oluşabiliyor

Gelecek Yol Haritası

Nari Labs yol haritasına göre, gelecek özellikler şunları içerebilir:

Daha geniş erişim için CPU desteği
Daha az VRAM gerektiren kuantize sürümler
Kolay dağıtım için Docker desteği
Optimize edilmiş çıkarım hızı
Muhtemelen çok dilli destek

Sonuç

Dia-1.6B ile oldukça zaman geçirdikten sonra, Nari Labs’ın küçük ekibinin başardıklarından gerçekten etkilendim. Açık kaynaklı, tescilli alternatiflerle yarışan ve bazı açılardan onları aşan, özellikle diyalog üretiminde güçlü bir TTS modeli yaratmışlar.

Gerçekçi konuşmayı uygulamalarınıza eklemek isteyen geliştiriciler, podcast veya sesli kitap üreten içerik oluşturucular ya da sadece ileri teknoloji yapay zekaya ilgi duyanlar için Dia-1.6B kesinlikle keşfedilmeye değer.

Kurulum süreci basit, model oldukça yetenekli ve her şeyi yerel olarak, abonelik ücreti veya gizlilik endişesi olmadan çalıştırabilmek büyük avantaj. Ayrıca aktif geliştirme ve destekleyici topluluk sayesinde Dia-1.6B gelecekte daha da güçlü hale gelecektir.

Umarım bu kılavuz Dia-1.6B ile başlamanıza yardımcı olur. Burada ele alınmayan sorunlarla karşılaşırsanız, Nari Labs GitHub deposunu inceleyin veya Discord topluluğuna katılarak destek alın. İyi üretimler!