TÜBİTAK, Türk kültürünün korunması için yerli dil modeli geliştiriyor
Yapay zeka teknolojilerindeki Türkçe kaynak kısıtlılığı sorununu çözmek ve Türkiye’nin teknoloji dönüşümünü yakalaması için çalışmalarını sürdüren TÜBİTAK, Türkçe anlayan bir büyük dil modeli geliştiriyor.
Yapay zeka alanındaki çalışmalarını sürdüren TÜBİTAK, “bir Türk gibi düşünecek” yerli bir büyük dil modeli geliştiriyor.
YZ uygulamasının Türkçe kaynaklardan beslenerek Türk arka planına uyarlanması, kullanıcıların uygulamayla etkileşime girerken yerli kültürden uzaklaşmamasını sağlayarak anlaşılabilirliği artıracak.
Yabancı ülkelerde üretilen modellerde Türkçe kaynakların sık kullanılmaması ve Türkçe dil seçeneğinin gelişmemiş olması da Türkiye’nin yapay zeka gelişmelerinin dışına itilmesi riskini barındırıyor.
OpenAI şirketi Türkçe kaynaklara yüzde 0,16 oranında yer verirken Meta’nın büyük dil modelindeki ilk 16 dil arasında Türkçe yer almıyor.
AA’da yayımlanan haberde, TÜBİTAK BİLGEM tarafından geliştirilen modelin “Türkçeyi iyi konuşmasının yanı sıra Türk kültürünü ve hassasiyetlerini de taşıyacağı” belirtiliyor.
Modelin Türkçenin dil yapısını öğrenmesi için internetteki Türkçe makaleler, kitaplar ve diğer metinler kullanılacak.
Bu tarz verilerin bir araya getirildiği bir veri havuzunun oluşturulması için ise çalışmalar devam ediyor.
Kaliteli bir Türkçe dil modeli oluşturmak için Türkçe'nin inceliklerini göz önünde bulunduran bir ön işleme aşaması geçirildi ve uygun derin öğrenme mimarisi belirlendi.
Modelin Türkçeyi ince ayrıntılarıyla öğrenebilmesi için de bir “tokenizer” (sözcüksel analiz programı) geliştirildi. Bu program ile Türkçe’nin büyük dil modelinde etkin şekilde kullanılması sağlandı.
TÜBİTAK, çalışmalarında dil modelini soru sorma ve cevaplama, özetleme, dil üretme, metin sınıflandırma gibi alanlarda geliştirerek olabileceği en iyi haline getirmeyi amaçlıyor.
Milli Teknoloji Hamlesi’nin anahtar parçalarından biri olan dil modeli, Türk kültürünün korunmasında da önemli bir rol oynacak stratejik bir hamle olarak değerlendiriliyor.