İletişim, hayatımızda önemli bir rol oynar. İnsanlar işaretler, semboller ile daha sonra dillerle iletişim kurmaya (konuşma) başladıkları bir aşamaya geçtiler. Bu gelişmeden sonra bilgi işlem ve iletişim teknolojileri geldi. Makineler insanlarla ve bazı durumlarda kendileriyle de iletişim kurmaya başladı. İletişim, internet dünyasını yarattı ya da teknik olarak bildiğimiz gibi Nesnelerin İnterneti’ni (IoT). İşte Makine öğrenmeyi içeren konuşma tanıma teknolojisinin gelişimini yazımızda inceleyeceğiz.
Nesnelerin interneti hakkında detaylı bilgi için tıklayınız. |
Konuşma Tanıma Teknolojisinin Gelişimi ve Makine Öğrenmesi
İnternet veri kullanmanın yeni yollarını ortaya çıkardı. Makine Öğrenimi, makineleri eğiterek doğrudan veya dolaylı olarak iletişim kurmamızı sağlar. Bundan önce, makinelerle iletişim kurmak için bir bilgisayara erişmemiz gerekiyordu.
Araştırma ve geliştirme faaliyetleri, bilgisayar kullanımının bir kısmını büyük ölçüde ortadan kaldırmak için başlamıştır. Bu teknolojiyi Otomatik Konuşma Tanıma olarak biliyoruz. Doğal Dil İşleme‘ye (NLP) dayanarak, konuştuğumuz doğal dili kullanarak makinelerle etkileşime girmemizi sağlar.
Konuşma Tanıma alanındaki ilk araştırma başarılı olmuştur. O zamandan beri, konuşma bilimcileri ve mühendisleri konuşma tanıma motorlarını doğru şekilde optimize etmeyi amaçlamaktadır. Nihai amaç, makinenin etkileşimini duruma göre optimize etmektir, böylece hata oranları azaltılabilir ve verimlilik arttırılabilir.
Virginia merkezli GoVivace Inc. kuruluşu on yıldan fazla bir süredir ince ayarlı konuşma tanıma teknolojilerinin geliştirilmesine başlamıştır. Konuşma tanıma teknolojilerinin ve çözümlerinin tasarımı ve geliştirilmesinde sürekli uzmanlaşmıştır.
Otomatik Konuşma Tanıma ve Uygulamaları
Otomatik Konuşma Tanıma (ASR) teknolojisi, iki farklı dalın (Bilgisayar Bilimi ve Dilbilim) birleşimidir. Bilgisayar Bilimi algoritmaları tasarlamak ve programlamaktır. Dilbilim ise sözcük, cümle ve kelime öbekleri sözlüğü oluşturmaktır.
-
Konuşma Transkripsiyonu Oluşturma
Geliştirmenin ilk aşaması, sesin metne dönüştürüldüğü konuşma metinleriyle, yani metin dönüşümünün konuşmasıyla başlar. Bundan sonra, sistem filtreleme yoluyla istenmeyen sinyalleri veya paraziti kaldırır. Bir kelime veya cümle söylerken farklı ses hızlarımız var, bu nedenle genel konuşma tanıma modeli bu oran değişikliklerini hesaba katacak şekilde tasarlanmıştır.
Daha sonra, sesleri tanımlamak için sinyaller ayrıca bölünür. Fonemler, “b” ve “p” gibi aynı hava akış seviyesine sahip harflerdir. Bundan sonra program, dilbilim sözlükte depolanan kelimeler ve cümleler ile bir karşılaştırma yaparak tam kelimeyle eşleşmeye çalışır. Ardından, konuşma tanıma algoritması, tam sözcüğü belirlemek için istatistiksel ve matematiksel modellemeyi kullanır.
Konuşma Tanıma sistemleri, şu anda iki türdendir.
Bir sistem türü, öğrenme modu ile diğer bir insan bağımlı sistem olarak gerçekleştirilir. Yapay Zeka (AI) ve Büyük Veri (Big Data)’deki gelişmelerle konuşma tanıma teknolojisi bir sonraki seviyeye ulaştı. Uzun süreli kısa süreli hafıza denilen spesifik bir sinir mimarisi bu alanda önemli bir gelişme elde etti. Küresel olarak, kuruluşlar çok çeşitli görevler için konuşmanın gücünü kendi seviyelerinde farklı seviyelerde kullanmaktadırlar.
Metin yazılımına konuşma, ses dosyalarını metin dosyalarına dönüştürmek için kullanılabilir. Metin yazılımına konuşma, her sözcük için zaman damgaları ve güven puanı içerir. Pek çok ülkede kendi dillerinde yerleşik klavyeleri yoktur ve çoğu kişi, sözlü olarak iyi olsalar da, belirli bir dil klavyesini kullanma fikrine sahip değildir. Bu gibi durumlarda, konuşma metni, konuşmaları herhangi bir dilde metne dönüştürmelerine yardımcı olur.
Yapay zeka kategorisi için tıklayınız. |
-
Gerçek Zamanlı Başlık Sistemi – Hareketli Başlıklar
Bu teknolojinin bir diğer kullanımı gerçek zamanlıdır. Gerçek zamanlı olarak yapılan teknoloji, Bilgisayar Destekli Gerçek Zamanlı Çeviri olarak bilinir. Temel olarak, gerçek zamanlı olarak çalışan metin sistemine yapılan bir konuşmadır. Tüm dünyadaki organizasyonlar toplantı ve konferanslar düzenlenmektedir.
Küresel izleyicilerin maksimum katılımı için canlı altyazı sistemlerinin gücünü kullanmaktadırlar. Gerçek zamanlı altyazı sistemi, konuşmayı metne dönüştürür ve çıktı ekranında görüntüler. Konuşmayı bir dilde diğer dillerin metnine çevirir ve ayrıca bir sunum veya konuşmanın notlarını almanıza yardımcı olur. Bu sistemler konuşmayı işitme engelli kişilerin de anladığı metne dönüştürür.
-
Voice Biometric System – Kimlik Doğrulamanın Akıllı Yolu
Konuşma metinden başka, teknoloji şubesini, kullanıcıların kimliğini doğrulamak için ses biyometrisi yaratan biyometrik sisteme yayar. Ses biyometrik sistemleri, modülasyon, telaffuzlar ve diğer unsurlar gibi faktörlere bağlı olarak konuşmacının sesini analiz eder.
Bu sistemlerde, konuşmacının örnek sesi analiz edilir ve şablon olarak saklanır. Kullanıcı, cümle veya cümleyi her söylediğinde, ses biyometrisi sistemi bunları saklanan şablonla karşılaştırır ve kimlik doğrulama sağlar. Bununla birlikte, bu sistemler birçok zorlukla karşı karşıyadır. Sesimiz daima fiziksel faktörlerden veya duygusal durumdan etkilenir.
Biyometrik ses sistemlerindeki son gelişmeler, ifadeyi örnekle eşleştirerek çalışır. Bundan sonra, ses kalıplarını psikolojik ve davranışsal ses sinyalini dikkate alarak analiz eder. Ayrıca ses biyometrisi teknolojisindeki gelişmeler, veri güvenliğinin önemli bir endişe kaynağı olduğu işletmelere yardımcı olacaktır.
-
Analitik İçin Konuşmayı Kullanma
Analitik, konuşma tanıma teknolojisinin geliştirilmesinde önemli bir rol oynamaktadır. Büyük veri analizi, ses verilerinin depolanması için bir ihtiyaç yarattı. Çağrı merkezleri, çalışanlarının eğitimi için kaydedilen çağrıları kullanmaya başladı. Çünkü müşteri memnuniyeti şimdi dünyadaki organizasyonların ana odağıdır. Artık kuruluşlar, yöneticiler ve müşteriler arasındaki konuşmaları izlemek ve analiz etmek istiyor.
Çağrı Analitiği uygulamalarıyla, kuruluşlar aramanın performansını ve analizini izleyebilir ve ölçebilir. Bu çağrı analitik çözümü, çağrı merkezleri tarafından sağlanan hizmetlerin performansını arttırmaktadır. Bu sayede müşterileri daha hızlı, uygun cevaplar vererek müşterilerine sınıflandırabilir ve onlara daha iyi hizmet edebilir.
Konuşma Tanıma Teknolojisinin Önümüzdeki Yolu
Konuşma tanıma teknolojisinde araştırma yapmak için uzun bir yol var. Şimdiye kadar, program yalnızca talimatlara göre hareket edebilir. İnsanın makinelerle iletişim hissi tamamen mevcut değildir. Araştırmacılar, insanlara karşı duyarlılığı makinelere sokmaya çalışmaktadır. Bu teknolojinin yenilikçiliğinde uzun bir yol var.
Araştırmanın birincil özelliği, konuşma tanıma teknolojisinin nasıl daha doğru hale getirileceğine odaklanmaktadır. İnsan dilini anlamak için daha fazla kesinliğe ihtiyacımız vardır. Örneğin, bir kişi “kamera ışık ayarlarını nasıl değiştiririm?” sorusunu gündeme getirmiştir. Bu soru teknik olarak kişinin kamera flaşını ayarlamak istediği anlamına gelir. Bu yüzden önemli konsantrasyon, belirli soruları cevaplamadan önce insanların serbest biçim dilini anlama üzerinedir.
Genel olarak, bu teknolojiyle makine öğrenmesi küresel olarak organizasyonlara girmeyi başardı. Etkili ve verimli sonuçlar vermeye başladı. Çok yakında, otomatik stenografın tanıtılacağı toplantıların ve sunumların düzenlenmesinde aktif rol almaya başlayacağı bir gün görüyor olabiliriz.