şükela:  tümü | bugün soru sor
  • ing. stemming. enformasyon bilim, doğal dil işleme, hesaplamalı dilbilim gibi sahalarda ihtiyaç duyulan bir metin işleme aşaması. özellikle türkçe gibi eklemeli dillerde önem arz eden bir iştir. verilen bir kelimenin, varsa, çekim ekleri çıkartılır ve gövde elde edilir. ancak türkçe gibi dillerde kelimenin birden çok olası gövdesi bulunabilir. bu gövdelerden ancak biri kelimenin içinde bulunduğu bağlam için doğrudur. bunu belirlemek de disambiguation işlemidir ve gövdelemeden sonraki aşamadır. iyi bir gövdeleyici, kelimenin içerebileceği olası bütün gövdeleri sunabilmelidir.

    iki temel gövdeleme yöntemi vardır: kural tabanlı ve olasılıksal. kural tabanlı gövdeleyicilere en karakteristik örnek finite state machine (fsm) kullanan gövdeleyicilerdir. olasılıksal gövdeleme için de hidden markov model yöntemiyle gövdeleme örnek verilebilir. olasılıksal gövdeleyiciler bir kelimeye ait olabilecek aday gövdeleri belli bir olasılık sıralamasına göre sunabilirken fsm ile bu pek mümkün değildir.
  • kelimelerin yüzey biçimleri yani cümle içinde kullanıma çıkmış şekillerinin sözlük düzeyindeki karşılıklarını belirleme işlemidir. hesaplamalı dil bilimi ve enformasyon bilimi sahalarında bir metin işleme aşaması olarak karşımıza çıkar. bu işlemin pratik faydasını şöyle örnekleyebiliriz: google üzerinde diyelim ki "otomobillerde" şeklinde bir sorgu yapıyoruz. eğer sorgumuz gövdeleme işlemine tabi tutulmazsa içinde yalnızca "otomobillerde" deyimi geçen dokümanlar getirilecektir. gövdeleme gerçekleştirilirse, bu yüzey biçiminin sözlükteki karşılığı olan "otomobil" şekline ulaşılacak ve bu kelimenin geçtiği dokümanlar da arama sonucu olarak sunulacaktır. bilgi geri getiriminde gövdelemenin türkçe gibi eklemeli dillerle yapılan aramalardaki katkısı büyüktür.

    türkçede kelimelerin morfolojik yapısı çoğunlukla "kök+yapım eki+çekim eki" şeklindedir. gövdeleme, çekim eklerinin kelimeden çıkartılması olarak da düşünülebilir. internet gibi çok çok büyük sayılarda belgenin bulunduğu bir ortamda gövdeleme işinin otomatik olarak yapılması gerekir. bunun için birtakım yöntemler önerilmiştir: tabloya bakma (table lookup), ardıl değişimi (successor variety), n-gram ve ek atma (affix removal). tabloya bakma yönteminde yüzey biçimleri ve karşılığı olan gövdelerin bulunduğu bir listede arama yapılır. sondan eklemeli bir dil olduğu için türkçede böyle bir liste oluşturulması neredeyse imkansızdır. çünkü bir kelime kökünden çok fazla sayıda yüzey biçimi üretilebilir. ardıl değişimi yöntemi büyükçe bir derlemden elde edilen verilerle bir kelimenin gövdesini belirlemeye dayanır. örnek üzerinden anlatmak daha basit olur:

    gövdesini belirlemek istediğimiz kelime "yazarım" olsun.

    diyelim ki derlemimizde şu kelimeler bulunsun: yemek, yemekte, yemeksiz, yük, yüklü, yaz, yazın, yazar, yazarlık, yazarda, yazarın, yazara, yazarım.

    gövdelemek istediğimiz kelimeye ilişkin olarak derlemden elde edilen ardıl değişimi tablomuz şöyle oluşur:

    y------------3----------e,ü,a--(derlemde "y" birliğinden sonra 3 değişik harf gelmiş: ye..., yü..., ya...)
    ya----------1----------z--------("ya" birliğinden sonra yalnızca "z" harfi gelmiş)
    yaz---------2----------ı,a------(artış)
    yaza-------1----------r
    yazar------4----------l,d,ı,a---(artış)
    yazarı-----2----------n,m
    yazarım---1----------{boş}--("yazarım" birliğinden sonra herhangi bir harfe rastlanmamış)

    bu tabloda elde edilen frekanslar kelime üzerinde soldan sağa doğru gidildikçe azalmalıdır. artma görülen yerler olası gövde sınırlarıdır. "yazarım" kelimesi için olası iki gövde "yaz" ve "yazar" şeklinde belirlenir.

    n-gram yönteminde, yine bir eğitim derleminden elde edilen frekanslar kullanılır. sözkonusu derlem üzerinde gövdeler belirlenmiş olmalıdır. buna göre n adet harf birliğinin gövdede veya gövde dışında kalma olasılıkları belirlenerek verilen bir test kelimesi için en olası gövdeleme tespit edilir. ardıl değişimi yönteminde derlemde bir işaretleme yapılmasına gerek yoktur. yani danışmansız öğrenme sözkonusudur. n-gram ise danışmanlı öğrenmeye örnektir.

    ek atma yönteminde, kelime ön ve son eklerden temizlenerek gövdeye ulaşılır. kural tabanlı bir yaklaşımdır ve morfolojik çözümleme gerektirir. türkçe için bir uygulamaya şuradan ulaşılabilir: http://turkoloji.cu.edu.tr/dilbilim/morfo_soz.pdf
  • türkçe literatürde diğer bir kullanımı da sıkılama şeklindedir. türkçe literatürde kök çözümleme ve sözbirimleştirme olarak kullanılan lemmatization ile aralarındaki temel fark:

    stemming algoritmalarının, ekli bir kelimede bulunabilen ortak ön eklerin ve son eklerin bir listesini dikkate alarak kelimenin başlangıcını veya sonunu kesmeye çalışması; lemmatization algoritmalarınınsa aynı işlemde kelimelerin morfolojik analizini dikkate almasıdır.

    https://anilozbek.blogspot.com/…-lemmatization.html