• insanin aradigi bir bilgiye ulasmak icin, bilginin olabilecegi dokumanlar, veri tabanlari, tablolar, e- mailller, web sayfalari gibi ortamlari tarayip aradigi bilgiyi bu ortamlar dahilinde bulunan verilerden suzmesi olayidir.

    yillar gectikce bilgi cikarmaya*olan ihtiyac iyice artmistir. bunun bir sebebi alakali veya yakin bilgilere, bunlarin arastirilmasi ve cikarilmasi zaman ve is aldigindan dolayi onem verilmemesidir. sorunlarinin bir cogunu veri depolama ve cikarmanin olusturdugu kutuphanelerde, yillar boyu kataloglama ve veri yonetimi gibi gunluk isler bilgisayarlar tarafindan gerceklestirilmistir. fakat etkili veri cikarma sorunu hicbir zaman cozulmemistir.

    temel olarak bilgi saklama ve cikarma cok basittir. dokumanlardan olusan bir depo oldugu dusunulurse, bir insan bir soruyu, isteklerini karsilayacak dokumanlar kumesini cevap olarak verecek sorguya donusturur. elde ettigi dokumanlari teker teker okur. ihtiyaclarini karsilayan- aradigi bilgileri veren – dokumanlari bir kenara ayirir. digerlerini hesaba katmaz ve dokumanlar deposuna geri koyar. mantik olarak yapilan bu islem mukemmel bilgi cikarimidir. fakat bu yontem uygulanis olarak mumkun olmamaktadir. aranan bilginin elde edilmesi icin okunulmasi gereken dokuman sayisi cok fazla olabilir. kullanicinin bu kadar zamani olmayabilir. ayrica kullanicinin bu dokumanlara fiziksel olarak erismesi de mumkun olmayabilir.

    bilgi cikarma islemi bilgisayarlar tarafindan gerceklestirilecegi icin otomatik bilgi cikarma terimi kullanilmaktadir. otomatik bilgi cikarma isleminin stratejisi butun ilgili dokumanlari ayni zamanda mumkun oldugunca alakasiz dokumanlarla beraber cikarmaktir. bir dokumanin karakteristigi hakkinda calisildiginda, bir dokuman bir sorgu ile alakali ise dokuman sorgu verildiginde cevap verebilecek sekilde olmalidir. bunu gerceklestirebilmek icin dokumanlarin karakteristiklerini belirlemede, dokumanlara anahtar kelimeler atama yolu secilir.

    bu indexleme islemini gerceklestirenler, kullanicinin aradigi dokumana ulasabilmesi icin anahtar kelimelerin dokumanlarin iceriklerini temsil edecek sekilde secerler. bu sekilde dokumanin yakin olabilecegi sorgular olusturulmaktadir. anahtarlama islemi gerceklestirildiginde ayni sekilde bir dokumanin metni veya sorgu girildiginde, cikis, icerigin sunumu olmaktadir.
    mantiksal olarak bir insanin bir sorguya olan yakinliligini atamasi mumkundur. bilgisayar icin ise yakinlilik kararinin verilmesi icin bir model gelistirilmesi gerekmektedir. bilgi cikarma alanindaki bircok arastirma, farkli modellerin baska bakis acisiyla arastirilmasi- dusunulmesi ile ortaya cikmistir.

    bu modeller vektor uzayi modeli, boolean model, olasilik modeli, bulanik* model v.b* *sekilde bulunabilir. ayrica bilgi cikariminin basarisini olcen iki terim bulunmaktadir. bunlar efficiency* ve effectiveness* tir.

    verimlilik genellikle bilgisayarin harcadigi cekirdek, yardimci bellek ve cpu zamani gibi bilgisayar kaynaklariyla olculur. makine bagimsiz bir yolla verimliligin olculmesi zordur. aksi taktirde etkili olma durumuyla beraber olculmelidir. etkililik ise ` precision:dogruluk verecall :geri cagirma `degerleri ile olculur. precision cikarilan ilgili dokumanlarin cikarilan butun dokumanlara orani, recall ise cikarilan ilgili dokumanlarin butun ilgili dokumanlara (cikarilan ve cikarilamayan) oranidir.
6 entry daha
hesabın var mı? giriş yap