• insanin aradigi bir bilgiye ulasmak icin, bilginin olabilecegi dokumanlar, veri tabanlari, tablolar, e- mailller, web sayfalari gibi ortamlari tarayip aradigi bilgiyi bu ortamlar dahilinde bulunan verilerden suzmesi olayidir.

    yillar gectikce bilgi cikarmaya*olan ihtiyac iyice artmistir. bunun bir sebebi alakali veya yakin bilgilere, bunlarin arastirilmasi ve cikarilmasi zaman ve is aldigindan dolayi onem verilmemesidir. sorunlarinin bir cogunu veri depolama ve cikarmanin olusturdugu kutuphanelerde, yillar boyu kataloglama ve veri yonetimi gibi gunluk isler bilgisayarlar tarafindan gerceklestirilmistir. fakat etkili veri cikarma sorunu hicbir zaman cozulmemistir.

    temel olarak bilgi saklama ve cikarma cok basittir. dokumanlardan olusan bir depo oldugu dusunulurse, bir insan bir soruyu, isteklerini karsilayacak dokumanlar kumesini cevap olarak verecek sorguya donusturur. elde ettigi dokumanlari teker teker okur. ihtiyaclarini karsilayan- aradigi bilgileri veren – dokumanlari bir kenara ayirir. digerlerini hesaba katmaz ve dokumanlar deposuna geri koyar. mantik olarak yapilan bu islem mukemmel bilgi cikarimidir. fakat bu yontem uygulanis olarak mumkun olmamaktadir. aranan bilginin elde edilmesi icin okunulmasi gereken dokuman sayisi cok fazla olabilir. kullanicinin bu kadar zamani olmayabilir. ayrica kullanicinin bu dokumanlara fiziksel olarak erismesi de mumkun olmayabilir.

    bilgi cikarma islemi bilgisayarlar tarafindan gerceklestirilecegi icin otomatik bilgi cikarma terimi kullanilmaktadir. otomatik bilgi cikarma isleminin stratejisi butun ilgili dokumanlari ayni zamanda mumkun oldugunca alakasiz dokumanlarla beraber cikarmaktir. bir dokumanin karakteristigi hakkinda calisildiginda, bir dokuman bir sorgu ile alakali ise dokuman sorgu verildiginde cevap verebilecek sekilde olmalidir. bunu gerceklestirebilmek icin dokumanlarin karakteristiklerini belirlemede, dokumanlara anahtar kelimeler atama yolu secilir.

    bu indexleme islemini gerceklestirenler, kullanicinin aradigi dokumana ulasabilmesi icin anahtar kelimelerin dokumanlarin iceriklerini temsil edecek sekilde secerler. bu sekilde dokumanin yakin olabilecegi sorgular olusturulmaktadir. anahtarlama islemi gerceklestirildiginde ayni sekilde bir dokumanin metni veya sorgu girildiginde, cikis, icerigin sunumu olmaktadir.
    mantiksal olarak bir insanin bir sorguya olan yakinliligini atamasi mumkundur. bilgisayar icin ise yakinlilik kararinin verilmesi icin bir model gelistirilmesi gerekmektedir. bilgi cikarma alanindaki bircok arastirma, farkli modellerin baska bakis acisiyla arastirilmasi- dusunulmesi ile ortaya cikmistir.

    bu modeller vektor uzayi modeli, boolean model, olasilik modeli, bulanik* model v.b* *sekilde bulunabilir. ayrica bilgi cikariminin basarisini olcen iki terim bulunmaktadir. bunlar efficiency* ve effectiveness* tir.

    verimlilik genellikle bilgisayarin harcadigi cekirdek, yardimci bellek ve cpu zamani gibi bilgisayar kaynaklariyla olculur. makine bagimsiz bir yolla verimliligin olculmesi zordur. aksi taktirde etkili olma durumuyla beraber olculmelidir. etkililik ise ` precision:dogruluk verecall :geri cagirma `degerleri ile olculur. precision cikarilan ilgili dokumanlarin cikarilan butun dokumanlara orani, recall ise cikarilan ilgili dokumanlarin butun ilgili dokumanlara (cikarilan ve cikarilamayan) oranidir.
  • ing. bilgi arastirmak ve bulmak. * birdatabaseicerisinde aranilan data'ya ulasilma metodu. google bu isi yapmaktadir mesela.

    acm bunyesinde bulunan special interest groupu * icin:

    http://www.acm.org/sigir/
  • boğaziçi üniversiteis aptullah kuran kütüphanesi'nin periodicals*'s bağlı biriminin adı. buradan akademik veritabanlarında bağlanabilirisiniz. adı brazille ilişkilendirinçe nahoş çağrışımlar yapsa da bu şekilde afişe edilmektedir.

    (bkz: isim benzerliği)
  • ir'i sadece geleneksel manada search engine'lerin yaptigi isin altindaki alan olarak gormek ir'i oldukca sinirlayan bir bakis acisi olur. nitekim ir;

    * foundations. ir theory, ir architecture, content representation, indexing, ranked retrieval, collaborative ir,
    relevance feedback, interactive ir, ir evaluation, user studies
    * techniques. machine learning for ir, learning to rank, clustering, ir scalability and efficiency, adversarial ir, user
    modeling for ir, citation analysis for ir, non-topical analysis for ir (genre detection, authorship attribution, attitude
    detection), privacy in ir
    * content. text retrieval, cross-language retrieval, structured documents, language-specific ir, metadata-based ir, social tagging for ir, music ir, speech ir, image ir, video ir
    * applications. web ir, advertisement targeting, question answering, enterprise search, filtering, summarization, text mining, digital libraries, domain specific ir, mobile ir

    gibi oldukca genis bir scale'de konular icerir ve unstructured data'dan bir seyler ogrenme ihtiyaci oldugunda devreye girer.
  • "acm special interest group on xabc yefg zigh : sigxyz" formatında konferansları ve dergileri "sigir" diye adlandırıldığından, ilgilenenleri ve sevenlerini aramızda "sığırcı" diye adlandırdığımız bilgisayar bilimleri dalı. varsa yoksa, tersine dosya (inverted file*).
  • yarın finali var ama çalışamıyorum. çünkü ultra sıkıcı bir ders. akademik dal olarak da bu kadar sıkıcı mıdır bilemem. epey fazla websitesini ilgilendirdiği için bu alanda uzmanlaşmanız size para getirir gibi duruyor. fakat gerçekten çok sıkıcı. biraz nlp işleyip, sözlük yapıp kelimeleri indekslemek ve basit aramalar yapmak eğlenceliydi. fakat sonra dönemin yarısı bu aramaları nasıl iyileştirebiliriz odağına kitlendi. o değil de gerçekten çok sıkıcı.
hesabın var mı? giriş yap