• utf standardinin unicode'u 8-bit'lik parcalara ceviren hali. 0-127 arasindaki ascii karakterler aynen transform edilirken 127-10 yuzbin milyon arasindaki unicode karakterler birden fazla byte serisi kullanilarak transform edilir.

    bu da ascii olarak "sedat kapano·µòlu" gibi acayip encoding'e yol acar.

    utf-8 ietf tarafindan tum internet protokollerindeki standart encoding kabul edilmi$tir ve gerekli protokol implementasyonu tarafindan mutlaka en azindan desteklenmesi gereken encoding'dir.

    en buyuk avantaji codepage-neutral olmasi bir utf-8 dokumanin her yola gelebilmesidir.

    (bkz: utf-7)
    (bkz: utf-16)
    (bkz: utf-32)
  • web gelistiricilerin kullanmasi gereken encoding turudur. iso-8859-9 yerine utf-8 kullandiginizda elde edeceginiz baslica birkac avantaj sunlar:
    - ajax uygulamalarinda turkce karakter sorunu yasamazsiniz
    - mysql gibi bir veritabani kullaniyorsaniz turkce karakter sorunlariniz buyuk olcude ortadan kalkar
    - rss feedlerde rahat edersiniz
    - php/asp ile bir yerlerden bilgi cekiyor/gonderiyorsaniz rahat edersiniz
    - microsoft word ile gelen icerigi kullandiginizda firefox'da gorunmeyen imla isaretleri sorununu cozersiniz
    - cok dilli bir site yapiyorsaniz ayni sablonlari kullanir cok rahat edersiniz

    dikkat etmeniz gerekenler:

    - php/mysql'de rahat etmek icin baglanti scriptinize sunlari ekleyin:
    mysql_query("set names 'utf8'");
    mysql_query("set character set utf8");
    mysql_query("set collation_connection = 'utf8_turkish_ci'");

    - asla notepad kullanmayin, cunku utf-8 dosya kadederken mutlaka bom ekliyor (bom basligina mutlaka bakin neymis diye). duzgun calisan dosyanizi notepad ile editlerseniz siteniz sapitir, css'ler yanlis cikabilir, meshur bom karakterleri alakasiz yerlerde gozukebilir. kullandiginiz metin duzenleyicisinin ayarlarina bakin, bom'u iptal eden ayari secin, boyle bir ayar yoksa kullanmayin.

    iso ile yaptiginiz bir siteyi nasil utf-8'e cevirirsiniz?
    - bircok dosyayi toplu halde farkli bir encoding'e ceviren bir program kullanin. bunlarin en iyisi asagidaki linkte:
    http://members.at.infoseek.co.jp/…download/cec.html (bu link ölürse google'da "character encoding converter 1.1" diye aratin baska yerden indirin)
    options'a girip "without bom" seceneklerini secin.
    ana ekranda "from: windows-1254 to:utf-8" secin. iso kullaniyor olsaniz bile windows-1254 secin yoksa word'den paste ettiginiz karakterler utf-8'e cevrildiginde yok olur.
    sitenizdeki klasorlere tek tek girin, butun dosyalari secin, metin dosyalari disindaki swf, jpg, avi gibi binary dosyalari secmeyin, secilen dosyalari bu programin ustune surukleyip birakin, utf-8'e cevrilen dosyalariniz "output directory"e kaydedilecek, klasordeki binary dosyalari da ekleyin, eski klasorun yerine bunu koyun... tabii ki <meta http-equiv="content-type" content="text/html; charset=utf-8" /> satirini da unutmayin.

    mysql'i nasil utf-8'e cevireceksiniz?
    once veritabani yedegini alin. phpmyadmin kullanin, export seceneklerinden excel2000'i secin. tablonuzu "empty/sifirla" yapin, tablo yapisinda collation'i utf8_turkish_ci' yapin. excel'de actiginiz veriyi csv olarak save edin, sonra bu csv dosyasini notepad ya da dreamweaver ile acip utf-8 olarak kaydedin, yeniden import edin.
  • muhteşem bir kodlamadır. bence dünya üzerindeki bütün programlar bu kodlamayla çalışmalıdır. farklı kodlamalarla program veya web siteleri yapanlar aşırı büyük hatta kocaman cezalara çarptırılmalıdır. (para cezası, hapis mapus vs.) o derece güzeldir, o derece tatlıdır.
  • türkçe karakter içermediği için benden zamanında oldukça fazla küfür yemiş encoding formatı. cep telefonundan ilk entry'i girdikten sonra* sokaklarda "allahım ssg görmesin n'oluuurr!!" diye topuklar göte vura vura entry editleyecek internet cafe aramak için birebir formattır. neyse ki iso 8859-9 var da küfür yemekten kurtuldu gariban 8-bitlik charset.
  • c#* ta bir dosyadan birşeyler okuduğunuzda bu kodlamada türkçe karakterleri de alabilirsiniz. eğer dosya kaydedilirken ascii veya unicode seçilmişse okunan veriler arasında türkçe karakterler atlanmış oluyor. eğer türkçe karakterleri de sorun çıkarmadan okumak istiyorsanız, dökümanları kaydederken bu kodlamada kaydetmeniz yeterli olacaktır.
  • karakter boyutları değişkendir. ascii -olması gerektiği gibi- tek byte ile gösterilirken, diğer karakterler multi-byte olarak temsil edilir. olay şu şekildedir:

    *ascii karakterleri 0-127 arasında değer alırlar ve buna bağlı olarak ilk bit daima 0 olur. bu nedenle, eğer 0'la başlayan bir byte okunuyorsa, ascii olduğu ve yalnızca 1 byte okunması gerektiği anlaşılır.

    *ascii dışı, yani değerinin 127'den fazla olduğu multi-byte karakterlerin ilk bitleri 1 ile başlayıp 0 ile biter; 11..0 gibi. buradaki 1'ler okunan karakterin kaç byte'a yayıldığını gösterir. yani eğer değer 110..... şeklindeyse karakter 2 byte, 1110... ise karakter 3 byte ile temsil ediliyordur.

    *multi-byte olan karakterlerin header byte'tan sonraki byte'ları daima 10 ile başlar.

    çok hoştur, estetiktir.
  • bana gore

    - gps/navigasyon
    - mp3 player'i kasete donusturup arabanin teybinde dinleme aparati

    ile beraber dunyanin en buyuk icatlari listesindedir. veriyorsun ibranice, veriyorsun japonca bana misin demiyor meret. .net framework'un buna verdigi muazzam destegi ve programlama kolayligini da gozardi etmemek gerek.

    ich liebe utf-8.
  • bence o kadar güzel ki, diğer tüm encoding standartları iptal edilip sadece bu kullanılmalı.
  • isimi oyle kolaylastiriyor ki, hastasiyim. eskiden ne ugrasirdik code pageler, encodingler... yapistir utf-8 kafa rahat.
hesabın var mı? giriş yap