• microsoft araştırma grubunun çıkarttığı xgboost` vb'ye alternatif; daha hızlı, daha gpu'lu, daha yüksek başarımlı çalıştığı idda edilen procesi.

    kendileri şöyle açıklamışlar:

    """a fast, distributed, high performance gradient boosting (gbdt, gbrt, gbm or mart) framework based on decision tree algorithms, used for ranking, classification and many other machine learning tasks. ıt is under the umbrella of the dmtk(http://github.com/microsoft/dmtk) project of microsoft. """

    https://github.com/microsoft/lightgbm
  • günümüz için kaggle yarışmalarının gözde framework'udur.

    en büyük getirisinin kategorik featurelar olduğu kanaatindeyim. keza xgboost feature set'i sizden nümerik olarak beklerken, lightgbm'e şunlar şunlar kategoriktir diye belirtebilirsiniz.

    milyonlar mertebesinde satırdan ve binler mertebesinde sütundan oluşan bir veri setiniz olduğunuz düşünün. kategorik bir sütununuzu xgboost kullanmak isterseniz one hot encoding uygulamanız gerekecektir. pandas ile data manipülasyonunu yapıyorsanız pandas'ın single core çalışmasından dolayı bu işlem saatlerinizi alacaktır. ancak lightgbm kullanıyorsanız bu sütunum kategoriktir diyip geçeceksiniz.

    pre-processing adımında olduğu gibi model eğitimi adımında da ciddi hız kazandırmaktadır. cpu için 10 kat daha hızlı olduğunu yazan araştırmalar bulunuyor. gpu kullanıyorsanız eğitim için işin tam tersine döndüğünü yazan bir kaç yazı okumuştum ama hepsi pre-processing adımını göz ardı etmekteydi.

    model başarısı konusunda ise lightgbm her zaman xgboost'un yüzdesel olarak 1-2 puan gerisinde kalmakta. ancak veri bilimi çalışmalarının büyük bölümü feature engineering olduğundan çok fazla deneme yanılma yapmanız gerekmekte. yani lightgbm ile 10 model deneyebildiğiniz zamanda xgboost ile sadece bir model deneyebiliyorsunuz. çok kaba bir yaklaşımla projenizin erken aşamalarında yani feature engineering'i bol bol yapacağınız dönemde lightgbm ile modeller kurup, son aşamasında modelinizi xgboost ile değiştirmek hız ve zaman konularında size fayda sağlayacaktır.

    (bkz: gbm)
    (bkz: gradient boosting)
  • xgboost'un training süresindeki performansını arttırmaya yönelik geliştirilen bir gradient boosting machine türüdür. level-wise büyüme stratejisi yerine leaf-wise büyüme stratejisi kullandığı için xgboost'tan daha hızlıdır. yani xgboost daha geniş kapsamlı bir büyüme izlerken, lightgbm daha derinlemesine ve yapraklara odaklı bir büyüme gerçekleştirir.
hesabın var mı? giriş yap