80 entry daha
  • peşin not: country şarkılarında bol bol içkiden bahsedildiğini fark etmem üzerine internette yaptığım gezintiler sonucu aşağıdaki makaleyi buldum. google translate ile çevirerek elimden geldiğince düzelttim ve burada dursun istedim. buyrun.

    spotify’ın hot country ve country nights çalma listeleri sayesinde, kısa süre önce country müziği dinlemede alışılmadık bir aşamaya girdim. rock normalde daha çok benim tarzım, bu yüzden bu benim için bir ilkti. country'nin ne kadar akılda kalıcı olabileceğini hemen anladıktan sonra, beni gerçekten etkileyen şey, alkol ve içkiye çok fazla atıfta bulunulmasıydı!

    aşağıda chris stapleton'dan şu satırlara bakalım. alkolsüz şeylerin de benzetme sanatında kullanılabileceğini biliyor mu?

    tennessee viskisi kadar pürüzsüzsün
    çilekli şarap kadar tatlısın
    bir bardak brendi kadar sıcaksın

    tennessee whiskey - chris stapleton

    ya da osborne kardeşler'den gelen bu satırlara ne dersiniz? gerçekten onların suçu değil mi?

    biranın suçunu viskiye at
    viskinin suçunu biraya
    sabahın suçunu ise geceye at

    it ain’t my fault (benim suçum değil) - brothers osborne

    country müziğini düşündüğümde, bira ve viski kafamdaki imajının bir parçası, ancak rock veya rap / hip-hop müziğinde olduğu kadar değil. country'de yeni olduğum için alkolden daha fazla bahsedip bahsetmediğini veya müzik türleri arasında bu konuda gerçekten ölçülebilir bir fark olup olmadığını merak ettim.

    bulmak için yapmam gereken şeyler şuydu:

    - rock, pop, country vb. gibi türe özgü listeleri olan billboard web sitesinden farklı müzik türlerindeki popüler şarkıların bir listesini almak
    - şarkı sözlerini almak
    - alkol ve alkolle ilgili kelimelerin bir listesini almak
    - kaç şarkının bu kelimelerden bahsettiğini saymak

    bu süreç sandığımdan biraz daha uzun sürdü ancak aşağıda süreç, analiz ve bulgulara ilişkin umarım zevk alabileceğiniz bir analiz var artık.

    veri toplama ve ayıklama

    beş yıllık listeleri biriktirmek

    ilk adım, her tür için şarkılardan oluşan bir veri kümesi oluşturmaktı. billboard web sitesindeki yıl sonu çizelgelerini normalde 100 entry uzunluğunda oldukları için kullanmaya karar verdim, bu yüzden çok fazla veri sağlayacak ve bu türlerde insanların gerçekten dinlediklerini temsil ettiğinden emin olabilirim. bunlar amerikan listeleri, ancak amerika (beğensek de beğenmesek de) dünya çapındaki trendi belirleme eğiliminde olduğundan ve en büyük country müzik kitlesine sahip olduğundan, bu proje için en iyi veri kaynağı olduklarını düşünüyorum.

    billboard web sitesinde rock, country, pop, r&b/hip-hop, dans/electronic, hristiyan müziği için grafikler (chart'lar) var ve ben de referans için türe özgü olmayan genel hot 100 chart'ını dahil etmeye karar verdim. ingilizce olmayan şarkılar daha sonraki analiz sonuçlarını çarpıtacağı için latin veya uluslararası listeleri dahil etmedim.

    yukarıdaki bağlantılar 2017 yıl sonu çizelgelerine aittir, ancak hepsi en az 2013 yılına kadar uzanmaktadır. zaman içindeki eğilimleri araştırabilmek için son beş yılın tamamını almaya karar verdim.

    bir hot chart'ı olmayan pop haricinde, her tür için esas olarak "hot" listelerini kullanıyorum burada. hot chart'lar, radyo çalmalarını, fiziksel satışları ve stream'leri hesaba katarken, pop chart yalnızca radyo çalmalarını esas alıyor. her durumda, her türden insanların dinlediklerini iyi bir şekilde temsil etmeleri gerekir.

    bazı şarkılar birden fazla grafikte veya yılda görünebilir. herhangi bir grafiğin içeriğini değiştirmek istemediğim için tekrar eden şarkıları kaldırmıyorum.

    her bir web sayfasından, her bir chart'ta yer alan şarkıcı ve şarkı ismini almak için (extract) python beautiful soup library'yi kullandım. bu, chrome'da bir web sayfasında ctrl + shift + i tuşlarına bastığınızda gördüğünüz html ile aynıdır.

    görsel

    bunu yaparken, 2015 r&b/hip-hop chart'ında normalde diğer yıllarda 100 olan entry sayısının 25 olduğu gibi bazı sorunlar buldum. veya 2016 hot 100'de sadece 99 entry var çünkü #87 eksik. bu sorunların arkasındaki nedenler hakkında hiçbir fikrim yok, ancak daha sonra analizimi yaparken grafik uzunluklarının hepsinin farklı olabileceğini hesaba kattım.

    2.840 şarkı sözüni toplamak

    chart toplama 3.019 chart entry'si buldu ve genius.com’un api'sini kullanarak bunlardan 2.840 tanesinin sözlerini almayı başardım. sadece kayıt olmanız gerekiyor, o zaman kullanmak ücretsiz. kodumda, genius.com’un api'siyle çalışmayı çok kolaylaştıran lyricsgenius python paketini kullandım.

    bu aşamada yaşadığım sorunlar, billboard'un kullandığı şarkı ve sanatçı adlarını genius tarafından kullanılanlarla eşleştirmekti. örneğin bir şarkının birden fazla sanatçıya ait olmasıyla ilgili pek çok sorun vardı. billboard'da sanatçı isimlerini bir araya getirmenin birçok yolu vardı: "featuring", "x" (kygo x selena gomez gibi), "with" vb. ama genius çok daha seçiciydi, bu yüzden farklı kombinasyonları denemeliydim.

    sonunda, bu sorunları bulmaya çalışmak için harcanan zaman artık buna değmezdi. 2.840, toplam entry'lerin %94'ünü oluşturuyor, bu yüzden o noktada devam etmeye karar verdim. listeye göre şarkı sözü bulunan şarkı sayısı aşağıdadır.

    rock: 483
    country: 490
    dans/elektronik: 442
    pop: 240
    hot 100: 476
    r&b/hip-hop: 379
    hristiyan müziği: 322

    (analiz yüzdeleri karşılaştırdığından, farklı miktarların bulunması daha sonraki sonuçları etkilemeyecek.)

    şarkı sözlerini ayıklamaca

    kaçırılan veya yanlış sayımlara neden olan bir kelimenin birden çok fiil çekimi, çoğul veya varyasyonundan kaçınmak için sözcükleri kökenine göre gruplamak için leammatizasyonu kullandım. örneğin, "yürüdü", "yürür" ve "yürümek" fiillerinin tümü "yürümek" olarak gruplandırdım. (“walked”, “walks” ve “walking” kelimelerinin hepsi “walk” kelimesi altında toplanacak şekilde.)

    bunun işe yaraması için tüm kelimelerin konuşma bölümlerinin etiketlenmiş olması gerekiyordu. bu etiketler fiil, sıfat, zarf veya isim/diğer şeyler olabilir. normalde cümleleri konuşma parçasını etiketleyen algortimaya iletirsiniz, ancak bu durumda şarkılarda noktalama işareti olmaması nedeniyle sözleri satırlara böldüm ve geçtim.

    her iki task için de python nltk kütüphanesini kullandım ve bayağı işe yaradı. 6 kelimeye kadar ortak bir kaynak kelime olarak gruplandırıldı. örneğin, “go,” “going,” “gone,” “goes,” “gon” and “went”, hepsi sadece "go" şeklinde gruplandırıldı.

    analiz etme aşaması

    içki ve alkol kelimeleri için bir liste oluşturma

    alkolle ilgili önceden yapılmış olan bir anahtar kelime listesi aradım ancak maalesef bulamadım. bu yüzden, aklıma gelen tüm anahtar kelimeleri düşünme ve daha fazlasını bulmaya çalışmak için eş anlamlılarını google'lama gibi son derece bilimsel bir yöntem kullanarak kendi yöntemimi yaptım.

    “içki” (drink) ve “shot” ı alkol almaya yetecek kadar spesifik olmadıklarından bu listeden muaf tuttum. ilk önce onlarla denedim ama bazı yüksek hata oranlarına neden oldular. hristiyan şarkıları için özellikle kötüydü, tespit edilen 11 şarkıdan 8'i bu iki kelimeden dolayı yanlış pozitif çıktı.

    geldiğim son liste şuydu:
    drunk, drank, alcohol, alcoholic, hangover, hungover, liquor, cocktail, booze, boozy, bottle, beer, cider, ale, tequila, vodka, wine, gin, whiskey, scotch, rum, bourbon, champagne, mojito, martini, daiquiri, jager, jagermeister, budweiser, miller, coors, heineken, bacardi, smirnoff, moet, hennessy, bar, pint, firewater, hootch, moonshine, spirits, swig, tipple

    içme ve alkol ifadelerinin ölçülmesi

    kullandığım ölçü, içki veya alkolle ilgili bir kelimeden en az bir kez bahseden şarkıların yüzdesidir.

    daha fazla uzatmadan billboard listelerinde içki içmekten bahseden şarkıların yüzdesi:

    görsel

    vaov! country müzik şarkıları alkolden çok daha fazla bahsediyor gibi görünüyor. alkole atıfta bulunan şarkıların %40'ı bana bir şekilde yüksek göründü, bu yüzden 2017 ülke şarkılarını manuel olarak kontrol ettim ve kabul edilebilir bir hata oranı olduğunu düşündüğüm sadece bir yanlış pozitif buldum (yours by russell dickerson'daki "bottle" dan kaynaklanan). bu analiz için yıl sonu grafiklerinin kullanıldığını hatırlarsanız, yüksek sonuç daha mantıklıdır. yani bu tüm country müzik şarkılarının %40'ının içki içmekten bahsettiği anlamına gelmiyor, sadece son beş yılın en popüler şarkılarının %40'ı bunu yapıyor.

    farkın önemli olması durumunda hipotez testi

    asıl sorumun cevabını alma zamanı: daha fazla country şarkısı alkol ve diğer türlerden daha fazla içmeye gönderme yapıyor mu?

    aşağıdaki çizelgede gösterildiği gibi, ülke ve diğer türler arasında açıkça ölçülen bir fark vardır. bununla birlikte, iki farklı grubu ölçerseniz, sonucun sadece rastgele varyasyonlar nedeniyle biraz farklı olmasını beklersiniz. farkın istatistiksel olarak anlamlı olacak kadar büyük olduğunu doğrulamak istiyorum, bu da rastgele varyasyondan kaynaklanma olasılığının düşük olduğunu söylemenin başka bir yoludur.

    bu test için hot 100 ve hristiyan müziği chart sonuçlarını devre dışı bırakıyorum çünkü hot 100 türe özgü değil ve hristiyan müziği chart'ı zaten alkolden çok az bahsediyor ve en azından benim için ana akım bir tür değil.

    görsel

    veriler kategorik veriler olduğundan, istatistiksel önemi bir chi-squared bağımsızlık testi ile test edeceğim. bu kategorik verilerdir çünkü şarkılar alkole atıfta bulunsun veya bulunmasın, bir ara değer yoktur.

    test, "p-değeri" adı verilen bir güven göstergesi çıkarır ve eğer bu benim seçtiğim önem seviyesinin altındaysa, o zaman ölçümlerin farklı olduğu ve ölçülen farkın rastgele varyasyondan kaynaklanmadığı söylenebilir. 0.05 önem düzeyini seçiyorum, bu yalnızca %5 olasılıkla sonucun yanlış olduğu anlamına gelir. boş hipotez (null hypothesis), country müziğinde alkolden bahseden şarkıların miktarı ile diğer türler arasında hiçbir fark olmamasıdır.

    (null hypothesis: bir istatistiğin değerinin önceden belirlenen bir değere eşit olduğu önerisinin test edilmesi.)

    sonuç şu:

    p-value = 2.71698301e-34

    sonuç: fark önemlidir

    e-34, 271… başlamadan önce ondalık noktadan sonra 33 sıfır olduğu anlamına gelir. bu, p değeri için 0,05 gerekliliğinin çok altında küçük bir sonuçtur! boş hipotez reddedilebilir ve country müzik şarkılarının diğer türlere göre alkolden bahsetme olasılığının daha yüksek olduğu sonucuna varılabilir.

    yıllara göre alkolden bahseden şarkıların yüzdesine bakıldığında, country müziğinin her yıl önde olduğu görülebileceği gibi, bu farkı daha da artırıyor.

    görsel

    eğlenceli gerçekler

    farklı içki türleri nelerdir?

    viski ve burbon gibi çok az bahsi geçen içecek çeşitleri bu çizelgeden çıkarıldı.

    görsel

    en çok içmekle alakalı anahtar kelime hangi country şarkısında bahsedildi?

    dierks bentley’den drunk on a plane, brett eldredge’den drunk on your love ve chris stapleton’dan tennessee whiskey 14'er mention ile berabere. tennessee whiskey ayrıca 2015, 2016 ve 2017 listelerinde görünme başarısını da başardı.

    alkolden bahsetme konusunda bir eğilim var mı?

    evet, alkolden bahsedenler son 5 yılda yüzde 5 puan arttı.

    görsel

    kaynak: towardsdatascience

    edit: imla ve eklemeler
12 entry daha
hesabın var mı? giriş yap