beautiful soup *
-
müthiş bir python modülü! web'den sonuç çekmek için bire bir. herhangi bir web sayfasından html ya da xml dökümanları parçalayarak istediğiniz biçimde, istediğiniz bilgilere erişmenizi sağlar.
http://www.crummy.com/software/beautifulsoup/
ayrıca aynı yazılımın ruby için bir versiyonu da mevcut : http://www.crummy.com/software/rubyfulsoup/
konu hakkında güzel (ve türkçe) bir tarışma : http://forum.ceviz.net/…ython-projeleri-t43201.html -
(bkz: lxml)
-
belki python'dan kaynakli oldugu icindir bilemiyorum fakat neyi nasil yaptigini anlamadigim modul. kullaniyorum elbette pek sikinti cekmiyorum fakat cok high level be abi. dokumantasyon okumak lazim
-
adınını alice harikalar diyarındaki tosbağının söylediği şarkıdan alan, html ve xml'den veri çekmeye yarayan mükemmel python kütüphanesi. düzenli ifadelerle uğraşmak yerine işini hızlıca yapar.
örnek: eksisozluk'un bu başlığına yazan yazarların adlarını almak için:
a_list = []
r = requests.get('eksisozluk. com/beautiful-soup--1899249')
soup = beautifulsoup(r.text, 'html.parser')
a = soup.findall('a', class_='entry-author')
for a in a:
----a_list.append(a.get_text(strip=true))
print(a_list)
['hooker with a penis', 'se7enbullet', 'pyschedelic smurf', 'kbc64']
şarkı için:
https://www.youtube.com/watch?v=yi62pmk4kts -
scrapping denilen veri çekme modulü. (python)
bs4 sürümü kullanımdadır. -
html ve xml dosyalarını internet üzerinden bilgisayarınıza indirip istediğiniz kısımları parçalamaya yarayan bir python modülü. özelikle metin madenciliği için veri toplamada oldukça kullanışlı.
şunu belirtmek lazım tabiki; eğer request ile çektiğiniz url sayfasında script ile yüklenen bir dosya varsa problem oluyor ve beautifulsoup çalışmıyor. bu durumda dryscrape ve selenium tarzı modüller kullanılabilir. ancak göreli olarak beautifulsoup'tan yavaşlar. -
python harika kütüphanelerinden biri. web sitelerinden otomatik veri çekme için birebir. çok iyi dokümantasyonu var. ayrıca bu kütüphane ile ilgili bolca video,tuturial, kitap ve destek bulabilirsiniz. dom erişimi ve manipülasyonu çok esnek.
ajax isteklerini de parse edebilir. ama eğer bot, spyder daha doğrusu web crawling yapılacaksa yetersiz kalabiliyor, ya da zorlanabilirsiniz. bu durumda imdadınıza (bkz: scrapy) yetişiyor.
sonuç olarak web scraping, crwaling için çok iyi başlangıç noktası kıymetini bilelim. -
yukarıda paylaşılan kodun mevcut durumda çalışması için header a user agent setlemesi yapılmalıdır. aksi takdirde eksisozluk.com sunucusu response vermeyecektir.
-
bugün e-bay’deki erkek saat marka, model, fiyat ve link bilgilerini bir csv file’a kaydetmemi sağlamış, hayat kurtaran bir modül.
-
kullanımı çok rahat olan python modülüdür. requests ve urllib modülleriyle birlikte harikalar yaratabilir. bu modülü kullanarak birkaç dakikada rastgele entry numarası yazmak başlığında, kendi entry'sine numara verenleri buldum.
buyrunuz: #103542271
ekşi sözlük kullanıcılarıyla mesajlaşmak ve yazdıkları entry'leri
takip etmek için giriş yapmalısın.
hesabın var mı? giriş yap