beautiful soup ^*

müthiş bir python modülü! web'den sonuç çekmek için bire bir. herhangi bir web sayfasından html ya da xml dökümanları parçalayarak istediğiniz biçimde, istediğiniz bilgilere erişmenizi sağlar.

http://www.crummy.com/software/beautifulsoup/

ayrıca aynı yazılımın ruby için bir versiyonu da mevcut : http://www.crummy.com/software/rubyfulsoup/

konu hakkında güzel (ve türkçe) bir tarışma : http://forum.ceviz.net/…ython-projeleri-t43201.html

hooker with a penis

27.05.2008 02:13
(bkz: lxml)

se7enbullet

04.05.2011 22:10
belki python'dan kaynakli oldugu icindir bilemiyorum fakat neyi nasil yaptigini anlamadigim modul. kullaniyorum elbette pek sikinti cekmiyorum fakat cok high level be abi. dokumantasyon okumak lazim

pyschedelic smurf

22.04.2016 23:05
adınını alice harikalar diyarındaki tosbağının söylediği şarkıdan alan, html ve xml'den veri çekmeye yarayan mükemmel python kütüphanesi. düzenli ifadelerle uğraşmak yerine işini hızlıca yapar.

örnek: eksisozluk'un bu başlığına yazan yazarların adlarını almak için:

a_list = []
r = requests.get('eksisozluk. com/beautiful-soup--1899249')
soup = beautifulsoup(r.text, 'html.parser')
a = soup.findall('a', class_='entry-author')

for a in a:
----a_list.append(a.get_text(strip=true))
print(a_list)
['hooker with a penis', 'se7enbullet', 'pyschedelic smurf', 'kbc64']

şarkı için:
https://www.youtube.com/watch?v=yi62pmk4kts

kbc64

02.04.2018 20:10 ~ 23:38

scrapping denilen veri çekme modulü. (python)

bs4 sürümü kullanımdadır.

av node

25.02.2019 05:45
html ve xml dosyalarını internet üzerinden bilgisayarınıza indirip istediğiniz kısımları parçalamaya yarayan bir python modülü. özelikle metin madenciliği için veri toplamada oldukça kullanışlı.

şunu belirtmek lazım tabiki; eğer request ile çektiğiniz url sayfasında script ile yüklenen bir dosya varsa problem oluyor ve beautifulsoup çalışmıyor. bu durumda dryscrape ve selenium tarzı modüller kullanılabilir. ancak göreli olarak beautifulsoup'tan yavaşlar.

tartus

17.05.2019 08:22
python harika kütüphanelerinden biri. web sitelerinden otomatik veri çekme için birebir. çok iyi dokümantasyonu var. ayrıca bu kütüphane ile ilgili bolca video,tuturial, kitap ve destek bulabilirsiniz. dom erişimi ve manipülasyonu çok esnek.
ajax isteklerini de parse edebilir. ama eğer bot, spyder daha doğrusu web crawling yapılacaksa yetersiz kalabiliyor, ya da zorlanabilirsiniz. bu durumda imdadınıza (bkz: scrapy) yetişiyor.
sonuç olarak web scraping, crwaling için çok iyi başlangıç noktası kıymetini bilelim.

lurkingvar

24.07.2019 00:51
yukarıda paylaşılan kodun mevcut durumda çalışması için header a user agent setlemesi yapılmalıdır. aksi takdirde eksisozluk.com sunucusu response vermeyecektir.

tun tun tun

01.11.2019 00:06
bugün e-bay’deki erkek saat marka, model, fiyat ve link bilgilerini bir csv file’a kaydetmemi sağlamış, hayat kurtaran bir modül.

atanamayandevletbahceli

09.04.2020 14:43
kullanımı çok rahat olan python modülüdür. requests ve urllib modülleriyle birlikte harikalar yaratabilir. bu modülü kullanarak birkaç dakikada rastgele entry numarası yazmak başlığında, kendi entry'sine numara verenleri buldum.

buyrunuz: #103542271

robotwhisperer

09.04.2020 14:48

beautiful soup *

beautiful soup ^*