Arama butonu
Bu konudaki kullanıcılar: 1 misafir, 1 mobil kullanıcı
12
Cevap
427
Tıklama
0
Öne Çıkarma
JAVA HTML PARSİNG YARDIM LÜTFEN
G
8 yıl
Binbaşı
Konu Sahibi

Arkadaşlar merhaba. Bir web sayfasında kelime arama yapma programı yapmam gerekiyor. Mesela bu sayfada 've' kelimesini arayacağım.

Yapabildiğim şu. Bu sayfanın html'inde arama yapabiliyorum. Ama html'de etiketler linkler vs oluyor. Benim sadece sayfada gözüken yazılar üzerinde arama yapmam gerekli. Yol gösterecek var mı, çok memnun olurum yardım ederseniz.

DH forumlarında vakit geçirmekten keyif alıyor gibisin ancak giriş yapmadığını görüyoruz.

Üye olduğunda özel mesaj gönderebilir, beğendiğin konuları favorilerine ekleyip takibe alabilir ve daha önce gezdiğin konulara hızlıca erişebilirsin.

Üye Ol Şimdi Değil



T
8 yıl
Yarbay

Kullanmanıza izin veriliyorsa open source java html parserlar ile text datasını exclude etmen gerek öncesinde. Onun içerisinde arama yapabilirsin daha sonrasında. Eğer izin verilmiyor ise html taglerini anlayan ve bu tagleri trim edebilen fonksiyonlar kendin yazmalısın.

Şurası sana anafikri verecektir :https://stackoverflow.com/questions/3507353/how-to-parse-only-text-from-html


Bu mesaja 1 cevap geldi.
G
8 yıl
Binbaşı
Konu Sahibi

quote:

Orijinalden alıntı: theVerge

Kullanmanıza izin veriliyorsa open source java html parserlar ile text datasını exclude etmen gerek öncesinde. Onun içerisinde arama yapabilirsin daha sonrasında. Eğer izin verilmiyor ise html taglerini anlayan ve bu tagleri trim edebilen fonksiyonlar kendin yazmalısın.

Şurası sana anafikri verecektir :https://stackoverflow.com/questions/3507353/how-to-parse-only-text-from-html

Hocam jsoup kullanıyorum. Mesela sadece p etiketi içerisindeki yazıları almak istersem alabiliyorum. Ama bunun bir standardını nasıl bulacağım hangi sayfada hangi etiketli yazılar sayfada gözüküyor onu nereden bileceğim ?


Bu mesaja 1 cevap geldi.
T
8 yıl
Yarbay

jsoup kullanıyorsunuz madem doc dan faydalanabilirdiniz..

yineden bilgi olarak vereyim size..

html sayfasını bir string'e okuyun..

gerisini jsoup hallediyor..
https://jsoup.org/apidocs/org/jsoup/package-summary.html
https://jsoup.org/apidocs/org/jsoup/Jsoup.html
https://jsoup.org/apidocs/org/jsoup/nodes/Document.html

String html = "...";
Document doc = Jsoup.parse(html);
System.out.println(doc.text());

veya sadece body'i istiyorsanız

System.out.println(doc.body().text());

sizin case için doc.text() içeriğinde istediğiniz "..." içeriği kolayca aratabilirsiniz..





< Bu mesaj bu kişi tarafından değiştirildi theVerge -- 29 Kasım 2017; 23:12:10 >
Bu mesaja 1 cevap geldi.

Bu mesajda bahsedilenler: @.Davy Jones.
G
8 yıl
Binbaşı
Konu Sahibi

quote:

Orijinalden alıntı: theVerge

jsoup kullanıyorsunuz madem doc dan faydalanabilirdiniz..

yineden bilgi olarak vereyim size..

html sayfasını bir string'e okuyun..

gerisini jsoup hallediyor..
https://jsoup.org/apidocs/org/jsoup/package-summary.html
https://jsoup.org/apidocs/org/jsoup/Jsoup.html
https://jsoup.org/apidocs/org/jsoup/nodes/Document.html

String html = "...";
Document doc = Jsoup.parse(html);
System.out.println(doc.text());

veya sadece body'i istiyorsanız

System.out.println(doc.body().text());

sizin case için doc.text() içeriğinde istediğiniz "..." içeriği kolayca aratabilirsiniz..

Hocam dediklerinizin hepsini yaptım zaten. Sadece body kısmını almak istersem ya da sadece bir etiketli kısmı almak istersem alabiliyorum.

Yalnız benim sadece o web sayfasında kullanıcıya gözüken kelimeler arasından arama yapmam gerekiyor. google chrome ctrl f özelliği gibi.

Mesela şu sayfayı örnek alalım.

https://www.btk.gov.tr/tr-TR/Sayfalar/SG-SIBER-GUVENLIK-KURULU

Buradan sadece body kısmını alabiliyorum. Ama body kısmını alınca açık olmayan menüler, sayfada gözükmeyen linkler vs de ekleniyor işin içine.

Ben sadece sayfada gözüken yerleri almak istiyorum. Sadece sayfada gözüken yerleri nasıl anlayıp koda aktaracağım. Yani bunun her site için bir standardı var mıdır. mesela bu sitede p etiketli yerleri alınca sayfada gözüken yerlerin büyük bir kısmını almış oluyorum. Ama sol taraftaki linkler alınmıyor.

Mesela başka bir site için başka etiketli yerler sayfada gözüküyordur. Bunun standardını nasıl bulacağım. Google chrome'un ctrl f özelliği nasıl çalışır. bunu anlayabilsem..


Bu mesaja 1 cevap geldi.
G
8 yıl
Binbaşı
Konu Sahibi

Hocam bu kodu denedim ama aynı yeri birçok kez yazdırıyor, bir de sadece sayfada görünen kısımları çekmiyor kapalı menüler de yazanları da alıyor.

Mesela şu sayfada denerseniz kapalı menülerin içeriğini de yazdırdığını görebilirsiniz.

https://www.btk.gov.tr/tr-TR/Sayfalar/SG-SIBER-GUVENLIK-KURULU


Bu mesaja 1 cevap geldi.

Bu mesajda bahsedilenler: @revivo72
DH Mobil uygulaması ile devam edin. Mobil tarayıcınız ile mümkün olanların yanı sıra, birçok yeni ve faydalı özelliğe erişin. Gizle ve güncelleme çıkana kadar tekrar gösterme.