1. Products
  2.   Editor
  3.   Java
  4.   jsoup
 
  

jsoup: An Parser HTML do Java

Scrapáil, glan, agus manipiligh HTML le simplíocht cosúil le jQuery i Java

Cad é jsoup?

Is leabharlann Java éadrom ach cumhachtach é jsoup atá deartha chun obair le HTML fíor. Soláthraíonn sé API simplí chun HTML a pharsáil ó URLanna, comhaid nó teaghráin, sonraí a easpórtáil agus a mhanipiliú ag baint úsáide as trasnú DOM, roghnóirí CSS, agus modhanna nua-aimseartha HTML5. Ideálach le haghaidh scrapála gréasáin, easpórtáil sonraí, agus sláintíocht HTML, déileálann jsoup go héasca le marcáil mhífhoirmithe - díreach mar a dhéanfadh brabhsálaí.

Murab ionann agus cur chuigeanna regex, tairgeann jsoup samhal réad glan le modhanna inspiortha ag jQuery, ag simpliú tascanna cosúil le foirm a chur isteach, modhnú airíonna, agus easpórtáil téacs. Gan spleáchais agus le ceadúnas MIT, is é an rogha is fearr é d’fhorbróirí Java a bhfuil próiseáil iontaofa HTML ag teastáil uathu.

Buntáistí móra jsoup:

  • Déileáil le HTML fíor: Parsálann HTML míshlachtmhar cosúil le brabhsálaithe
  • Comhréir cosúil le jQuery: Roghnóirí CSS aithnidiúla (m.sh. doc.select("div.content"))
  • Oiriúnach do scrapáil: Leanann atreoruithe, déileálann le fianáin, agus cuir isteach foirmeacha
  • Ilardán: Java íon gan spleáchais dhúchasacha
  • Slándáil: Cosc XSS inghlactha agus sláintíocht HTML

Ideálach le haghaidh mianadóireachta sonraí, uathoibriú gréasáin, agus anailís ábhair.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Cén fáth jsoup a roghnú?

  • Simplíocht: API intuigthe le tacaíocht roghnóra CSS
  • Iontaofacht: Cothabháil go gníomhach ó 2009
  • Feidhmíocht: Optamaithe le haghaidh sruthú agus doiciméid mhóra
  • Solúbthacht: Oibríonn le bloic, comhaid nó URLanna beo
  • Aschur glan: Formáidíonn agus athstruchtúrálann HTML

Suiteáil

Cuir jsoup leis trí Maven nó Gradle:

Maven



    org.jsoup
    jsoup
    1.17.2


Gradle


implementation 'org.jsoup:jsoup:1.17.2'

Riachtanais Chórais: Java 8+

Samplaí Cód

Cásanna úsáide praiticiúla jsoup:

Anailís HTML le jsoup

Sampla 1: Parsáil Doiciméad ó Théacs

Má tá HTML agat i dteaghrán Java agus más mian leat é a pharsáil chun a ábhar a fháil nó a mhodhnú, is féidir le jsoup é seo a dhéanamh le cúpla líne cód.

Cuireann an modh parse(String html, String baseUri) an HTML ionchuir ina Doiciméad nua. Cuidíonn an paraiméadar baseUri le URLanna coibhneasta a réiteach go URLanna iomlána agus ba chóir dó a bheith comhoiriúnach leis an URL ónar baineadh an doiciméad. Mura bhfuil sé seo ábhartha nó má tá eilimint <base> sa HTML, is féidir leat an modh níos simplí parse(String html) a úsáid ina ionad.

Sampla 2: Úsáid Roghnóirí CSS chun Eilimintí a Aimsigh

Ba mhaith leat eilimintí a aimsiú nó a mhanipiliú ag baint úsáide as roghnóirí CSS. Parsáil agus manipiligh teaghrán HTML go díreach:

Sampla 3: Modhnú HTML Eiliminte

Ní mór duit HTML eiliminte a mhodhnú. Úsáid modhanna socraí HTML in Element mar a thaispeántar sa sampla cód:

Gnéithe Casta

Tacaíonn jsoup le próiseáil gairmiúil HTML:

  • Déileáil le Foirmeacha: Seol sonraí POST:

    Seoladh Foirme

    
        Connection.Response res = Jsoup.connect("https://example.com/login")
            .data("username", "user", "password", "pass")
            .method(Connection.Method.POST)
            .execute();
        Document dashboard = res.parse();
        
    
  • Tacaíocht Seachfhreastalaí: Scrapáil trí sheachfhreastalaí:

    
        Document doc = Jsoup.connect("https://target.com")
            .proxy("127.0.0.1", 8080)
            .get();
        
    
  • Manipiliú DOM: Modhnú struchtúr HTML:

    Athruithe DOM

    
        doc.select("div.ads").remove(); // Bain gach fógra
        doc.select("h1").attr("class", "header"); // Cuir rang CSS leis
        
    

jsoup vs. HTMLUnit

Difríochtaí Príomha:

  • Fócas: Parsálann jsoup HTML statach; Déanann HTMLUnit brabhsálaithe a shamhlú (forghníomhú JavaScript)
  • Luas: Tá jsoup níos tapúla le haghaidh parsála HTML íon
  • Stíl API: Úsáideann jsoup roghnóirí CSS; Déanann HTMLUnit aithris ar Selenium
  • Cásanna Úsáide: jsoup le haghaidh scrapála; HTMLUnit le haghaidh tástála leathanaigh dinimiciúla
  • Spleáchais: Níl aon spleáchais ag jsoup; Teastaíonn leabharlanna breise ó HTMLUnit

Conclúid

Is é jsoup an uirlisíocht HTML deiridh d’fhorbróirí Java. Ideálach le haghaidh:

  • Scrapáil Gréasáin: Sonraí a easpórtáil ó aon suíomh gréasáin
  • Glanadh Sonraí: Sláintíocht agus normalú HTML
  • Anailís Ábhair: Parsáil feed RSS nó cartlanna gréasáin
  • Tástáil: Bailíocht struchtúr HTML in aipeanna

Le ceadúnas MIT agus API intuigthe, is é jsoup an rogha is fearr le haghaidh próiseála HTML i Java.

Similar Products

 Gaeilge