jsoup: An Parser HTML do Java
Scrapáil, glan, agus manipiligh HTML le simplíocht cosúil le jQuery i Java
Cad é jsoup?
Is leabharlann Java éadrom ach cumhachtach é jsoup atá deartha chun obair le HTML fíor. Soláthraíonn sé API simplí chun HTML a pharsáil ó URLanna, comhaid nó teaghráin, sonraí a easpórtáil agus a mhanipiliú ag baint úsáide as trasnú DOM, roghnóirí CSS, agus modhanna nua-aimseartha HTML5. Ideálach le haghaidh scrapála gréasáin, easpórtáil sonraí, agus sláintíocht HTML, déileálann jsoup go héasca le marcáil mhífhoirmithe - díreach mar a dhéanfadh brabhsálaí.
Murab ionann agus cur chuigeanna regex, tairgeann jsoup samhal réad glan le modhanna inspiortha ag jQuery, ag simpliú tascanna cosúil le foirm a chur isteach, modhnú airíonna, agus easpórtáil téacs. Gan spleáchais agus le ceadúnas MIT, is é an rogha is fearr é d’fhorbróirí Java a bhfuil próiseáil iontaofa HTML ag teastáil uathu.
Buntáistí móra jsoup:
- Déileáil le HTML fíor: Parsálann HTML míshlachtmhar cosúil le brabhsálaithe
- Comhréir cosúil le jQuery: Roghnóirí CSS aithnidiúla (m.sh.
doc.select("div.content")
) - Oiriúnach do scrapáil: Leanann atreoruithe, déileálann le fianáin, agus cuir isteach foirmeacha
- Ilardán: Java íon gan spleáchais dhúchasacha
- Slándáil: Cosc XSS inghlactha agus sláintíocht HTML
Ideálach le haghaidh mianadóireachta sonraí, uathoibriú gréasáin, agus anailís ábhair.
Cén fáth jsoup a roghnú?
- Simplíocht: API intuigthe le tacaíocht roghnóra CSS
- Iontaofacht: Cothabháil go gníomhach ó 2009
- Feidhmíocht: Optamaithe le haghaidh sruthú agus doiciméid mhóra
- Solúbthacht: Oibríonn le bloic, comhaid nó URLanna beo
- Aschur glan: Formáidíonn agus athstruchtúrálann HTML
Suiteáil
Cuir jsoup leis trí Maven nó Gradle:
Maven
org.jsoup
jsoup
1.17.2
Gradle
implementation 'org.jsoup:jsoup:1.17.2'
Riachtanais Chórais: Java 8+
Samplaí Cód
Cásanna úsáide praiticiúla jsoup:
Sampla 1: Parsáil Doiciméad ó Théacs
Má tá HTML agat i dteaghrán Java agus más mian leat é a pharsáil chun a ábhar a fháil nó a mhodhnú, is féidir le jsoup é seo a dhéanamh le cúpla líne cód.
Cuireann an modh parse(String html, String baseUri) an HTML ionchuir ina Doiciméad nua. Cuidíonn an paraiméadar baseUri le URLanna coibhneasta a réiteach go URLanna iomlána agus ba chóir dó a bheith comhoiriúnach leis an URL ónar baineadh an doiciméad. Mura bhfuil sé seo ábhartha nó má tá eilimint <base> sa HTML, is féidir leat an modh níos simplí parse(String html) a úsáid ina ionad.
Sampla 2: Úsáid Roghnóirí CSS chun Eilimintí a Aimsigh
Ba mhaith leat eilimintí a aimsiú nó a mhanipiliú ag baint úsáide as roghnóirí CSS. Parsáil agus manipiligh teaghrán HTML go díreach:
Sampla 3: Modhnú HTML Eiliminte
Ní mór duit HTML eiliminte a mhodhnú. Úsáid modhanna socraí HTML in Element mar a thaispeántar sa sampla cód:
Gnéithe Casta
Tacaíonn jsoup le próiseáil gairmiúil HTML:
- Déileáil le Foirmeacha: Seol sonraí POST:
Seoladh Foirme
Connection.Response res = Jsoup.connect("https://example.com/login") .data("username", "user", "password", "pass") .method(Connection.Method.POST) .execute(); Document dashboard = res.parse();
- Tacaíocht Seachfhreastalaí: Scrapáil trí sheachfhreastalaí:
Document doc = Jsoup.connect("https://target.com") .proxy("127.0.0.1", 8080) .get();
- Manipiliú DOM: Modhnú struchtúr HTML:
Athruithe DOM
doc.select("div.ads").remove(); // Bain gach fógra doc.select("h1").attr("class", "header"); // Cuir rang CSS leis
jsoup vs. HTMLUnit
Difríochtaí Príomha:
- Fócas: Parsálann jsoup HTML statach; Déanann HTMLUnit brabhsálaithe a shamhlú (forghníomhú JavaScript)
- Luas: Tá jsoup níos tapúla le haghaidh parsála HTML íon
- Stíl API: Úsáideann jsoup roghnóirí CSS; Déanann HTMLUnit aithris ar Selenium
- Cásanna Úsáide: jsoup le haghaidh scrapála; HTMLUnit le haghaidh tástála leathanaigh dinimiciúla
- Spleáchais: Níl aon spleáchais ag jsoup; Teastaíonn leabharlanna breise ó HTMLUnit
Conclúid
Is é jsoup an uirlisíocht HTML deiridh d’fhorbróirí Java. Ideálach le haghaidh:
- Scrapáil Gréasáin: Sonraí a easpórtáil ó aon suíomh gréasáin
- Glanadh Sonraí: Sláintíocht agus normalú HTML
- Anailís Ábhair: Parsáil feed RSS nó cartlanna gréasáin
- Tástáil: Bailíocht struchtúr HTML in aipeanna
Le ceadúnas MIT agus API intuigthe, is é jsoup an rogha is fearr le haghaidh próiseála HTML i Java.
Similar Products
- pdf-lib | Eagarthóir PDF JavaScript | Cruthaigh agus athraigh PDFs
- pdfdhéanamh | Leabharlann JavaScript le haghaidh Cruthú Dearbhaithe PDF
- PDFKit | Dinimiciúla JavaScript Leabharlann Cruthaithe PDF
- python-docx | Python DOCX Editor API | Cruthaigh & Athraigh comhaid DOCX
- API Apache PDFBox do Java – Aistriú agus Ionramháil Téacs i PDF