spaCy: NLP Tionsclaíoch d'Fheidhmeanna Réadacha

Próiseáil agus anailís a dhéanamh ar mhórchuid téacs le notálacha teangeolaíocha tapa cruinn.

Cad é API spaCy?

Is leabharlann nua-aimseartha Python é spaCy le haghaidh Próiseála Teanga Nádúrtha (NLP) chasta a chuireann ar chumas duit téacs a phróiseáil go héifeachtach ar scála mór. Deartha go sonrach le haghaidh úsáide tionsclaíche, tá spaCy níos fearr ná leabharlanna NLP acadúla ó thaobh luais agus cruinnis agus tacaíocht láidir aige le haghaidh comhtháthú foghlama doimhin.

Buntáistí móra spaCy:

  • Feidhmíocht thar a bheith tapa: Cód Cython optamaithe a phróiseálann na mílte doiciméad in aghaidh an tsoicind.
  • Samhlacha réamh-oilte: Tá samhlacha staitistiúla cruinne ann do 20+ teanga.
  • Comhtháthú foghlama doimhin: Comhoiriúnacht gan stró le PyTorch agus TensorFlow.
  • Píblíne táirgeachta: Tacaíocht ionchlánithe le haghaidh sraitheachta, pacáistithe dénártha agus rollta amach samhlacha.

Ó aithint aonáin ainmnithe go rangú téacs saincheaptha, soláthraíonn spaCy na huirlisí atá ag teastáil le haghaidh feidhmeanna NLP réadacha.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Cén fáth spaCy a roghnú?

  • Cruthaithe sa tionscal: Úsáideann 85% de chuideachtaí Fortune 500 é le haghaidh tascanna NLP.
  • Cruinneas den scoth: Baineann samhlacha bunaithe ar chlaochlóirí (m.sh. en_core_web_trf) torthaí den scoth amach ar thascanna tagarmharc.
  • Éifeachtach ó thaobh cuimhne: Próiseálann doiciméid mhóra gan gach rud a lódáil isteach sa chuimhne.
  • Ailtireacht inbhuanaithe: Is féidir comhpháirteanna saincheaptha a chur leis an bpíblíne próiseála.
  • Pobal gníomhach: Níos mó ná 25,000 réalta GitHub agus doiciméadú cuimsitheach.

Suiteáil

Teastaíonn Python 3.6+ ó spaCy agus is féidir é a shuiteáil le pip. Chun an fheidhmíocht is fearr a bhaint amach, molaimid na samhlacha réamh-oilte a úsáid:

Suiteáil Bhunúsach


pip install spacy
python -m spacy download en_core_web_sm  # Samhlacha beaga Béarla

Le haghaidh luasmhéadaithe GPU:

Tacaíocht GPU


pip install spacy[cuda-autodetect]
python -m spacy download en_core_web_trf  # Samhla claochlóra

Nóta: Teastaíonn i bhfad níos mó cuimhne (1GB+) ó na samhlacha claochlóra ach tá cruinness níos airde acu.

Samplaí Cóid

Déan iniúchadh ar chumais spaCy trí na samplaí praiticiúla seo. Glacann gach sampla leis go bhfuil an samhla teanga Béarla (en_core_web_sm) suiteáilte agat.

Píblíne próiseála spaCy

Sampla 1: Próiseáil Bhunúsach Téacs

Léiríonn an sampla seo feidhmiúlacht lárnach spaCy lena n-áirítear tokeniú, marcáil POS agus aithint aonán ainmnithe.

Píblíne NLP Bunúsach


import spacy

# Lódáil an samhla Béarla
nlp = spacy.load("en_core_web_sm")

# Próiseáil téacs
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

# Anailís a dhéanamh ar an doiciméad
for token in doc:
    print(token.text, token.pos_, token.dep_)

# Aonáin ainmnithe
for ent in doc.ents:
    print(ent.text, ent.label_)

Áirítear san aschur:

  • Tokeniú le tréithe teangeolaíocha
  • Clibeanna POS agus spleáchais chomhréire
  • Aonáin ainmnithe (ORG, GPE, MONEY, etc.)

Sampla 2: Comhpháirteanna Píblíne Saincheaptha

Ligeann spaCy comhpháirteanna saincheaptha a chur leis an bpíblíne próiseála. Léiríonn an sampla seo comhpháirt simplí anailíse mothúcháin:

Comhpháirt Píblíne Saincheaptha


from spacy.language import Language

@Language.component("sentiment_analyzer")
def sentiment_analyzer(doc):
    # Scórú simplí mothúcháin (cuir do shamhla ML féin ina ionad)
    score = sum(len(token.text) for token in doc if token.pos_ == "ADJ") / len(doc)
    doc.user_data["sentiment"] = score
    return doc

# Cuir leis an bpíblíne
nlp.add_pipe("sentiment_analyzer", last=True)

# Próiseáil téacs
doc = nlp("This product is amazing and incredibly useful")
print("Scór mothúcháin:", doc.user_data["sentiment"])

Sampla 3: Próiseáil Baisc

Próiseálann spaCy mórchuid téacs go héifeachtach ag úsáid an mhodha nlp.pipe:

Próiseáil Baisc


texts = ["First document text...", "Second document...", ...]

# Próiseáil i mbaisc
for doc in nlp.pipe(texts, batch_size=50, n_process=2):
    # Aonáin ainmnithe a eastóscadh
    entities = [(ent.text, ent.label_) for ent in doc.ents]
    print(entities)

Leideanna feidhmíochta:

Crua-earraíMéid baisc molta
LAP 4 croí50-100 doiciméad
GPU500-1000 doiciméad

Gnéithe Casta

Tairgeann spaCy cumais chumhachtacha le haghaidh sreabhadh oibre NLP casta:

  • Meaitseáil bhunaithe ar rialacha: Comhcheangail samhlacha staitistiúla le rialacha lámhdhéanta:

    Rialóir Aonán

    
        ruler = nlp.add_pipe("entity_ruler")
        patterns = [{"label": "ORG", "pattern": "Apple"}]
        ruler.add_patterns(patterns)
        
    
  • Oiliúint saincheaptha: Déan samhlacha a mhín-oiliúint ar do shonraí fearainn:

    
        python -m spacy init config config.cfg --lang en --pipeline ner
        python -m spacy train config.cfg --output ./output
        
    
  • Píblíní claochlóra: Bain úsáid as samhlacha cosúil le BERT:

    Samhla Claochlóra

    
        nlp = spacy.load("en_core_web_trf")
        doc = nlp("This uses a transformer model underneath")
        
    

Conclúid

Leagann spaCy an caighdeán le haghaidh NLP atá réidh le táirgeadh lena chur chuige cothromaithe maidir le luas, cruinneas agus inbhuanaitheacht. Tá a ailtireacht láidir idéalach le haghaidh:

  • Aistriú faisnéise: Sonraí struchtúrtha ó théacs neamhstruchtúrtha
  • Anailís ábhair: Aithint aonán, rangú téacs
  • Réamhphróiseáil: Tokeniú ar ardchaighdeán le haghaidh píblíní ML
  • Feidhmeanna ilteangacha: API comhsheasmhach thar 20+ teanga

Le nuashonruithe rialta ó Explosion agus pobal open-source gníomhach, leanann spaCy ag forbairt mar an réiteach is fearr le haghaidh feidhmeanna NLP tionsclaíocha.

Similar Products

 Gaeilge