ABNER: A Biomedical Named Entity Recognizer [Romanian]

Original in English by Burr Settles

Abner: un recunoascător de entitate biomedicală numită

Veriunea 1.5 este lansată! Versiunea nouă reprezintă o performanţă îmbunătăţită, personalizare mai mare şi noua interfaţă Java pentru antrenarea lui ABNER pe alte corpusuri şi incorporarea lor în sistemul dvs.

ABNER este un instrument software de analiză moleculară a textelor biologice. Dintîi, a început ca o interfaţă concepută pentru utilizator pentru un sistem dezvoltat ca parte a problemei commune de NLPBA/BioNLP 2004 (NLPBA/BioNLP 2004 Shared Task). Detaliile acestui sistem sunt descrise în cartea de mai jos (Settles, 2004).

La baza lui Abner stă un sistem statistic de învăţare a maşinei ce utilizează cîmpuri liniar-lanţate condiţionate aleatorii (CRF-uri, de la eng. conditional random fields), cu o varietate de caracteristici ortografice şi contextuale. Versiunea 1.5 include două modele instruite pe corpusuri NLPBA şi BioCreative, pentru care performanţa este aproximativ de cea contemporană (scoruri F1 de 70.5 şi 69.9, respectiv, detalii aici – here). Noua versiune include, de asemenea, o interfaţă Java care permite utilizatorilor să includă datele în sistemele lor ABNER, precum şi de a antrena şi de a folosi modele pentru alte date. Aici este o imagine destul de bună:

image

Caracteristici.

  • Simultan recunoaşte mai multe entităţi numite (sunt incluse 2 modele instruite).

  • Interfaţă intuitivă şi interactivă.

  • Tokenizarea opţional introdusă şi algoritmi de segmentare a propoziţiilor, robust la linii împachetate şi abrevieri biomedicale.

  • Deschide fişiere de text şi salvează adnotări (formate suportate sunt SGML, IOB şi ABNER).

  • Adnotarea loturilor de fişiere de text recursivă la director.

  • Interfaţă Java pentru încorporarea în ABNER aplicaţiilor personalizate de texte biomedicale.

  • Inerfaţa include rutine de antrenare pe ABNER pe noi corpusuri.

Descărcaţi şi Limbaj Specializat

Abner v1.5 (martie 2005) este disponibil ca un pachet de arhivă Java: abner.jar (9.5mb).

Pentru al rula: executaţi această comandă de la un terminal:

Documentaţia pentru aplicaţia este disponibilă aici (javadoc) -here.

Cod sursă Java este disponibil ca un fişier tar comprimat cu gzip: abner-1.5.tar.gz (32.8kb).

Notă: Nu aveţi nevoie de sursă pentru a accesa la aplicaţia, doar asiguraţi-vă că "abner.jar" este în cale spre clasă.

Acest software © 2004 este scris de către Burr Settles, Catedra de Informatică (Computer Sciences), Universitatea din Wisconsin-Madison. El este furnizat "aşa cum este," fără reprezentări sau garanţii de orice fel. ABNER este acum gratis şi lansat în conformitate cu termenii de licenţă publică comună
(Common Public License). Putieţi liber să utilizaţi codul în baza acestor termeni. Desigur, o confirmare este întotdeauna o idee bună:

Aici este o intrare BibTeX dacă vreţi astfel:

@article{settles.bioinf05,
    Author = {B. Settles},
    Journal = {Bioinformatics},
    Number = {14},
    Pages = {3191--3192},
    Title = {{ABNER}: An open source tool for automatically tagging genes, 
        proteins, and other entity names in text},
    Volume = {21},
    Year = 2005}

Cerinţe de sistem.

Pachetul aplicaţiei ABNER este independent de platformă, deşi are nevoie de mediu Java 2 (J2SE) care urmează să fie instalat. Acesta a fost testat pe Linux, Windows XP, Solaris şi Mac OSX. Un procesor modern (500MHz +) şi 256 MB de RAM + este recomandat. Notă: Dacă aveţi de gând de a modifica şi a compila codul sursă dvs., veţi avea nevoie mai întâi ca să fie instalat şi să lucreze Java SDK 1.4, MALLET 0.3.1, şi JLex .

De performanţă.

Următoarele sunt rezultatele complete pentru cele două modele de limbaj instruit incluse cu ABNER v1.5 pe corpusuri lor de evaluare corespunzătoare utilizând potrivirea limitei exacte. ("S-F1", se referă la scoruri moi F1 în cazul în care cel puţin o frontieră este corectă, dar o eroare de un cuvânt, pe de o parte este tolerată.)

Entitate Aminti Precizie F1 (S-F1)
Protein 77.8 68.1 72.6 (84.9)
ADN 63.1 67.2 65.1 (76.1)
ARN 61.9 61.3 61.6 (78.5)
Celula de linie 58.2 53.9 56.0 (68.2)
Tip de celula 65.6 79.8 72.0 (82.1)
In Total 72.0 69.1 70.5 (82.0)

model NLPBA . Cinci entităţi instruite pe 18,546 de propoziţii, evaluate la 3856.

Entitate Reamintire Precizie F1 (S-F1)
Proteină 65.9 74.5 69.9 (83.7)

model BioCreative. O entitate (subsumarea genurilor şi produselor genetice)

instruit pe 7.500 de propoziţii, evaluate la 2.500.

Istorie.

  • Martie 2005 – ABNER v1.5. (modele NLPBA şi BioCreative sunt combinate, performanţă îmbunătăţită, este făcută tokenizarea opţională, este introdusă interfaţa Java, lansat pe Internet ca sursă gratis).

  • Iulie 2004 – YAGI v1.0. (un instrument antrenat pe linie de comandă pe corpus BioCreative.)

  • iunie 2004 – ABNER v1.0. (interfaţă externă pentru sistemul original NLPBA.)

Bug-uri.

Dacă întâmpinaţi r, ar putea fi necesar de mări setul alocării de memorie JVM (cu 100MB pare să funcţioneze bine). Pentru a face acest lucru la linia de comandă:

În alt mod, eu nu ştiu nimic despre bug-uri (înca). Dacă descoperiţi careva, sau ar dori să contribuiţi şi/sau să îmbunătăţiţi funcţionalitatea, vă rugăm să contactaţi:

Software similar.

Eu ştiu despre alte câteva programe biomedicale NER accesibile public. ABNER este cunoscut pentru efectuarea foarte bună sw corpusuri comparabile, şi este open-source (gratis), cu o interfaţă personalizabilă.

Mulţumiri.

Mulţumim pe Mark Craven pentru sfatul lui, şi Andrew McCallum şi Aron Culotta pentru răspunsul la întrebări despre MALLET (set de instrumente care pune în aplicare CRF). Cercetarea referitoare la acest program a fost susţinută de grantul NLM 5T15LM007359 şi NIH R01 LM07050-01.

Referinte.