Computing in Japanese – what are the frontiers now? [Romanian]

Original publication

Operații de calcul în limba japoneză
Care sunt frontiere ei de acum?

Jim Breen
Universitatea Monash
(jim.breen@infotech.monash.edu.au)

Introducere

O lecție despre studii computaţionale japoneze oferă o oportunitate de a face bilanţul de ceea ce exact reprezintă informatica în japoneză, şi modul în care aceasta diferă, poate chiar și complet, de la procedurile de prelucrare în alte limbi. În cazul în care astfel de diferenţe există, este necesar de analizat dacă acestea sunt relevante şi astăzi, când s-a produs o investiţie masivă în așa lucruri, cum ar fi internaţionalizarea software-ului "single binar" şi seturi de simboluri unificate. Atenţia este, de asemenea, necesar de atras acolo unde tehnologia informatică poate avea un impact util în studiile de limbă japoneză şi identificarea priorităţilor în cazul în care ea ar trebui să fie plasată.

Operații de calcul în japoneză

De ce noi vorbim anume despre calculul sau studii computaţionale în japoneză? Noi nu vorbim despre studii computaţionale olandeze sau italiene. În opinia acestui autor, motivul pentru aceasta este specifica sistemului ortografic japonez.Amestecul de sisteme kanji / kana, combinate cu alte aspecte ale ortografiei, au condus la o serie de probleme care au jucat un rol important în introducerea tehnologiei informaţiei în Japonia. Printre aceste probleme sunt urmăroarele:

1. codare de kanji şi kana în fişiere

2. reprezentarea textului (afişare, imprimare etc.)

3. introducerea textului (de către oameni)

4. segmentarea textului în lexeme

5. canonicalizarea (standartizarea) de variante acceptate

Toate acestea, şi în special primele trei, au avut un impact major asupra adoptării IT în Japonia, şi sunt considerate de mulţi ca celea, ce au condus la o asimilare mai lentă de IT decât în alte ţări cu niveluri echivalente de industrializare. Importanţa problemelor enumerate mai sus se poate observa din momentul în care se iau pentru a fi rezolvate complet. (Ca un test, să luăm în considerare situaţia în care Japonia a adoptat în scris un sistem complet romanizat la începutul secolului 20, aşa cum au făcut naţiuni, cum ar fi turcii şi malaezienii. Nici una din acestea nu a avut probleme în introducerea şi utilizarea operațiilor de calcul).

Codare: a fost nevoie de peste două decenii de la introducerea de calcul în Japonia înainte de stabilirea unui standard naţional de codificare pentru kana şi kanji, şi mulţi ani încă a trecut pînă cînd acestea standarte au fost adoptate pe scară largă.

Reprezentare: are două ordine de mărime și mai multe simboluri pentru a rezolva problemele cu înțelegerea corectă a capacităţilor de facilitate a utilizatorului final. Interimar de soluţii depozitare şi complexe, cum ar fi hankaku katakana, au fost folosite de mai mulţi ani (şi persistă și azi.) Solutii numai au apărut cu dezvoltările tehnologice, cum ar fi VLSI, de depozitare cu preț scazut şi de imprimare non-impactă.

Introducerea textului: aceasta a fost o problemă majoră pentru mulţi ani, cu sisteme complexe de selecţie single-kanji care persista până la sfârşitul anilor 1980 şi încă după. Unger în 1987, în cartea sa "Eroarea generaţiei cinci " [3], a afirmat că scopul principal al acestui proiect, lansat în 1981, a fost de a depăşi problema de introducere a textului japonez prin utilizarea tehnici grele IA (intelectului artificial).

Situaţia actuală

Toate problemele enumerate mai sus au fost abordate la nivel tehnologic în timpul anilor 1980 şi 1990, şi cu impactul internaţionalizării multor dintre soluţiile au fost încorporate ca elemente standarte în software-ul. De exemplu, practic toate sistemele de operare majore acum, dispun de opţiuni de instalare a suportului complet pentru introducere în japoneză, afişare şi tipărire (împreună cu suport pentru multe alte limbi şi script-uri). Cele mai multe limbaje de nivel înalt suportă texte de manipulare non-alfanumerice. Segmentarea textului japonez, care în anii 1980 a fost considerată de mulţi ca o problemă greu de rezolvat, poate fi acum realizată efectiv de către mai multe surse deschise şi sistemele comerciale.

Astfel, majoritatea problemelor legate de ortografia care au tins să domineze în primele etape de calcul în japoneză s-au rezolvat în mod corespunzător. Operații de calcul în japoneză pot fi caracterizate mai stabile chiar decît în limbile ce folosesc alfabete, şi accente de "operații de calcul japoneze" acum în mare măsură se pun pe probleme legate de limbă însuși.

Frontiere

În timp ce aplicarea tehnologiei informatice la studii limbii japoneze este acum într-o poziţie similară cu alte limbi şi culturi, şi în domenii cum ar fi procesare naturală a limbajului se confruntă cu aceleaşi probleme, și există mai multe subiecte care au nevoie de o atenţie specială. Abordarea acestor subiecte ar trebui să devină o prioritate în aplicarea tehnicilor de calcul. Următoarele chestii sunt propuse ca o scurtă listă de subiecte "frontiere", care ar putea să atragă atenţie la problemele generale:

a. Dicţionare. Sue Atkins a notat mai mult de un deceniu în urmă că informatizarea păre să aibă un impact limitat asupra aspectelor de dicţionare a utilizatorilor, chiar dacă aceștea au fost disponibile pe CDROM, şi că "sub aceste modernizări superficiale se ascund aceleaşi dicţionare vechi " [2]. Japoneza are, probabil, cea mai mare densitate de dicţionare decît orice limbă, şi cu siguranţă un mare număr de dicționare disponibile în format electronic, dar, în ciuda, sau poate din cauza unor standarde cum ar fi EPWING / JIS X 4081, accesul la acestea şi prezentarea conţinutului dicţionarelor este încă în mare măsură o reproducere de tehnici dicţionarilor de hârtie. Atkins a propus o serie de domenii în care resursele de calcul ar trebui să fie exploatate într-un dicţionar de "nouă generație", inclusiv personalizare extensive a utilizatorului, utilizarea de hipertext etc. Cu siguranţă există posibilitatea de studiu în acest domeniu. În plus, există un mic număr de lexicoane, care sunt disponibi gratis şi convin pentru cercetări. Efortul ar trebui să fie pus în extinderea lexicoane gratuite care sunt disponibile, sau care doresc eliberarea surselor, cum ar fi colectarea lexicoane de EDR, care sunt în prezent prea scumpe pentru mulţi cercetători.

b. Corpusuri. Japoneza nu dispune îndeosebi de corpusuri disponibile, şi este deosebit de săracă în texte bilingve paralele şi multi-linguale. În timp ce numărul modest de bitexte nu poate fi identificat, ele tind să fie obiectul unor restricţii comerciale, şi sunt disponibile în general pentru exploatare largă. Stabilirea unui corpus japonez cuprinzător şi reprezentativ, şi în special asamblarea de bitexte precise, ar trebui să fie o prioritate.

c. Învăţarea limbilor străine pomputerizate (Computer-Assisted Language Learning. CALL). Pentru unii CALL pare a fi ceva "greu" pentru cercetare. Există nenumărate sisteme, multe dintre ele sunt comerciale, dar puţini par să se fi să treacă etapa flashcard-ului sau instrumentului pentru sfredel. Nu a fost facută nici o cercetare reală asupra eficacității unor astfel de sisteme. Unul dintre suspecţii ce generează problema este diferenţa dintre specialiştii cu studii lingvistice şi designeri / dezvoltatori de software. Având în vedere popularitatea de studii a limbii japoneze la nivel mondial, (şi într-adevăr, o mare popularitatea de studii a englezeq în Japonia), există cu siguranţă domeniul de aplicare pentru cercetare corectă în cazul în care apelul are cel mai mare potenţial şi care tipurile de instrumente CALL sunt cele mai eficiente.

d. Căutarea de text. Cu motoarele de căutare WWW care joacă un rol important în viaţa modernă, este important ca textul japonez să fie manipulat în mod corespunzător. Companii lideri, cum ar fi Google si Yahoo aplică o metodă comună pentru toate limbile, care uneori nu pot rezolva complet problemele legate cu aspecte ale ortografiei japoneze, cum ar fi forme scrise multiplu de cuvinte [2]. Există un scop amplu pentru mai mult lucru în acest domeniu.

e. Machine de traducere. Din multe puncte de vedere, MT în/din japoneză nu este în o situaţie diferită în comparație cu celelalte limbi. Există un număr mic de sisteme comerciale rezonabile, dar scumpe (de exemplu, ATLAS lui Fujitsu), şi un număr mare de sisteme ieftine, dar cu performanţă slabă. Cel mai mult de lucru ce cercetare pare să aibă loc în organizaţiile comerciale, şi, prin urmare, probleme de IP împiedică schimbul semnificativ de lexicoane etc. sau chiar publicarea semnificativă ale metodologiilor. Zona de statistici MT, care, probabil, este văzută ca o activitate non-comercial decât tehnicile tradiţionale, este afectată de limitările în disponibilitatea de texte japonez-alte paralele de text şi lexicoane disponibile gratuite. Această zona de MT ar putea beneficia în mod considerabil prin extinderea de corpusuri disponibile şi lexicoane, după cum sa sugerat mai sus.

Referințe

1. BTS Atkins, Bilingual Dictionaries: Past, Present and Future, Euralex'96, reprinted in Lexicography and Natural Language Processing: A Festschrift in Honour of B.T.S. Atkins, Euralex, 2002.

2. JW Breen, WWW Search Engines and Japanese Text, Sixth Symposium on Natural Language Processing 2005 (SNLP 2005), Chiang Rai, Thailand, December 2005

3. JM Unger, The Fifth Generation Fallacy: Why Japan is Betting Its Future on Artificial Intelligence, Oxford University Press, 1987