Pávai István honlapja

Néprajzi Hírek, 1996/1–4. 86–89.

A néprajzi adatbázis-építés akadályai*

     A számítógépnek a néprajztudományban való használatáról elméleti síkon igen sokat lehetne beszélni, azonban van néhány olyan meghatározó tényező, amely Magyarországon, s minden bizonnyal a többi szomszédos, úgynevezett volt szocialista országban is behatárolja a gyakorlati lehetőségek terét. Ezek közül az első a pénzhiány, az anyagi források szűkös volta, amely eleve megszabja, hogy egy–egy ezzel a szakterülettel foglalkozó intézmény vagy akár magánszemély milyen erőforrásokkal rendelkező hardvert és az annak megfelelő szoftvereket használjon, illetve azt, hogy részt vehet-e gépkezeléssel és szoftverhasználattal kapcsolatos folyamatos képzésben.

     A másik tényező szubjektív indíttatású, és két szélsőséges álláspontból fakad. Egyesek szerint „a számítógép mindent megold majd magától”, mások teljesen bizalmatlanok a gépekkel szemben, egyfajta divatjelenségnek gondolják a „számítógépezést”, a kísérletező kollégák alkalmi sikertelenségei láttán megerősödik az a hitük, hogy a hagyományos kutatási módszereket nem kell a gép kedvéért fölcserélni. E két véglet között természetesen egy sor átmenet húzódik, amelyek közül érdemes megemlíteni egy tipikus esetet, nevezetesen azt, amikor pl. egy adatbázist egy konkrét cél érdekében terveznek meg, arra alkalmasnak találnak (pl. gyűjteményes kiadás előkészítése), azon túl való használatára nem is gondolnak, sem arra, hogy esetleg a publikálandó anyagban való tájékozódásra sokkal alkalmasabb lehet a számítógépes adatbázis, mint maga a nyomtatott gyűjteményes kiadvány, akárhány mutatót is csatolnak hozzá.

     A két tényező — a szubjektív és a pénzügyi — szorosan összefügg. Az elavult gépen dolgozó, minimális számítástechnikai ismeretekkel rendelkező kutató rendellenesség esetén nem tudja megállapítani, hogy hardver vagy szoftver hibáról van-e szó, hogy utóbbi esetben az operációs rendszer vagy a használt adatbáziskezelő-e a hibajelenség forrása. Rendszerint az utóbbit kárhoztatják. A számítógép szükségességével kapcsolatos kételyeket gyakran érett, a pályájuk csúcsán túljutott kutatók fogalmazzák meg, akik egyrészt további tehertételnek érzik az új munkaeszköz használatának elsajátítását, másrészt választott szakterületüket több évtizedes munkával már megismerték, annak szakirodalmát kicédulázták, ezért nekik egy komputeres adatbázis nem nyújt túl sok újdonságot. Arra persze nem gondolnak, hogy a pályakezdő fiatalok ma már háromszor-négyszer akkora szakirodalmat kell hogy áttekintsenek, mint elődeik, a gyűjtött anyag mennyisége is hihetetlenül megnőtt, s ezért számukra a számítógépes adatbázis már elengedhetetlen munkaeszköz, amelyhez a kor gyermekeiként lelkileg is könnyebben kapcsolódnak. Az érett kutatók viszont rendszerint az intézmények vezető testületének is tagjai, így véleményük döntő lehet abban, hogy az adott szerény anyagi lehetőségekből mennyit fordítsanak számítástechnikai fejlesztésre. E fékező tényező ellenére az utóbbi években a számítógép használata a néprajztudományban egyre nagyobb teret hódít. A kutatók többsége érzi, hogy ez a trend egyfajta elengedhetetlen korparancs, s hangoztatja, hogy a gyűjtemények anyagának adatait be kell vinni a gépbe. E mögött viszont gyakran az a motiváció áll, hogy az adatok így megőrizhetőek, nem pedig az, hogy az adatok minden eddigi módszernél jobban, könnyebben és gyorsabban visszakereshetőek. A keresési stratégiákról, az ahhoz szükséges minimális halmazelméleti ismeretekről kevesen tudnak. Ez már az adatbázis tervezésén is nyomot hagy, mert a struktúra és a beviteli szabályok kialakításánál nem abból indulnak ki, hogy mit akarnak majd visszakeresni, hanem hogy szerintük mit érdemes bevinni. Gyakran föl sem merül az adatbeviteli szabályok meghatározásának kérdése, ami nélkül viszont nem lehet jól használható adatbázist építeni

     Az adatbázis-tervezés egyik módja az, hogy az intézmény megrendeli hivatásos programozótól a kezelőprogram elkészítését. Kezdetben erre a célra gyakran nem adatbázis-kezelő rendszereket használtak, hanem egyetlen célfeladat megoldására létrehozott saját tervezésű adatbázis-kezelőt. Ennek az volt az előnye, hogy számos könnyítést beleprogramozhattak, különösen az adatbeviteli funkcióba, hátránya viszont az, hogy direkt módon nem tudtak adatot cserélni más rendszerekkel vagy szövegszerkesztő programokkal. Ha szoftverpiacról vásárolt adatbázis-kezelőt használnak mindig fölmerült, hogy melyik a jobb. Mivel az anyagi lehetőségek szűkösek, csak olcsó vagy ingyenes szoftverek jöhetnek szóba. Ezek között is viszonylag nagy a választék, ezért még a programozók sem ismerik mindegyiket, az általuk kipróbált néhány közül választanak. A néprajzkutatók rendszerint arra az egyre esküsznek, amelyiket kipróbálták. Közülük nincs mindenki  tisztában azzal, hogy mit jelentenek a rendszerkorlátok (ezeket a szoftverdokumentációban is ügyesen elrejtik), így utólag jönnek rá, hogy számukra fontos keresési vagy tárolási feladatok elvégzésére a választott szoftver alkalmatlan.

      A külső, egyetlen célmunkára szerződtetett programozó járatlan a néprajztudomány útvesztőiben, akárcsak a néprajzos a számítástechnikában. Kettejük párbeszéde — amely az adatbázis definiálása előtt elengedhetetlenül szükséges —, gyakran a kölcsönös félreértés összes ismérveit kimeríti. Szerencsés az a helyzet, ha a néprajzkutató rendelkezik annyi számítástechnikai szakismerettel, hogy az adatbázist maga tervezze meg. A számítástechnikai szakember által elkészített adatbázisrendszerről utólag gyakran kiderül, hogy nincs felkészülve a néprajzi anyagban később felbukkanó rendhagyó esetekre, mert ezeket a megrendelő kutatók sem látták előre, vagy nem tudták azt a szakmán kívülálló programozónak világosan elmagyarázni. Ez kétféle következménnyel járhat: szerencsésebb esetben ismét a programozóhoz fordulnak, aki újabb megbízási díj ellenében módosítja a struktúrát, máskor a rendhagyó adatokat egy másik mezőbe írják be.

      Ezzel elérkeztünk az adatbevitellel kapcsolatos buktatókhoz. Az adatbevitelt gyakran nem maguk a kutatók végzik, hanem néprajzi képzéssel nem rendelkező segédszemélyzet. Ez egyrészt a beviteli hibák számát növeli (félreolvasott vagy mellégépelt tájnyelvi vagy néprajzi fogalmak), másrészt a kutatóval való rendszeres konzultálás hiányában a rendhagyó esetek kezelése ötletszerűvé válik, ami adatkeveredéshez vezet. Gyakran tapasztaltam, hogy ha az értelem szerinti beviteli mező hossza túl kevés, az adatbevivő a következő, véletlenül éppen üres, más típusú adatok számára fenntartott mezőbe vezeti be a túl hosszú adatot. Máskor a gond abból adódik, hogy a szabályos dátummezőnek definiált rovatba nem szabályos dátumot kell beírni, hanem hozzávetőlegeset (pl. „1930 körül”). Ekkor a rendszer nem fogadja el a dátumsémától eltérő adatot, az adatbevivő pedig az előbb jelzett módszerhez folyamodik.

     Rendhagyó esetek és hosszabb szöveges leírások a néprajzi adatokban bőven szerepelnek, ami arra kellene késztesse a kutatókat, hogy az esetek többségében olyan szöveges adatbázis-kezelőt válasszanak munkájukhoz, amely nem korlátozza túlzott mértékben a beviteli mezők hosszát, ugyanakkor rendelkezik az adattáblákat használó relációs adatbázis-kezelőknek azzal a tulajdonságával, amely lehetővé teszi egy rekordba bevitt adatok összekapcsolását egy sor más rekordba vagy másik adatbázisba bevitt másféle adattal. Egy néprajzi gyűjtés esetén pl. lépten-nyomon előfordul, hogy ugyanazon a helységben, ugyanazon a napon, ugyanaz a gyűjtő ugyanattól az adatközlőtől rögzít akár több száz olyan adatot (pl. népdalt), amelyeket külön–külön rekordokba kell beírni. Ebben az esetben akár több százszor beírják a gyűjtés helyét, idejét, a gyűjtő és adatközklő adatait, holott elégséges lenne ezeknek a közös adatokat az egyszeri beírása és egy hivatkozás bejegyzése a változó adatokat tároló rekordba. Ezáltal az adatbázis mérete jóval kisebbé válna, és az adatbeviteli idő is jócskán lerövidülne. Ennek a lehetőségnek a kihasználásával, a CDS-ISIS programmal készített néprajzi adatbázisok esetében egyszer sem találkoztam, bár a program ezt lehetővé teszi. A tezauruszépítés lehetőségével is ritkán élnek, helyette a tárgyszavak bevitelénél minden esetben megadják egy–egy keresőelem fölé- vagy mellérendelt fogalmait, holott ezt a hozzárendelést elégséges lenne egyetlen esetben elvégezni, s azt minden további esetre automatikusan érvényessé tenni.

     További bosszúságok forrásai a magyar ékezetes betűk CWI vagy 852-es szabvány szerinti alkalmazása. Az ebből adódó gondok a számítógép működési elveinek ismeretében könnyen kiküszöbölhetők. A kutatók viszont rendszerint nem tudják, hogy az otthoni gépen DOS-alapú programmal CWI ékezetesítéssel megírt szövegük az intézeti gép 852-es kódlapra beállított Windows-os táblázatkezelőjében vagy szövegszerkesztőjében miért alakul át furcsa karakterek sorozatává. A gépüket beállító, vállalkozásból élő programozók nem figyelmeztetik a várható következményekre, a konvertálás módozatait sem mutatják meg, viszont ezt újabb megrendelés alapján szívesen elvégzik. Mindezek a tényezők számtalan vesződést okoznak a kutatónak, akiben megvan a szándék, hogy fölzárkózzék a kor követelményeihez, mégis gyakran az az érzése támad, hogy a géppel végzett munkája mégsem halad annyival gyorsabban, amennyivel azt a szoftverreklámokban előrejelezték.

      A néprajzi adatbázisok létrehozásával és használatával kapcsolatos gondok megoldását mindkét szakma (néprajz és számítástechnika) oldaláról közelítve kellene keresni. A hardver terén ki kell küszöbölni azt az állapotot, hogy ugyanabban az intézményben, ahol néhányan már a Windows 95-tel dolgoznak, mások még XT-s gépeket használjanak. Tekintettel arra, hogy a magyar néprajzi szakma többségének kutatási területe túlterjed Magyarország mai határain és az egész Kárpát-medence területét átfogja — beleértve a sajátos írásjeleket használó szomszéd népeket és etnikai csoportokat is —, szükséges lenne az egységes áttérés a 852-es kódlap használatára, amely lehetővé teszi az érintett nyelvek írásmódjában használatos összes betűjel alkalmazását. Ugyanezen okból kellene szabályozni az egységes helységnévhasználatot is. Ehhez azonban nem elég az 1913-as helységnévtárra való hivatkozás, hiszen azóta megszűntek települések, összeolvadtak, kiváltak egymásból. Az sem elhanyagolandó tényező, hogy mintegy 90 helységnév különböző történeti és tájnyelvi változataival találkozik a moldvai magyarok iránt érdeklődő kutató, amelyek nem szerepelnek az 1913-as, csak a korabeli Magyarország településeit tartalmazó helységnévtárban.

     Immár nagyon sürgetővé vált egy egységes néprajzi terminológiai rendszer kidolgozása — természetesen a későbbi bővítés és módosíthatóság lehetőségével —, amelynek elvégzését az egyes tudományágak kutatóitól várhatjuk, de erre csak akkor kerülhet sor, ha ennek a rendszernek a kidolgozását valamelyik intézmény meghirdeti, koordinálását és finanszírozását fölvállalja. Szintén intézményes keretet kellene nyújtani a néprajzosok és a segédszemélyzet számítástechnikai képzésére, főleg az adatbázis-kezelés és a szövegszerkesztés terén. A segédszemélyzet néprajzi képzése is elengedhetetlen, legalábbis az általa végzet adatbeviteli munka vonatkozásában. Ugyanakkor szükséges az adatbevivő és a munkát felügyelő néprajzkutató folyamatos konzultációja, illetve az adatrögzítés eredményeinek rendszeres felülvizsgálata a kutató részéről. Már az első adatok bevitele után ki kell próbálni azok komplex visszakeresésének módozatait, s ha ilyen téren hiányosság mutatkozik, célszerű az adatbázis-struktúrát azonnal módosítani.

     Számítógépes szakember igénybevétele akkor szerencsésebb, ha az intézmény alkalmazottja, és napi munkájához tartozik az említett problémák megoldása, a megoldások keresése. Ebben az esetben néhány év alatt a néprajztudomány, a néprajzi adattípusok specifikumaival is megismerkedhet, ugyanakkor a néprajzosok számítástechnikai képzésében is részt vállalhat. Az ezen a téren megtett első lépések bíztatóak, és remélhetjük, hogy a felvetett hiányosságok fokozatos kiküszöbölése a néprajzkutatás javát fogja szolgálni.


* Elhangzott Az informatika szerepe a néprajz és folklorisztikai kutatásokban címmel, a Hagyományos Kultúrák Európai Központja (ECTC) által rendezett tanácskozáson, 1996. április 26-án. Részt vett: Bálint Lajos (HUNGARNET), Cserbák András (MTA Központi Könyvtára), Darányi Sándor (ECTC), Felföldi László (MTA Zenetudományi Intézet), Hraskó Gábor (CEU), Pávai István (Néprajzi Múzeum), T. Bíró Katalin (Magyar Nemzeti Múzeum), Volosz Róbert (MTA Néprajzi Kutató Intézet). A tanácskozást vezette: Kürti László (ECTC).