External Publication
Visit Post

túl nagy különbség azért nincs angolban (a magyar eredményeket nem láttam a parakeetnél), de a…

SztupY [Unofficial] March 12, 2026
Source

nemactivated:

sztupy:

keszegeteszeget:

Ájtís skacok, szevasztok!

Közszolg!

Amúgy meg búmer-alert, meg abszolút hozzá nem értő-alert, csak hogy tudjátok honnan indulok…

Adott egy bazi szenzitív meló: kutatási projektek etikai elbírálása. Fel kell tölteni egy platformra (2 faktoros autentikáció után) minimum 3-féle doksit, de sokszor több minden kell. Az elbírálás többszintű:

  1. megvan-e minden doksi
  • az összes, ami kell, ami ugye nem mindig 3;

  • az alkalmazott templét, ez alapesetben ez 1-féle, de lehet több is;

  • alá van-e írva

  1. Ha már átnézzük a doksikat az első körhöz, a tartalmát is ellenőrizzük
  • koherensen van-e minden doksi kitöltve

  • a választott kutatási terv elemei etikusak-e és megfelelnek e a GDPR-nak.

Az esetek 72%-ában visszaküldjük a cuccot javításra, mert tartalmilag nem oké. De sokszor hiányzik egy doksi vagy nem olyan, mint kéne vagy nem annyi az informed consent form, amennyinek lennie kéne (1, pedig külön kell minden kutatási aktivitáshoz 1, meg ha más a target group).

Ez azt jelenti, hogy

  1. 1,7x annyit melózunk egy kérelemmel, mint ideális lenne, a többi kérelem addig felhalmozódik, gyűlik az át nem nézettek listája

  2. Szar az anyag, amivel dolgozunk, fel kéne javítani a beadott kérelmek minőségét, hogy hatékonyabban menjen ez. Persze lusták a diákok, merthogy az ő kérelmeiket nézzük, nem olvassák át azt, hogy mit kell beadni, de őszintén a témavezetők sem segítenek sokat, és a kutatásmódszertan órán csak én foglalkozom ezzel a témával, a másik 2-300 diák csak akkor látja ezt, mikor szakdolgozni kezd.

  3. De mivel 1. pont, nincs időnk a 2. ponton dolgozni. Ezért most kérünk még manpowert, hogy foglalkozzanak az 1.ponttal, mi meg a ketteskén.

Na erre a férjem aszonta, hogy hülyék meg bambák meg búmerek vagyunk, adjuk oda az AI-nak a melót.

De én nem hiszem, hogy a külön platformra (Labservant a neve amúgy, elég gáz platform, de erre az etikai cuccra lett kifejlesztve) feltöltött anyagokhoz okés, hogy hozzáférjen valami kommersz LLM (nem saját fejlesztésű, belsős machine learning cucc, az más történet lenne), mivel ezeken nevek, cégnevek, GDPR-szenzitív adatok vannak.

De lécci mondjátok meg, hogy van-e olyan LLM, ami megbízható? Tehát nem haluzik, nem adja át az adatokat 3. félnek, stb., ami át tudná venni ezt a feladatot.

Kapcsolódó kérdés: van-e olyan megbízható LLM, amivel kutatási anyagot lehet pontosan transzkribálni (audio -> text)?

Ha az adatbiztonság fontos akkor természetesen lokális rendszert kell keresni, ahol az adat nem hagyja el a számítógépet. A legismertebb lokális hangfelismerő ha jól tudom a Whisper, ami erre pont használható, és magyarul is elviselhetően tud

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

Ahhoz hogy ezt lokálisan futtasd természetesen szüksége van egy gépre amiben van egy elég RAM-al ellátott videokártya (egy MacBook Pro teljesíti a követelményeket a legnagyobb modellre is, de a kisebb modellek elfutnak egy középkategóriás telefonon is gond nélkül). Van hozzá felhasználóbarát GUI is, de még nem próbáltam.

Szóval az adatbiztonság része ezzel megoldva, jöjjön a helyesség része.

A fenti linken ott van a kutatási eredmény hogy a modell mennyire helyes, magyar nyelvre a fenti eszköz 13%-os hibával dolgozik, ami szövegfelimserésnél amúgy egy okés eredménynek számít. Itt jön persze be az eégsz LLM része (hangfelismerés azért ugye már létezett LLM-ek előtt is), hogy amit nem hall jól ott bizony a levalószínűbb dolgot fogja behelyettesíteni. Hogy ez nektek mennyire fog megfelelni azt le kell tesztelnetek néhány példán - legeneráljátok a szöveget pár hangfájlhoz, meghallgatjátok-megnézitek mennyire találta el, és eldöntitek, hogy ez elég jó-e nektek.

Személyes véleményem, hogy ez pont az a kategória ahol van értelme az LLM-eknek, lényegesen jobb eredményt érnek el, mint a “klasszikus” hangfelismerők, de ha valamit nem ismernek fel, akkor itt is beköszönt az LLM-ek klasszikus problémája hogy a legvalószínűbb szöveget fogják odahaluzni, akkor is ha az eredeti alkotó pont az ellenkezőjét mondta valójában. Az hogy ez nektek jó-e vagy sem azt le kell ellenőriznetek.

És persze a témába illő kötelező videó

Saját rendszereden (te adatkezelő vagy csak adatfeldolgozó?) futtatott LLM (lehet ez in-region Azure AI foundry vagy Amazon Bedrock is, ha esetleg a Labservant nem Tibi laptopján fut) segíthet feldolgozni az adatot (minden megvan-e) de az etikai és GDPR vizsgálatot nem érdemes kiszervezni neki ezen a szinten.

Ha Mac és speech-to-text akkor https://handy.computer/

Parakeet amúgy jobb mint a whisper

Handy

túl nagy különbség azért nincs angolban (a magyar eredményeket nem láttam a parakeetnél), de a parakeet körüli könnyen elérhető programok erősen igénylik az NVidia kártyát, míg a whisper körüli eszközök futnak bárhol.

Mindegy is, a lényeg hogy mindkettő esetén helybe marad az adat, mert egyik se igényel internet kapcsolatot.

Discussion in the ATmosphere

Loading comments...