A nyilvános adatokon tanított AI modellek esetében mára egyértelművé vált, hogy nemcsak segíteni képesek a vállalatokat, hanem használatuk számos kockázatot is jelenthet azokra nézve. Ennek elkerülése érdekében, valamint a produktivitás javítása, a költségek optimalizálása és a komplex információk megértése céljából egyre többen saját adataikat használva tanítják a generatív mesterséges intelligenciát – derül ki a Deloitte TMT Predictions 2024 kutatásából.
Bár a generatív mesterséges intelligencia első hulláma főként a fogyasztókra irányult, és nyilvános adatokon tanították, mára fellendülőben vannak a nem nyilvános, magánfejlesztésű modellek is, amelyek több vállalat- és területspecifikus adatot tartalmaznak. A Deloitte előrejelzése szerint a generatív AI-ra vonatkozó vállalati kiadások 2024-ben a 2023-as 16 milliárd dolláros becsült értékről 30%-kal fognak emelkedni. Bár a lelkesedés nagy, a vállalatok egyelőre továbbra is kísérleteznek és próbálják megérteni, hogy a mesterséges intelligencia milyen értéket tud képviselni a tevékenységük számára.
„Azoknak a vállalatoknak, amelyek évek óta halmozzák fel az adatokat, most lehetőségük nyílik arra, hogy a generatív mesterséges intelligencia segítségével még többet hozzanak ki az összegyűjtött adataikból. Ennek hatékony megvalósítása segíthet megoldani a nyilvános modellek jelenlegi kihívásainak egy részét, azonban ehhez átgondolt befektetésekre és döntésekre lesz szükség” – mondta Zaránd Miklós, a Deloitte technológiai tanácsadás üzletágának partnere.
A piac bővül és egyre több vállalkozás áldoz a költségvetéséből kifejezetten a mesterséges intelligenciára. 2024-ben a technológiára költött összegek többségét a vállalatok várhatóan vezető felhőszolgáltatóknak fizetik a modellek betanításáért és a felhasználói lekérdezések programozásáért, illetve az adattudósoknak, akik a vállalati adatokat összekötik az alapvető modellekkel. Idén ugyanakkor az „on-premise” (helyi) GPU-adatközpontok növekedése is megfigyelhető, mivel a nagyobb vállalatok és kormányzati szervek igyekeznek több generatív AI-képességet ellenőrzésük alatt tartani.
A növekedés fő korlátja valószínűleg a tehetséges munkaerő – és egyesek számára a grafikai processzorok – elérhetősége lesz, azonban a vállalatoknak a nem egyértelmű felhasználási esetekkel és az adatminőséggel kapcsolatos problémákkal is meg kell küzdeniük.
A nyilvános modellek előnyei és hátrányai
„A szolgáltatók most szembesülnek a korai nyilvános modellek olyan kihívásaival, mint például a ténybeli tévedések, az ún. hallucinációk - amikor a modell kitalál valamit, ami igaznak tűnhet -, továbbá a szerzői jogi kérdések és a jogtisztaság tekintetében is adódnak még fejlesztendő területek. Ezek a szituációk tovább ösztönzik a privát, nem nyilvános modellek létrehozását” – mondta Gercsák Csilla, a Deloitte Magyarország technológiai tanácsadás üzletágának menedzsere.
Mivel a generatív modellekhez hatalmas mennyiségű képzési adat szükséges, a nyilvános modellek első hullámát főként a rendelkezésre álló legnagyobb adathalmazon, a nyilvános interneten tanították. Ennek következtében a modellek átvették az internet megannyi torzítását, ellentmondását és pontatlanságát.
Ha tényeket kérünk az AI-tól, a nyilvános adatokon, például a közösségi oldalakon közzétett bejegyzéseken tanított modellek akár maguktól is kitalálhatnak információkat. Ezt a hitelesség látszatával tehetik, ami sok felhasználót arra késztet, hogy az eredmények megfelelő ellenőrzése nélkül elhiggyék az eredményeiket. A nyilvános adatokból tanított modellek a szerzői jogokat és a jogtisztaságra vonatkozó szempontokat is figyelmen kívül hagyják. Ennek következtében egyre több az olyan per, ahol a felperes a saját munkáját látja viszont a generatív válaszokban. Ebben a tekintetben különösen problematikusnak bizonyulnak az olyan diffúziós modellek, amelyeket jogdíjas munkákat tartalmazó nyilvános anyagon tanítottak.
Erre válaszul egyre több szolgáltató teszi lehetővé a weboldalakon lévő tartalom védelmét attól, hogy azokat mások leszedjék és tanítási anyagként használják fel. Bár a szerzői jogi törvények piaconként eltérőek lehetnek, egyes helyeken védelemre alkalmatlanná nyilváníthatják a mesterséges intelligenciából származó műveket, mert azok túlzott mértékben származnak korábbi művekből, vagy azért, mert nem eléggé emberi jellegűek ahhoz, hogy szerzői jogot érdemeljenek.
A művészek és a szerzőijog-tulajdonosok számára azonban kihívást jelenthet a több milliárd különböző inputot tartalmazó képzési halmazokból való származtatás bizonyítása. A vállalatok emellett attól is tarthatnak, hogyha a nyilvános modellek rendelkezésére bocsátják az adataikat, akkor elveszthetik fölöttük a kontrollt. Amikor a tanításhoz használt anyagban található adatok a felhasználók számára is láthatóvá válnak, adatszivárgás történik – akár véletlenül, akár rosszindulatú prompt engineering segítségével. Az alábbi kihívásokkal a vezető generatív AI-szolgáltatók is számolnak, valamint érzik az üzleti modelljeik fejlesztésére irányuló nyomást. A fenti okokból a perekkel és szabályozásokkal folyamatosan szembesülnek, miközben a napi több millió felhasználói kérést támogató modellek tanításába és hangolásába fektetnek be.
A nyilvánostól a nem publikus domainekig
„Mivel a generatív AI alapvető képességei rendkívül meggyőzőek, a nyilvános megoldások használata pedig nemkívánt kockázatot rejt magában, így egyre több vállalkozás tervezi saját adatain tanított saját modellje bevezetését. Ezzel elkerülhetők a szerzői jogi és használati joggal kapcsolatos problémák, a vállalkozások pedig testreszabott megoldásokat fejleszthetnek ki, elérve a kívánt magatartásokat és megbízható eredményeket” – mondta Fazekas István, a Deloitte Magyarország technológiai tanácsadás üzletágának tanácsadója.
Számos média- és szórakoztatóipari vállalat szempontjából a generatív AI mára felforgatta a saját iparágukat azzal, hogy a segítségével bárki létrehozhat szöveget, hangot vagy képanyagot. Azok az eszközök, amelyek képesek lehetővé tenni ezt a diszrupciót, nyilvános interneten kerültek betanításra, ami olyan perekhez vezetett, ahol írók és művészek szerint saját munkájukat is felhasználták hozzájárulásuk, illetve a számukra fizetett díjazás nélkül.
Az ilyen problémák elkerülése végett az Adobe Systems és a Getty Images olyan generatív AI-megoldásokat dobott piacra, amelyeket saját jogtiszta vizuális tartalmaikon tanítottak. Amikor ezek az eszközök új képeket hoznak létre, annak az eredményeire az adott tartalomtár kizárólagos engedélyezési és újrahasználati megállapodásai vonatkoznak. Ez segít elkerülni a szerzői jogokkal kapcsolatos problémákat, a szerzők számára pedig lehetővé teszi, hogy magántulajdonban lévő tananyagok formájában bejegyeztessék és pénzzé tegyék saját munkáikat.
A vállalkozásoknak ugyanakkor tartaniuk kell magukat a felhasználható adatokra vonatkozó szabályozásokhoz is. A nem publikus és a nyilvánosan közzétett adatokat egyaránt felhasználó cégek számára nehézséget okozhat azok hatékony integrációja az adatvédelmi és szerzői jogi törvényeknek egyaránt megfelelve.
Számos vállalkozás nagy mennyiségű adatot gyűjtött össze, amelyet a generatív mesterséges intelligencia segít még felhasználhatóbbá alakítani. Az AI jobb rálátást biztosíthat az adatokra, mivel a társalgási és vizuális felületet azzal a képességgel kombinálja, hogy az emberi gondolkodáson túlmutató, hatalmas adathalmazokkal számol. A 2024-es évet tekintve a mesterséges intelligencia hatása egyre több vállalat számára lesz kiemelt fontosságú, nemcsak az általános működést figyelembe véve, hanem a felsővezetők és igazgatók számára is.
„Egyre több vállalkozás kezdi felismerni a generatív AI-ban rejlő versenyelőnyt, így kockázatokra is számíthatunk. Számos szempontot figyelembe kell venni a fejlesztési és üzemeltetési költségek, az értéklánc különböző részeinek telepítése, valamint a védőkorlátok felállítása és a pontos és megbízható eredmények biztosítása terén” – mondta Zaránd Miklós, a Deloitte Magyarország technológiai tanácsadás üzletágának partnere.