GPT-3

transformativní jazykový model z roku 2020

GPT-3, v angličtině též jako third generation Generative Pre-trained Transformer, je základní model Generative pre-trained transformeru v oblasti zpracování přirozeného jazyka, založený na strojovém učení neuronové sítě.[1] Jedná se o autoregresivní jazykový model, který je schopen hlubokého učení textu, trénovaný za pomocí internetových dat. Model, podobně jako lidský mozek, si zapamatovává data, ze kterých je následně schopen produkovat nejen nový text, ale také generovat kód, příběhy i básně.[2][3]

GPT-3
VývojářOpenAI
První vydání28. května 2020
Aktuální verze175B
Typ softwaruvelký jazykový model, autoregressive model, transformer, generativní model a Generative pre-trained transformer
Licenceproprietární licence
Webarxiv.org/abs/2005.14165
Některá data mohou pocházet z datové položky.

Produkt představila v květnu 2020 společnost OpenAI jakožto nástupce předchozího jazykového modelu s názvem GPT-2, který nebyl schopný obsáhnout takové množství dat a produkovat kvalitní texty.[1] Výzkumná laboratoř OpenAI se sídlem v americkém San Franciscu předvedla v červenci roku 2020 úspěšné beta testování modelu.[4] GPT-3 model na rozdíl od svého předchůdce produkuje texty, ze kterých je mnohem těžší rozpoznat, zda jej psal člověk či tato umělá inteligence.[2] V roce 2022 byl na této platformě spuštěn chatbot ChatGPT, který získal značnou mediální pozonost.

Přístup k základnímu modelu má pouze společnost Microsoft, na jejíž používání získala v září 2020 licenční smlouvu. Všichni ostatní uživatelé mohou používat alespoň veřejné rozhraní API.[5]

Historie GPT editovat

V roce 2015 byl projekt GPT-3 vyvíjen pod křídly neziskové organizace OpenAI. Cílem projektu bylo vytvořit a popularizovat „přátelskou umělou inteligenci“ schopnou přinést užitek lidstvu jako celku. První verze GPT byla vydána v roce 2017 a obsahovala 117 milionů parametrů. Druhá verze GPT-2, vyšla v roce 2019 a obsahovala 1,5 miliardy parametrů.[6]

Nejnovější verze, GPT-3, svou konkurenci více než stonásobně překonala. Model byl trénován na 175 miliardách parametrů. Nejvýkonnějším předchůdcem byla Turing NLG společnosti Microsoft s 10 miliardami parametrů. Jedná se o mnohem robustnější verzi, která je schopna lépe zpracovávat data v užších specializacích. Verze GPT i GPT-2 byl kritizovány za nedostatečný výkon v hudební oblasti a za špatné schopnosti v oblasti vyprávění příběhů a psaní textu. GPT-3 je v těchto ohledech díky masivní datové základně mnohonásobně více výkonný model, zvládá úkony jako odpovídání na otázky, psaní esejí, shrnutí textu, překlad textu a také generování zdrojového kódu.[7]

Trénovací data editovat

K trénování modelu byla v nejvyšší míře použita datová sada Common Crawl2, která obsahuje téměř miliardu slov. Jedná se o nezpracovaná data webových stránek, extrahovaná metadata a textové extrakce. Takováto velikost je k trénování modelu dostačující, nicméně nefiltrovaná nebo málo filtrovaná verze datasetu by mohla vést k nekvalitním výstupům.

Ke zlepšení kvality datové sady vedly 3 kroky, konkrétně:

  • Filtrování stažené verze Common Crawl na základě podobností s řadou vysoce kvalitních referenčních dat.
  • Byla provedena Fuzzy deduplikace na úrovni dokumentů v rámci datasetů i napříč nimi, aby bylo zabráněno redundanci a došlo k zachování integrity dat.
  • CommonCrawl dataset byl rozšířen o další kvalitní referenční korpusy, což vedlo ke zvýšení rozmanitosti modelu.

Konkrétně se jednalo o rozšíření datasety WebText2, který zahrnuje veškeré příspěvky na Redditu datované od 2005-2020. Dále Books1 a Books2, datasety internetových knižních korporací. V poslední řadě a v nejmenším rozsahu byl použit dataset anglických článku z Wikipedie.

Použité datové sady:
Dataset Tokeny Váha Uběhlé epochy při trénování 300 mld. tokenů
Common Crawl2 410 mld. 60% 0,44
WebText2 19 mld. 22% 2,9
Books1 12 mld. 8% 1,9
Books2 55 mld. 8% 0,43
Wikipedia 3 mld. 3% 3,4

"Váha" se vztahuje k podílu příkladů během tréninku, které jsou vybrány z daného souboru dat. Tento podíl záměrně není úměrný velikosti datasetu. Některé datové sady se tak během trénování objeví až 3,4×, zatímco jiné dokonce méně než jednou.[1]

Jak GPT-3 funguje editovat

 
Výstup GPT-3: úvod ke článku o vývoji výzkumu prvočísel v angličtině

GPT-3 je řada modelů jazykové predikce, nejedná se o jeden model, ale o rodinu modelů. Každý model v rodině má jiný počet trénovatelných parametrů. Nejvýkonnější z rodiny GPT-3 je model s názvem text-davinci-003, trénovaný na nejvyšším množství parametrů. Zvládne jakoukoli úlohu, kterou zvládnou ostatní modely, často ve vyšší kvalitě, s delším výstupem a lepším dodržováním pokynů. Podporuje také vkládání doplnění v textu. Dalším členem rodiny je například podobně schopný model text-curie-001,který je rychlejší a levnější než Davinci. Zatímco Davinci je silnější, pokud jde o analýzu složitých textů, model Curie je výkonný pro mnoho nuancovaných úloh, jako je klasifikace sentimentu a sumarizace. Dalšími oficiálně dostupnými modely jsou Babbage a Ada, které jsou určeny spíše k rychlým a jednoduchým úlohám, jako je klasifikace textu.[8]

Architektura modelů GPT-3 je postavena na principu strojového učení neuronové sítě, který dokáže přijmout text jako vstup a transformovat jej na to, co předpovídá jako nejužitečnější výsledek. Toho je dosaženo trénováním systému na rozsáhlém množství internetových textů. GPT-3 se zaměřuje na výstup v podobě textu, čehož je s vysokou úspěšností schopen na základě toho, že byl předem vycvičen na obrovském množství textu. Když uživatel zadá vstupní text, systém analyzuje jazyk a pomocí prediktoru vytvoří nejpravděpodobněji nejužitečnější výstup.[7]

Obecné možnosti využití GPT-3 editovat

Generování a překlad textu editovat

Model dokáže psát beletrii, vyprávět vtipy, psát básně a vytvářet konverzační rukopisy a řadu dalších věcí. Za předpokladu správného podnětu, tzv. promptu, dokáže psát přesvědčivé a poutavé články, nicméně však nedokáže uvést zdroje a nelze spoléhat na pravost a pravdivost informací, jedná-li se o informativní či naučný článek. Je také schopen generovat všechny druhy dokumentů, od obchodních poznámek až po právní dokumenty. Kromě psaní jej lze využít k opravě gramatických chyb v textu a nebo jako nástroj pro překlad.[9]

Generování kódu editovat

Pomocí GPT-3 lze překládat přirozený jazyk do kódu a naopak. Lze také překládat kód z jednoho programovacího jazyka do druhého, vysvětlit část složitého kódu, opravit kód nebo odpovědět na otázky týkající se používání programovacího jazyka.[10]

Automatizace zákaznické péče editovat

Startupy jako ActiveChat využívají GPT-3 k vývoji chatbotů, možností živého chatu a dalších konverzačních služeb s umělou inteligencí, které pomáhají odlehčit zátěž online zákaznické péče.

Většina interakcí se zákaznickými službami jsou jednoduché dotazy týkající se například ceny nebo otevírací doby. Může se také jednat o běžné problémy, které může mít mnoho nových zákazníků s produktem, onboarding nebo snadno odstranitelné potíže. Umělá inteligence dokáže odpovídat na dotazy bez ohledu na denní či noční dobu a v několika cílových jazycích. Zákazníci dostávají téměř okamžité odpovědi a mohou snadněji řešit problémy.[11]

Limitace editovat

Řada modelů GPT-3 je stejně jako většina technologií svazována jistými limitacemi.

Uživatelé identifikovali zejména následující nedostatky modelu:

  • Výstupy mohou postrádat sémantickou koherenci, což vede k tomu, že text je psaný nesrozumitelně a v nesouladu s pravidly správného psaní. Se zvyšující se délkou textu je výstup čím dál více náchylný k tomuto jevu.
  • Ve výstupech jsou obsaženy všechny chyby, které se mohou vyskytovat v trénovacích datech. V praxi to znamená, že výstupy mohou obsahovat diskriminaci, a to například rasovou, genderovou nebo v otázkách víry.
  • Nelze zaručit, že výstupy modelů budou vždy tvrzení odpovídající reálné skutečnosti, tedy pravdivé výstupy.[12]

Model nefunguje na principu neustálého učení. Byl předem vycvičen, což znamená, že nemá trvalou dlouhodobou paměť, která by se učila z každé interakce.

Kromě výše zmíněních limitací trpí GPT-3 stejnými problémy jako všechny neuronové sítě: nemá dostatečné schopnosti vysvětlit a interpretovat, z jakého důvodu vedou dané vstupy k daným výstupům.[1]

Další limitací modelu, taktéž způsobenou absencí principu neustálého učení je fakt, že model bude brzy zastaralý, pokud nebude doučen na nová data. GPT-3 momentálně funguje na základě dat nasbíraných do roku 2019. Neví tak například vůbec nic o tématu jako je Covid-19 a proto když GPT-3 pracuje s pojmy jako "lock down" a nebo společenské distancování, nedokáže poskytnout kontext spojený s pandemií, protože o ní jednoduše neví, stala se až po jeho kompletním naučení. Tento problém lze adresovat doučením modelu o nové, aktuální datasety.[13]

Použití v praxi editovat

Copy.ai editovat

V aplikaci slouží GPT-3 zejména obchodníkům a majitelům různých firem. Produkt je totiž schopný generovat text pro blogy, názvy pro produkty, atp. a to na základě slovní zásoby zadané uživatelem. Aplikace generuje řadu možných textových výsledků, ze kterých si poté uživatel sám vybírá, co se mu líbí nejvíce.[14]

Jasper.ai editovat

GPT-3 se používá v Jasper.ai, jako generátor obsahu, který má pomáhat obchodníkům a copyeditorům. Aplikace se používá k tomu, aby pomohl podnikům rozšiřovat jejich obsahové strategie, pomáhal nerodilým mluvčím efektivněji sdělovat jejich myšlenky a umožňoval lidem rozvíjet každodenní návyky psaní. Nové rozšíření prohlížeče Jasper vydané pro Chrome umožňuje uživatelům vzít si s sebou generativní umělou inteligenci na celou řadu webových stránek a platforem obsahu, které používají.[15]

ChatGPT editovat

Spadá stejně jako samotný model GPT-3 pod křídla společnosti OpenAI. Jedná se o model, který je schopen odpovídat na otázky dialogovým, konverzačním způsobem. Model umí díky svému formátu odpovídat na otázky, přiznávat své chyby a zpochybňovat nesprávné předpoklady. Je také postaven tak, aby odmítal nevhodné požadavky.[16]

Microsoft editovat

GPT-3 bude integrován do Microsoft Power Apps, platformy pro vývoj low code aplikací, která umožní všem, od lidí s malými nebo žádnými zkušenostmi s kódováním až po profesionální vývojáře s hlubokými znalostmi programování, vytvářet aplikace pro zlepšení produktivity nebo podnikových procesů.[17]

Excelformulabot editovat

S využitím GPT-3 umožňuje převádět textové pokyny do vzorců pro aplikace Excel nebo Google Sheets nebo naopak vysvětlit již existující vzorce a jejich dekompozici. Textové pokyny lze převést i do VBA kódu. [18]

CodexDB editovat

Codex syntetizuje specifický kód pro zpracování dotazů SQL pomocí modelu GPT-3 Codex od společnosti OpenAI. Uživatelé si vygenerovaný kód přizpůsobí pomocí instrukcí v přirozeném jazyce. Laičtí uživatelé mohou například v přirozeném jazyce popsat výstup, který se má generovat a který jim pomůže při ladění dotazů SQL.[19]

TextCortex AI editovat

Poháněné systémem GPT-3, TextCortex dokáže generovat texty pro blogy nebo marketingové kopie, názvy produktů, značky a další. Uživatelé zadají požadovaný slovník a aplikace vytvoří řadu možných výsledků; uživatelé si pak mohou vybrat ten, který se jim nejvíce líbí. [20]

Reference editovat

  1. a b c d BROWN, Tom B.; MANN, Benjamin; RYDER, Nick. Language Models are Few-Shot Learners. arXiv:2005.14165 [cs]. 2020-07-22. ArXiv: 2005.14165. Dostupné online [cit. 2022-12-11]. 
  2. a b OpenAI GPT-3: Everything You Need to Know. Springboard Blog [online]. 2021-11-01 [cit. 2022-12-11]. Dostupné online. (anglicky) 
  3. WEINBERG, Justin. Philosophers On GPT-3 (updated with replies by GPT-3). Daily Nous [online]. 2020-07-30 [cit. 2022-12-11]. Dostupné online. (anglicky) 
  4. SHEAD, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  5. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  6. GPT-2 (GPT2) vs. GPT-3 (GPT3): The OpenAI Showdown. dzone.com [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  7. a b What is GPT-3? Everything You Need to Know. Enterprise AI [online]. [cit. 2022-12-11]. Dostupné online. (anglicky) 
  8. OpenAI API. beta.openai.com [online]. [cit. 2023-01-04]. Dostupné online. (anglicky) 
  9. CHAUHAN, Nagesh Singh. OpenAI GPT-3: Understanding the Architecture. The AI dream [online]. 2022-05-04 [cit. 2023-01-04]. Dostupné online. (anglicky) 
  10. GPT-3: A Mind-Blowing AI That Can Code, Write Songs & Poems, Create Interview Questions!. www.linkedin.com [online]. [cit. 2023-01-04]. Dostupné online. 
  11. GPT-3 Use Cases Changing the World of Business [online]. 2022-09-22 [cit. 2023-01-04]. Dostupné online. (anglicky) 
  12. DALE, Robert. GPT-3: What’s it good for?. Natural Language Engineering. 2020-12-15, roč. 27, čís. 1, s. 113–118. Dostupné online [cit. 2022-12-11]. ISSN 1351-3249. DOI 10.1017/s1351324920000601. 
  13. GPT-3: What You Should Know. asb.edu.my [online]. 2020-12-22 [cit. 2023-01-04]. Dostupné online. (anglicky) 
  14. WILHELM, Alex. Writing helper Copy.ai raises $2.9M in a round led by Craft Ventures [online]. 2021-03-17 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  15. Jasper Announces $125M Series A Funding Round, Bringing Total Valuation to $1.5B and Launches New Browser Extension. www.jasper.ai [online]. [cit. 2022-12-13]. Dostupné online. 
  16. ChatGPT: Optimizing Language Models for Dialogue. OpenAI [online]. 2022-11-30 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  17. Microsoft announced its first customer product features powered by GPT-3 and @Azure.. The AI Blog [online]. 2021-05-25 [cit. 2022-12-13]. Dostupné online. (anglicky) 
  18. Google Sheets - Excelformulabot.com. excelformulabot [online]. [cit. 2022-12-13]. Dostupné online. (anglicky) 
  19. CodexDB - SQL Processing Powered by GPT-3. CodexDB - SQL Processing Powered by GPT-3 [online]. [cit. 2022-12-13]. Dostupné online. (anglicky) 
  20. Democratizing Written Communication - TextCortex Raises $1.2 Million Pre-Seed To Advance Proprietary NLG Capabilities. TextCortex AI [online]. [cit. 2022-12-13]. Dostupné online. (anglicky)