K poslednímu postu se “slepou” ukázkou překladu AI a člověka vnikla docela zajímavá diskuse. Ukázky jsem záměrně nekomentoval. Komentuji teď, včetně pár obecnějších úvah, popisu jak AI překlad vzniknul, popisu skutečných limitů současné technologie, a trochu spekulací “kde se teď nacházíme”.
Co bylo co
Zaprvé je asi vhodné říci, odkud ukázka je: sbírka povídek Axiomatic od Grega Egana. Mimochodem - doporučuji! Eganova scifi je u řadu témat souvisejících s vědomím a AI filosoficky hlubší a pronikavější, než běžný odborný článek o tomtéž z pera profesionálního filosofa. Víc kontextu dané povídky spoilovat nechci.
Ukázka nebyla nějak překladově zvlášť složitá, ale takhle to prostě náhodně vyšlo. Pokud by to někdo chtěl zkoumat o něco vážněji, tak by samozřejmě bylo lepší vzít náhodně vybraných ukázek více, a zvolit je delší. Psal jsem ale facebookový post, ne ministudii (kterou budu rád když někdo provede).
Lidský překlad byla verze A., AI verze B.
Profesionálové rozdíl snadno poznali. Pro pohled profesionála bych ocitoval Áňa Štádlerová - díky za rozbor"
Druhý překlad je za mě horší, protože kalkuje ("záchrana se stává desetkrát těžší", "byla pěkně rovnoběžná", "nakloněný pod nečekaným úhlem" - jen příklady některých anglických formulací) a je obecně línější ve smyslu, že bere první slovníkový ekvivalent a nezamýšlí se nad kontextem (např. děti opravdu spí pod "peřinkou", ne pod "dekou", ačkoliv první slovníkový ekvivalent "blanket" je "deka"; jestli je "harness" skutečně "klokanka" těžko soudit, protože chybí kontext, ale rozhodně působí přirozeněji než "nosítka na hrudi" - když už, tak ta věc na dítě se podle mě jmenuje "nosítko", ne "nosítka"). I pořadí tématu a rématu v druhém překladu pokulhává a kopíruje anglickou strukturu. Čeština zpravidla chce téma (již známé informace) na začátku a réma (nové informace) na konci, anglický slovosled funguje trochu jinak a může si pomáhat např. vytýkacími vazbami nebo členy. Víc "česky" proto je formulace v prvním překladu, "Když spatřím stolek, z něhož padají na podlahu umělohmotné hračky, zásyp, dětský šampon a další podobné věci, kterými je přeplněn, je mi jasné, že jsem ve správném pokoji", než "Je mi jasné, že jsem ve správné místnosti, když se objeví komoda zavalená plastovými hračkami, pudrem, šamponem a dalším nádobíčkem rozsypaným na podlaze" ("správnou místnost" chceme spíš na konci). Drásá mě také formulace "dokud se pod dekou neobjeví hrbol" - ten hrbol tam přece je celou dobu, jde jen o to, kdy na něj vypravěč dohlédne. Takhle to vypadá, že tam náhle vyroste (což může být v místnosti, kde evidentně funguje nějaká zvláštní fyzikální síla (?), dost matoucí). A tak dál.
Neříkám, že podobné chyby nedělají i lidští překladatelé - ti horší určitě ano. Ale kdybych si měla tipnout, béčko je jasný AI překlad. A za mě je horší až výrazně horší.
Zajímavé je, že v hodnocení laiků v průměru rozdíl tak výrazný nebyl, a řadě lidí přišlo subjektivně lepší nebo srozumitelnější “B.”.
Mě osobně se líbí víc verze A., ale rozdíl mi přijde už zhruba v rozsahu kvality lidských profesionálů: dovedu si představit, že v době před AI by to na podobné úrovni přeložil profesionál třeba z 30 percentilu kvality. Naopak si myslím že je výsledek lepší než by byl výsledek průměrného laika vybaveného pouze slovníkem (v době před AI), a ukazuje značný potenciál “kyborgů” (o tom víc později).
Co je správně
Rozdíl ve vnímání laiků a profesionálů mě přivedl k trochu jiné a zajímavější otázce - “co jazykové modely udělají s jazykem” a co “co je v jazyku správně”.
Když začnu od svého osobního vnímání, tak třeba ty anglicismy na které poukazuje Áňa (“záchrana se stává desetkrát těžší") v textu při běžné četbě spíš nevnímám - což je asi i tím, že o některých tématech uvažuju a vedu vnitřní monology v angličtině, takže v tom má můj mozek v tom má nejspíš trochu guláš a anglické struktury v češtině nevnímá nějak rušivě. Podobně mám pocit že na “pořadí tématu a rématu” nejsem při běžné četbě moc citlivý - čtu natolik rychle, že zřejmě vnímám obojí prakticky naráz. Když si dovolím trochu zaspekulovat: přijde mi dost možné, že nějak podobně to bude mít dost lidí, kteří čtou mnoho anglických textů. (Pokud vám přišlo podobné nebo lepší B., je to tak, že čtete hodně v angličtině?)
Zajímavější je, kam masivní nasazení jazykových modelů a AI překladů posune jazyk samotný. Jednak mi přijde dost pravděpodobné, že množství textů, které jsou a budou zpřístupněné buď automatizovaným, nebo jen mírně upraveným překladem, posune češtinu blíže k angličtině. Většinu textu které většina lidí čte není beletrie.
Také je možné, že budeme pozorovat nejen další zlepšení AI, ale i posun češtiny k vyjadřování, které je přirozenější a srozumitelnější pro jazykové modely - způsobené množstvím mluvčích jazyka, kteří budou používat LLM pro tvorbu, kontrolu a vylepšování vlastních psaných textů, ale i množstvím převážně LLM generovaných textů. Pro jistotu zdůrazňuji, že tohle myslím jako deskriptivní tvrzení. Normativně se vám to nemusí líbit, ale pokud pokud přijmete že konečným měřítkem správnosti jazyka je úzus, bude obtížné tvrdit, že to špatně.
Jak překlad vznikl
Jak onen AI překlad vznikl? V současnosti jsou podle mě pro překlad použitelné dvě poměrně různé technologie - relativně malé a hloupé modely, speciálně natrénované pro překlad: to je příklad DeepL. A velké a relativně chytré modely, které jsou sice často až překvapivě obecně inteligentní, ale schopnost překládat nebo jen vůbec komunikovat v češtině je u nich emergentní: to je příklad GPT4. GPT4 je tak schopné překládat způsobem mnohem bližším tomu, jak pracuje profesionál, ale je omezené znalostí češtiny - úloha je pro ně podobnější překladu do jiného než mateřského jazyka pro člověka.
Pro zodpovězení otázky “jak umí současné AI překládat” mi přijde, že dává dává smysl obě technologie zkombinovat. GPT4 rozumí konceptům a stylu překladatelské práce, samo o sobě ale občas umí hůř česky než DeepL.
Jak technologie spojit? GPT4 lze celkem přímočaře vysvětlit co po něm chcete, a provést je postupem překladu krok za krokem. Moje zadání pro GPT je pokus napsaný zhruba za 15-20 minut, s větším úsilím by se dalo dosáhnout lepších výsledků. Naopak s menším úsilím můžete GPT prostě předložit text z DeepL a originál ke kontrole.
Odpovědi GPT4 jsou velmi ukecané a často po modelu chci uvažovat větu po větě, takže je necituji. Naopak cituji celá všechna moje zadání - a některé zajímavější části odpovědi, potřebné pro pochopení následující konverzace.
JK
Explain how a professional translator translates a work of fiction.
ChatGPT
Professional translators approach the task of translating a work of fiction with meticulous precision and dedication. The process is intricate and involves much more than simple word-for-word translation. Here's a step-by-step overview of the process:
1. Understanding the Original Text: Before starting the translation, the translator thoroughly reads and understands the original text. They pay attention to the author's style, tone, and intentions. They may also need to research the context in which the work was written, especially if it involves historical events, cultural references, or regional dialects.
2. Translation Planning: The translator develops a strategy for translating the text. This might involve creating a glossary of key terms and phrases, deciding how to handle cultural references and idioms, and setting a timeline for the translation.
3. Translating: The translator begins converting the text into the target language. They strive to maintain the tone and style of the original work while making the text accessible and enjoyable for the target audience. This may require creative solutions to convey the same ideas or emotions when a direct translation isn't possible or doesn't carry the same impact.
4. Review and Revision: After the initial translation, the translator reviews their work. They look for any errors, inconsistencies, or awkward phrasing. They may also check that cultural references have been adapted correctly and that the tone and style are consistent throughout the translation.
5. Proofreading: The translator checks the translation for grammatical, syntactical, and punctuation errors. They might also compare it with the original text to ensure nothing has been missed or misrepresented.
6. Cultural Adaptation: For the translation to be meaningful to the target audience, the translator might need to adapt certain aspects of the text to better suit the culture of the target language. For example, humor, idioms, or cultural references that make sense in the source language might need to be replaced or adapted in the target language.
7. Feedback and Editing: In some cases, a second translator or an editor may review the translated work. They offer a fresh perspective and might catch errors or suggest improvements that the original translator overlooked.
8. Final Review: The translator conducts a final review of the text. They correct any remaining errors and make any necessary adjustments based on feedback.
Throughout the entire process, the goal of the professional translator is not only to convey the literal meaning of the text but also to capture the essence of the original work, including the author's voice, style, and intent. They must strike a delicate balance between faithfulness to the original text and the readability and enjoyment of the translated version.
JK
Following is an excerpt from a short story by Greg Egan. In this conversation we will translate it as a professional would do, step by step, into Czech. Fist, start by the step 1. Understanding the Original Text you explained. The excerpt:
…
ChatGPT
The passage you provided seems to be a tense, possibly sci-fi or supernatural narrative, with the protagonist breaking into a room, possibly under some distressing or unusual physical conditions, to save a child. This might be a part of a bigger plot or a recurring theme in the story.
Before we delve into translation, here are some things to note:
Context: This is clearly an intense situation, where the protagonist is on a rescue mission under some form of duress. However, it's not clear from the passage what the exact context or source of the duress is (e.g., a dystopian setting, a supernatural condition, etc.).
Tone and Style: The tone is tense and urgent, and the style is descriptive and immersive. The narrator describes the setting and action in a detailed, methodical manner.
Vocabulary and Phrases: The language isn't overly complex, but some terms might not have direct equivalents in Czech. For instance, "talcum powder" might need a context-specific translation, and phrases like "sidle up" might need to be adapted rather than translated word-for-word.
Cultural References: There don't appear to be any cultural references in this passage.
To proceed with translating this text, the next step would be to plan how to handle these considerations and begin translating the text into Czech.
Do you want me to continue with the next step?
JK
Yes, please do continue, just with the second step, planning the translation and considering key phrases and words.
GPT: …
JK
Compare your suggested specific translations with the original and propose few alternatives for each. In particular pay attention to the translation having a smooth feel in Czech and being easy to un understand.
GPT:…
JK
Choose the best alternative in each case.
GPT:…
JK
Now you have better alternatives. Translate the whole original into Czech. For each sentence first briefly explaining the reasoning for translation, than translate it, focusing on making the translation sound Czech, and making sense in Czech.
GPT:…
JK
Write down the whole translation and do the step 4. "Review and Revision: After the initial translation, the translator reviews their work. They look for any errors, inconsistencies, or awkward phrasing."
GPT:…
JK
Compare the above automated LLM-based translation with the result of other automated ML-based translation by DeepL, provided bellow. For each sentence, compare the alternatives.
(copy-paste z DeepL)
GPT:…
JK
Create an improved version of the translation where you may use both LLM-R and DeepL-T and choose whatever seems best overall.
GPT:…
JK
Nice. Do the step 6: Cultural Adaptation: For the translation to be meaningful to the target audience, the translator might need to adapt certain aspects of the text to better suit the culture of the target language.
- Notice if there are some very uncommon specific words or references.
- For each, brainstorm about 3 alternatives
- Choose the best one
- Write down the improved translation
GPT:…
"Rozbiju sklo páčidlem, otevřu okno a prolezu jím. Na parapetu nechávám malou elektrickou svítilnu - kdybych si ji vzal s sebou, byla by k ničemu - a pomalu se přesunu do místnosti. Už se mi začíná točit hlava a je mi na zvracení, ale nutím se soustředit. Stačí jeden krok navíc a záchrana se stává desetkrát těžší. Dva kroky a je to nemožné.
Je mi jasné, že jsem ve správné místnosti, když se objeví komoda zavalená plastovými hračkami, dětským pudrem, dětským šamponem a dalším nádobíčkem rozsypaným na podlaze. Pak se na mé levé straně objeví roh dětské postýlky, nakloněný pod nečekaným úhlem; pravděpodobně byla původně pěkně rovnoběžná se zdí, ale pod vnitřní silou se nerovnoměrně posunula. Opatrně se k ní přibližuji a pak se posouvám vpřed, dokud se pod dekou neobjeví hrbol. Tuhle chvíli nesnáším, ale čím déle čekám, tím je to těžší.
Natáhnu se bokem a zvednu dítě, s sebou beru i deku. Odkopnu postýlku stranou, pak jdu dopředu a pomalu ohýbám ruce, dokud nemůžu dítě vsunout do nosítek na mém hrudníku. Dospělý člověk má dost síly na to, aby táhl malé dítě na krátkou vzdálenost ven. To většinou končí smrtí."
JK
Still not perfect - find a place or places where the same or very similar adjective is repeated multiple times in close distance. Change or drop what may sound repetitive (*)
GPT: …tady to jsem použil jako výsledek….
Nutno říci, že poslední prompt už je na můj vkus v pokusu o vytvoření obecného systému trochu příliš specifický a na hraně pravidel, ale na druhou stranu by se asi s víc ukázkama dala vytvořit “baterie automatizovaných oprav a vylepšení“, která by docela obecná byla.
Pokud vám psaní promptů přijde v tomhle případě víc práce než text přímo přeložit, máte pravdu, ale vtip je v tom, že všechny instrukce jsou velmi obecné a asi by v průměru zlepšily libovolný překlad beletrie. Z podobných instrukcí v přirozeném jazyce a trochy kódu by pak šlo postavit automatizovaný systém, který většinu přeloží sám, upozorní na místa kde si neví rady, případně nabídne alternativy. Pokud by vás bavilo založit lokální niche startup a vydělat na tom …stovky tisíc až miliony korun, tak použitelný prototyp takového systému se dá napsat tak za víkend (ne, nemá čas).
Toto není hranice technologie
Popsaný výsledek je zhruba to, kam se dostanete s použitím hotových dostupných modelů. Samozřejmě lepší by bylo vzít silnější model, a doladit (dotrénovat) jej pro překlad. Zdůrazňuji že u toho co GPT4 umí nejde o přímý výsledek lidské snahy - schopnost překládat je emergentní, a nikdo se ji nesnažil vylepšit.
Úloha “zlepšit překlad beletrie do češtiny“ nemá větší komerční význam, takže čas ani výpočetní výkon do tohoto problému zrovna teď nikdo investovat nebude, ale technicky, pokud bychom základní model doladili, budou výsledky lepší.
Kde se nacházíme
Podle mě, ukázka celkem jasně ukazuje, že v problému překladu do češtiny jsme v “období kyborgů“, t.j. době, kdy schopnosti lidí a AI jsou rozložné tak, že v řadě pod-schopností jsou lepší lidé, v řadě AI, a v nějakém směru “vedou“, resp. nejvíce konkurenceschopné jsou smíšené týmy AI-člověk. Optimální kyborgský pracovní postup překladu by byl jiný než uvedená ukázka a často bych při něm místo zadání “vyber nejlepší alternativu“ model vedl konkrétním směrem. Mnohem horší možnost je doupravit hotový překlad, ale ani to není úplně mimo:
"Rozbiju sklo páčidlem, otevřu okno a vlezu dovnitř. Na parapetu nechávám malou elektrickou svítilnu - kdybych si ji vzal s sebou, byla by k ničemu - a pomalu se přesunu dál do místnosti. Už se mi začíná točit hlava a je mi na zvracení, ale nutím se soustředit. Stačí jeden krok navíc a záchrana je desetkrát těžší. Dva kroky a je nemožná.
Že jsem ve správné místnosti vím, když se objeví komoda zavalená plastovými hračkami, dětským pudrem, šamponem a dalším nádobíčkem rozsypaným na podlaze. Pak nalevo uvidím roh dětské postýlky, nakloněný pod nečekaným úhlem; pravděpodobně byla původně rovnoběžná se zdí, ale vlivem dostředné síly se nerovnoměrně posunula. Opatrně se k ní přibližuji a pak se posouvám vpřed, dokud pod dečkou neuvidím hrbol. Tuhle chvíli nesnáším, ale čím déle čekám, tím je to těžší.
Natáhnu se bokem a zvednu dítě, s sebou beru i deku. Odkopnu postýlku stranou, pak postupuji dopředu a pomalu ohýbám ruce, dokud nemůžu dítě vsunout do nosítka na mém hrudníku. Dospělý člověk má dost síly na to, aby odtáhl malé dítě na krátkou vzdálenost ven. To ale většinou končí smrtí."
I jako laik přitom celkem snadno a rychle opravím drobné problémy s významy, prostě podle představy o dané scéně. Jako laik si naopak často nevšimnu problémů typu subtilně anglické větné struktury, ale, realisticky, pro řadu textů to bude stačit.
Má se Viktor Janiš bát o práci?
Přímo v současnosti ne. Nejlepší lidské překladatele do češtiny při překladu nejnáročnějších textů kyborg složený z DeepL, GPT4 a laika neohrožuje.
Co si nicméně myslím že může postihnout i Viktora Janiše jsou sekundární efekty na trhu s překladem, a tlak na cenu překladu. Pokud “kyborgizace“ překlad průměrných textů průměrnými překladateli výrazně zrychlí, vede to k tlaku na cenu za normostranu. Překlad se obvykle platí za stranu, pro člověka je ale v mnohém důležitější příjem za čas. S nástroji, které překlad výrazně zrychlují, jsou proto pro kyborgizované překladatele přijatelné nižší ceny za stranu. To mimochodem platí i pokud by takový překlad byl marginálně o trochu horší: pokud bude výrazně levnější, zákazníky si najde. Jaký efekt to má ne na ty nejelitnější, ale průměrnější překladatele překládající průměrnější díla? Jejich práci AI výrazně proměňuje už dnes, někdo používá AI rád, někdo chtě-nechtě, a část lidí bude nejspíš automatizací z trhu vytlačena. Někdo mimo překlad, ale myslím že je dost možné, že někdo se zkusí posunout i do té “tržní niky“ náročných překladů: kvalita překladu není daná jen náročností originálu a “kvalitou překladatele“, ale i tím, jak moc si s prací překladatel hraje. Je tedy představitelné, že část překladatelů je “vytlačována“ od běžnějších k náročnějším překladům… což může vytvářet tlak na cenu práce i těch nejlepších. (Upozorňuji že trhu s překladem nijak nerozumím, jen se na daný problém snažím aplikovat standardní mikroekonomii).
Dobre cteni, diky. Velmi ocenuji praktickou ukazku promptu, to je pecka.