Meta učila svou AI na pirátském obsahu. Trénink posvětil sám Zuckerberg

Pavel Škopek15. 1. 2025 08:00

AI model Llama od společnosti Meta | foto: Meta

Meta čelí obviněním z použití nelegálních dat z torrentů k tréninku modelu Llama. Potvrzují to i dokumenty, do kterých nahlédl soud.

Umělá inteligence je jedním z nejžhavějších témat dneška. Současně je však také jedním z nejkontroverznějších. Velké jazykové modely (LLM), jako je ChatGPT od OpenAI nebo Gemini od Googlu, potřebují ke svému trénování obrovské množství dat a jejich původ nemusí být vždy úplně legální. To je případ i společnosti Meta, která je obviněna, že k trénování svého velkého jazykového modelu Llama použila pirátský obsah z torrentů.

Llama se učila na pirátském obsahu

Na Metu podali žalobu kvůli používání pirátského obsahu už v roce 2023 spisovatelé Richard Kadrey a Christopher Golden. Tvrdili, že Meta neoprávněně použila chráněné materiály, což vedlo ke známému soudnímu případu. Až dosud přitom Meta předávala soudu pouze redigované dokumenty se začerněnými informacemi. Nyní je však musela zveřejnit na příkaz kalifornského soudce v jejich plném znění.

Dokumenty odhalují interní komunikaci zaměstnanců společnosti Meta týkající se projektů Meta AI a Llama. V jedné konverzaci si inženýr stěžuje, že stahování z torrentu na firemním notebooku (vlastněném Metou) nepůsobí správně. V jiném dialogu se objevuje tvrzení, že použití pirátského materiálu údajně schválil i Mark Zuckerberg. To naznačuje, že společnost skutečně používala pirátský obsah k trénování svého modelu.

Kradené dokumenty ze stínových knihoven

Mezi zdroji, z nichž Meta podle důkazů čerpala data, je i LibGen, rozsáhlá knihovna pirátských knih, časopisů a vědeckých článků, která byla založená v Rusku v roce 2008. LibGen již čelila mnoha žalobám, přesto její provozovatelé zůstávají anonymní.

Kromě toho Meta údajně využívala i další takzvané „stínové knihovny.“ Společnost obhajuje své jednání s odkazem na princip „fair use,“ který v určitých případech umožňuje použití chráněného obsahu bez svolení. Tvrdí, že šlo pouze o statistické modelování jazyka za účelem vytváření originálního obsahu.

Obviňován byl i Apple

Meta však není jedinou velkou technologickou firmou, která je obviňována z porušování autorských práv při trénování AI. Například loni vyšetřování ukázalo, že model OpenELM vytvořený společností Apple obsahoval titulky z více než 170 000 videí zveřejněných na YouTube.

Společnost však později vysvětlila, že OpenELM je open-source model určený výhradně k výzkumným účelům a jeho databáze se nevyužívá pro Apple Intelligence. Podle Applu jsou funkce AI dostupné v iOS a macOS trénovány na licencovaných datech, včetně dat vybraných pro vylepšení specifických funkcí, a také na veřejně dostupných datech shromážděných webovým vyhledávačem.

Nepřehlédněte

Sledujte nás v Google Zprávách

Autor článku

Pavel Škopek

Profesně i soukromě se dlouhá léta zajímám o moderní technologie všeho druhu, od mobilních telefonů až po elektromobily. Ve volném čase se věnuji především fotografováním, nepohrdnu dobrým filmem a knihou nebo jezdím na elektrokole.