„Imagen staví při porozumění textu na síle velkých transformačních jazykových modelů a opírá se o sílu difuzních modelů při generování velice věrných obrazů. Naším klíčovým objevem je, že obecné velké jazykové modely, předem natrénované na výhradně textových korpusech, jsou překvapivě účinné při kódování textu pro syntézu obrazu.“ uvádí Jeff Dean.