Se hai provato generatori come DALL E 2, Stable Diffusion o Midjourney, potresti scoprire che producono immagini fantastiche, ma ritagliale in modo che il personaggio principale non abbia la fronte, la punta di una scarpa o… il gatto nella foto: una tazza. In particolare, Midjourney è stato in grado di aiutare in questo. La scorsa settimana, un popolare strumento basato sull’intelligenza artificiale è uscito con una nuova versione in grado di attirare l’attenzione.
Rispetto alla precedente versione 5.1, Midjourney 5.2 aggiunge solo un decimo del suo nome, ma apre una serie di nuove possibilità di approccio alla creazione di materiali visivi. La funzione di ridisegno dei bordi, denominata Zoom Out at Midjourney, consente di produrre uno scatto ravvicinato e di espanderlo gradualmente premendo un pulsante che espande automaticamente l’immagine originale. Oggi può farlo il doppio.
Lo zoom indietro risolve quindi la malattia relativamente comune dei generatori di immagini, che a volte crea un’immagine utilizzabile, ma la testa o la mano del personaggio non possono entrarci a causa, ad esempio, della composizione scomoda. Nel nostro caso, l’intera tazza nell’angolo in basso a destra non corrisponde al gatto nel caffè dell’immagine del titolo.
In passato bisognava accontentarsi dei risultati o ricominciare a guadagnare. Oggi, tuttavia, potrebbe facilmente ampliare il quadro. Basta ingrandire una delle quattro varianti realizzate in modo classico e appariranno nuovi pulsanti: Zoom indietro e Zoom personalizzato.
Abbiamo descritto la prima opzione sopra. Il programma espande l’immagine, ma non hai alcun controllo su ciò che viene aggiunto esattamente ai bordi dell’immagine. Ancora più interessante è la seconda funzione chiamata Zoom personalizzato, che può essere utilizzata per regolare il testo di input prima che si espanda.
Pertanto, l’utente ha il controllo non solo sul contenuto finalizzato dal programma, ma anche sulle proporzioni della creazione finale. Non solo il nostro gatto riceverà una tazza intera, ma anche altri amanti del caffè, come puoi vedere nell’immagine qui sotto.
Inoltre, l’intero processo può essere sostanzialmente ripetuto all’infinito, il che rende possibile la creazione di intere scene. Non sorprende che il loro numero enorme abbia iniziato ad apparire sui social network. Il generatore di immagini DALL·E 2 di OpenAI è stato in grado di disegnare bordi in base all’input di testo per un po’ di tempo.
Screenshot di Midjourney durante le riprese
“Avid organizer. Hipster-friendly bacon evangelist. Friend of animals everywhere. Entrepreneur.”