Eso ya se podría hacer ahora mismo, y desde hace años, con machine learning (si tienes un buen tamaño muestral para "enseñarle" lo que es una persona). Y lo de los megapixeles es consultar el tamaño de la imagen, sin más. Otra cosa es que lo implementen en ese tipo de programas, pero por poder pueden.
Otra historia es meterle una cantidad infumable de requisitos, tipo: "Fíltrame todas las fotos en las que aparezca un asiático con sudadera roja haciendo el pino puente en un acantilado en las que salga un perro", en esos casos ya la cantidad de parámetros que manejas es un poco loco, e implicaría que necesitas una infrastructura para procesarlo enorme. Y para entrenarlo ya ni te cuento...
Además que a chatgpt tu le mandas texto, lo "interpreta" y lo genera, para el caso de las fotos tendrías que subirle toda la biblioteca y no sería lo más eficiente del mundo (incluso subiendo versiones reducidas de las fotos), porque la alternativa de que corra localmente no es viable en términos de almacenamiento ni procesamiento
Así que... depende de hasta qué punto quieras que llegue esa IA