
NTN 209 - 🎨 GPT4-V(ision, no es el de Marvel) 2r3a1x
Descripción de NTN 209 - 🎨 GPT4-V(ision, no es el de Marvel) 2h2f3u
Buenas! Episodio corto con noticias de estos días. - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), https://arxiv.org/abs/2309.17421 Happy Coding! Bruno Capuano es AppDev Team Lead at Microsoft https://aka.ms/elbruno Recursos del Podcast https://elbruno.com/podcast/ ¿Quieres anunciarte en este podcast? Hazlo con advoices.com/podcast/ivoox/277993 4716i
Este contenido se genera a partir de la locución del audio por lo que puede contener errores.
Estás escuchando no tiene nombre un podcast sobre tecnología que es bastante probable que sea escrito por una inteligencia artificial por ejemplo con jack pete el host autor editor y encargado de los efectos visuales del podcast es bruno capuano puedes arlo en twitter en arroba el bruno o en las redes sociales también buscando por el bruno mi nombre es elena de italia y si uno es se invitó al episodio de hoy buenas buenas vamos con otro episodio cortito que es viernes y estas últimas semanas y las que quedan me pasó hablando de lo que podemos hacer con los modelos que te lamas de jaime face y más a nivel experiencia a nivel negocio están llevando de aquí para allá es mesas redondas concursos etc nadie lo estoy pasando muy bien y me está faltando tiempo para probar y ver lo nuevo porque hacer rápidamente de algunas cosas que podíamos hacer con veinticuatro básicamente con veinticuatro ve el que abre el billón el que abre los ojos que un nombre que nadie me da gracia pero no pero sin embargo queda toda una parte de cómo trabajar con la api y qué hacer en cuanto al modelo en sí no lo que está embebido en chat o en bici por ejemplo sobre cómo trabajar para explicar esto vuelvo un poco para atrás el modelo se puso a disposición de fue un laúd gradual el veinticuatro de septiembre más o menos hace unos veinte días internet especialmente twitter que donde más que nada vivos hoy reddit empezaron a estar inundados con experimentos pero una cosa interesante es que un equipo de rizarse microsoft también también hizo un test más exhaustivo más basado en una metodología un poquito más formal para ver como respondí este modelo con algunas tareas del agua vi son bastante específicas entonces en x antes conocidos como twitter la gente empezó a probar el modelo en algunos ejemplos como lo que decía el que más me gusta a mí de nuevo este poste que tiene un montón de señales de tráfico donde dicen cómo se puede aparcar ahí ahora se puede aparcar el coche se puede aparcar y al final le mandan la foto es difícil decir puedo aparcar aquí y te dice si puedes aparecer aquí hoy a partir de las cuatro data está genial después otra persona construyó una agente y que va a partir de lo que le va pidiendo y le vas mostrando a niveles ket te construye un front end en java script que parece que está bastante bien tiene como varias iteraciones para ir limpiando errores para ir limpiando problemas todavía no genera todo el código de de una que funcione pero parece estaban bastante bastante y hay más ejemplos de russell crowe gladiador está muy bien pasarle un fraile de la película y que te lo de pero bueno esas son un par de cosas que son las pruebas que hace la gente por otro lado el equipo de vas a ofrecer y aquí me van a matar porque lo voy a decir mal al nombre chin wang yang probaron el modelo veinticuatro by ge veinticuatro visión y vieron algunas tareas hicieron lo hicieron básicamente una serie de de análisis basado en brooklyn para ver cómo cómo interacciona va el modelo con imágenes palabras y código también lo con ampararon a nivel cualitativos obviamente positivo y negativo con otros modelos por ejemplo con que son competición en este caso cuando tenemos modelos multimodales como lava que es una versión específica del ama que también tiene visión tener que hablar de lavar algún momento creo que no he hablado nunca pero ahora voy a hablar bar y bueno una el opus de este de este análisis fueron que funciona muy pero muy bien cuando se le pide que analice texto que está dentro de cajas por ejemplo o labels etiquetas por ejemplo en signos señales porque lo puede identificar le puede sacar bastante bien cuando se le presenta una secuencia de imágenes que no está en orden y esto es bastante interesante ep de cuatro vi identifica cuál es la imagen que va primero cuál sigue y cuál es la que va a seguir esto es brutalmente interesante es decir obviamente imágenes que tengan sentido si le presentas una secuencia de imágenes y si el modelo es capaz de analizar e identificar el orden en que han sido por ejemplo son fotos en que han sido tomada está bastante bastante bien hecho y además describe la acción de la imagen si le pasas una foto de un lance de una costa por ejemplo y le pides que
Comentarios de NTN 209 - 🎨 GPT4-V(ision, no es el de Marvel) 6v2x1m