
#004 - Fine tunning de modelos generativos 165q
Descripción de #004 - Fine tunning de modelos generativos b1s2p
Después de los capítulos sobre Retrieval Augmented Generation y Prompt Engineering, completamos la tríada de estrategias de base para el uso de IA generativa con datos propios con este capítulo dedicado al fine-tunning. Angel Conde, arquitecto de soluciones en AWS, nos cuenta todo lo que necesitas saber sobre esta técnica y como poder implementarla en AWS. ¿Qué es el fine tunning? ¿Cuándo aplicar el fine tunning? ¿Cómo hacerlo? ¿Qué es el olvido catastrófico? Todas las respuestas a estas preguntas y otras en este capítulo. Si quieres probar los conceptos aparecidos en el capítulo, puedes hacerlo siguiendo los pasos descritos en los siguientes links: https://aws.amazon.com/es/blogs/machine-learning/fine-tune-and-deploy-mistral-7b-with-amazon-sagemaker-jumpstart/ https://aws.amazon.com/es/blogs/machine-learning/fine-tune-text-to-image-stable-diffusion-models-with-amazon-sagemaker-jumpstart/ Albert Capdevila es un arquitecto de soluciones de AWS basado en Barcelona, ayudando a los clientes a construir sus cargas en AWS de acuerdo a las mejores prácticas. Después de más de 15 años trabajando en proyectos en el ámbito de las arquitecturas de integración, lleva ya 4 años focalizado en el cloud y en el AI/ML. Albert está actualmente trabajando en un modelo de predicción del tiempo libre que sus hijos le van a dejar para poder ir a escalar montañas. a con Albert Capdevila en LinkedIn en https://www.linkedin.com/in/albertcapdevila/ Angel Conde es especialista de analítica de Datos en AWS. Aparte de analítica, forma parte del equipo de especialización de IA/ML de AWS. Antes de estar en AWS dirigió un equipo de investigación en Analítica y AWS, tiene una tesis en NLP y ha dirigido dos tesis en colaboración con diferentes universidades sobre Deep Learning y detección de anomalías en series temporales. a con Angel Conde en LinkedIn en https://www.linkedin.com/in/acmanjon/ 4j2e1p
Este contenido se genera a partir de la locución del audio por lo que puede contener errores.
Varios de los comentarios de nuestros clientes en jeisson era una imagen de una mariposa los navegantes esto es alucinando con la ia generativa en edith obligues qué tal bienvenidos al nuevo capítulo de alucinando con ia generativa nouvelle jesse después de dos capítulos relativos a pronto engineering y reciban aumento general son hoy nos toca completar la triada y hablar de la tercera gran estrategia que tenemos para poder utilizar a información propia o información más contextualizada un cierto dominio dentro los modelos más generalistas como eso faith junín y para eso hoy tenemos con nosotros a ángel conde ángeles solución arquitecto de se está dando soporte a a partners y además es especialista en temas relativos a data analytics y massimo harry y bueno además que ya nos contará pero tiene un background bastante marcado más de investigación alrededor del procesado de lenguaje natural ha hecho una tesis ha dirigido otras con lo cual ángel bienvenido hoy podcast ha encantado de que estés hoy con nosotros antes de nada cuéntanos por favor un poquito quién eres cómo llegaste a whedon se llama posición en aquestas hola buenas al ver bueno nos están escuchando viviendo en la el conde como habéis dicho par la solución sanguinetti y bueno llevo un poco más de dos años en la iglesia ayudando sobre todo a barnes como ha dicho albert a la soporta trabajos o arquitecturas de clientes sobre todo ante más analítica y machine learning inteligencia artificial y bueno antes de entrar en la iglesia y como bien has dicho no tengo un background bastante más marcado una investigación suya la tesis súper de moda de procesamiento de lenguaje natural sobre todo en temas de sacar resúmenes de libros grandes sacar como una antología de conceptos tan importantes como estaban relacionados dentro de textos grandes de hollywood un ejemplo evidentemente todo esto antes de todo este mundo de las redes generales y del del deep learning no que ahora estamos viendo cómo otro salto no luego también pues bueno dirigir un equipo de investigación en esto y me tocó también codirección paréntesis de estos temas más relacionados con deep learning ya pero aquí sí que cambia un poco de temática a series temporales y bueno estamos aquí en poco no que que se han pegado otro salto hemos cambiado algunos conceptos evidentemente ya todo el procesamiento de lenguaje natural está basado en redes neuronales pero bueno básicamente los problemas a los que hay que solucionar siguen siguen siendo los mismos general pues bienvenido como he dicho capítulo de podcast y nada vamos directamente al grano a vamos a dedicar este capítulo veintiuno con lo cual antes que nada presentemos un poquito no qué es esto de frente único de un modelo y también en qué difiere a lo que sería pues el entrenamiento más tradicional de modelos qué podríamos hacer podríamos hacerlo con con máxima tradicional sex y es que existe este término porque al final todo es todo es muy nuevo sí bueno tuning se refiere un poco a realizar un proceso o sea tenemos un unos modelos bases en ia generativa que son muy muy grandes y por lo cual es muy complicado que tengamos suficientes datos o suficiente de cómputo para poder realizar este entrenamiento desde cero ya pasaban el ip learning tú no cogías su modelo de imagen y lo construidas desde cero sino normalmente lo que cojea es un modelo público y luego lo que tú lo entrenaba sus en diferenciar pues por ejemplo el ejemplo típico deep learning de perros y gatos tú lo hacías ese entrenar esas últimas capas con tus imágenes para poder sacar el modelo no te normalmente no teníamos esa capacidad de datos y ahora con el salto del número de parámetros todavía es más complicado entonces lo que han salido son técnicas que nos permiten mediante unos miles o cientos de ejemplo poder adaptar un poco estos modelos de procesamiento de lenguaje o de generación de imágenes a nuestros a nuestros problemas no realiza mejor esa tarea y y sobre todo tam con una capacidad de cómputo que no tengamos que gastar los millones de euros en un súper ordenador para poder realizar esto entiendo que no deja de ser el concepto que hace un año se llamaba transfer berlín o aprendizaje por transferencia que ahora hemos cambiado nombre con con la aparición de goya generativa sí eso es exactamente el mismo concepto en deep learning cuando estamos dando ni en imagen pues toda la transfer bien pero bueno lo que hacemos normalmente era entrenar como clasificadora a la parte final para ver pues esos perros o gatos en ciertos casos lo que hacía era arce no se congelaban todas las capas menos la última se dejaba un poquito entrenar manjarrés si queríamos adaptarnos un poco más o necesitábamos algo un poco más complejo pero si el concepto le hemos cambiado el nombre por el concepto es el mismo no no somos capaces no tenemos suficientes datos ni la suficiente capacidad de cómputo para poder entrenar un modelo fundacional desde cero la mayoría de empresas que van a poder o la mayoría de problemáticas no tiene sentido que lo hagan desde
Comentarios de #004 - Fine tunning de modelos generativos 4u5t2g