-
Integración de datos ambientales y genómicos para la predicción genómica en cultivos mediante redes neuronales con atención cruzada (05/2025 - a la fecha)
Código: FMV_3_2024_1_180525 La selección genómica es una metodología predictiva que en lugar de evaluar todos los genotipos en campo, entrena un modelo predictivo con una muestra de referencia la cual contiene datos genotípicos y fenotípicos y en algunos casos puede incluir datos ambientales. Posteriormente con este modelo entrenado se hacen predicciones para genotipos candidatos para los cuales únicamente se cuenta con información genotípica y eventualmente ambiental. Esta metodología ha revolucionado el mejoramiento genético ya que incrementa la ganancia genética por unidad de tiempo y ahorra recursos significativos en el fenotipado. Sin embargo, su implementación práctica es todavía compleja ya que requiere alta precisión en las predicciones para que su implementación sea exitosa. Se han explorado varios algoritmos de Aprendizaje Automático para mejorar estas capacidades predictivas, sin embargo, los resultados obtenidos no son aún suficientes para su implementación exitosa en forma rutinaria, sobre todo en granos.
Esta propuesta de investigación explorará el estado del arte en métodos de Aprendizaje Profundo, en particular diferentes arquitecturas de redes neuronales que sean capaces de integrar datos genómicos y ambientales. Existen diferentes maneras de integrar estos datos, ya sea, con redes totalmente conectadas o convoluciones, pero sin diferenciar demasiado el tipo de datos a redes que poseen mecanismos de atención cruzada. Es decir, redes que sean capaces de incorporar las interacciones genotipo-ambiente en su arquitectura.
Si bien los algoritmos basados en redes neuronales generalmente requieren muchos datos para poder ser entrenados, una vez puestos a punto, se pueden aplicar a nuevas bases de datos que posean las mismas características fácilmente, sin necesidad de potencia de cálculo. Por lo tanto, se buscarán modelos que luego se puedan implementar en forma rutinaria en diferentes programas de mejoramiento genético en la región, incrementando la ganancia genética de cultivos de la región.
10 horas semanales
Coordinador o Responsable
En Marcha
RRHH formados en el proyecto:
Maestría/Magister:1
Doctorado:1
Financiación:
Agencia Nacional de Investigación e Innovación, Uruguay, Apoyo financiero
Equipo:
FARIELLO, M.I. (Responsable) , INES BERRO (Responsable) , FEDERICO LECUMBERRY , ROSAS JE , Castro, G. , Mateo Musitelli , Silva P , Lucía Gutiérrez , José Crossa , LADO B. , Vanzetti L.
Areas de conocimiento:
Ingeniería y Tecnología / Ingeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Información /
Ingeniería de Sistemas y Comunicaciones /
Aprendizaje Automático
-
Statistical inference for Jacobi and Volterra models: Applications in Genetic and Finance. (02/2025 - a la fecha)
Código: MOV_CO_2024_1_ 1013354 The central theme of this collaborative project is the study and development of
statistical inference in the Jacobi and Volterra process, both for the Brownian
case and for fractional Brownian motion. The Latin American team has worked
on the small time approximation for the Jacobi process, known in genetics as
Wright-Fisher diffusion, used to model the variation in the allele frequency. By
means of stochastic calculation techniques, an analytical expression of the
density is obtained. The French team has further developed its work on the
Volterra process, studying Stochastic Volterra Equations (SVEs) of convolution
type, including the case of rough trajectories, i.e., $H < 1/2$. For both
processes, the objective is to extend results to the fractional case, with $1/2 <
H < 1$, as well as to study approximations of the densities, thus developing a
theory of parameter estimation for this process. Both teams possess the
requisite tools for approximating densities, thereby enabling the alliance
through this collaborative project to delve more deeply into these problems or
extend them to other stochastic processes.
5 horas semanales
Coordinador o Responsable
En Marcha
RRHH formados en el proyecto:
Maestría/Magister:1
Financiación:
Agencia Nacional de Investigación e Innovación, Uruguay, Cooperación
Equipo:
FARIELLO, M.I. (Responsable) , Tania Roa Rojas , Sergio Pulido , J.R. León , LAURA ASPIROT , SOSA ANDRES , Long, M.
Palabras clave:
Difusión Fisher-Wright
Procesos estocásticos
Movimiento Browniano
Areas de conocimiento:
Ciencias Naturales y Exactas / Matemáticas /
Estadística y Probabilidad /
Genética de poblaciones
-
CICADA: Centro Interdisciplinario en Ciencia de Datos y Aprendizaje Automático (03/2021 - a la fecha)
Con CICADA ( https://cicada.uy/) buscamos la creación y consolidación de un espacio académico que potencie la investigación, el intercambio, la formación y la divulgación en el área del análisis de datos, tanto en sus fundamentos y métodos como en su aplicación a las diferentes disciplinas y las áreas interdisciplinares. El campo de la Ciencia de Datos (CD) tiene un gran potencial de acercar comunidades de investigadores diferentes, aproximaciones metodológicas diversas y marcos teóricos que pueden ser difíciles de integrar de otra forma debido a la fragmentación conceptual o las dificultades técnicas. El trabajo en esta área se vuelve un terreno único de exploración interdisciplinaria desde un aspecto que se inicia metodológico, permitiendo el descubrimiento de factores comunes, fomentando la polinización cruzada de disciplinas y la emergencia de campos híbridos. Varias de estas líneas han sido transitadas en la UdelaR por diversos investigadores e investigadoras incursionando en trabajos, por lo menos, multidisciplinarios. Son ejemplos de ello los desarrollados en torno a la genómica y bioinformática, el procesamiento de imágenes médicas, los análisis epidemiológicos, los trabajos de ecología y ciencias ambientales, investigaciones en neurociencias y educación, y aquellos que abarcan el procesamiento de lenguaje natural. CICADA se construye sobre esta base, buscando proyectar y profundizar las experiencias previas, integrando nuevos campos disciplinares y abordando nuevas preguntas y formas de interacción e integración.
Soy parte del equipo coordinador y dirijo junto a Héctor Romero la línea Poblaciones y comunidades: Genómica y Evolución.
Resumen de la línea: Debido al abaratamiento de los costos de secuenciación, se están generando datos genómicos de diferentes especies a un ritmo exponencial. Éstos permiten observar la variación genética dentro y entre poblaciones generando diversas aplicaciones: estudiar la estructura de las poblaciones, inferir diferentes aspectos de la evolución como ser migraciones y mezclas entre poblaciones ancestrales, identificar sitios sujetos a selección natural o artificial y establecer relaciones con fenotipos, ya sea para identificar las variantes genéticas responsables de los mismos (GWAS) o realizar predicción genómica. Además del modelado matemático, que ha sido crucial en el surgimiento de la genética de poblaciones, la cantidad de datos generados demanda el uso de herramientas computacionales potentes y técnicas avanzadas de aprendizaje automático para poder analizarlas.
CICADA se propone continuar desarrollando métodos que permitan analizar las estructuras de poblaciones mezcladas como la Latinoamericana (en particular la uruguaya) y adaptar métodos de detección de selección a este tipo de poblaciones.
10 horas semanales
Universidad de la República, Espacio Interdisciplinario
Investigación
Coordinador o Responsable
En Marcha
RRHH formados en el proyecto:
Pregrado:1
Maestría/Magister:2
Financiación:
Espacio Interdisciplinario, Uruguay, Apoyo financiero
Equipo:
FARIELLO, M.I. , ROMERO H (Responsable) , ETCHEVERRY, L. , PAOLA BERMOLEN (Responsable) , FEDERICO LECUMBERRY , M ARIM , CABANA, A. , MARCELO FIORI
Areas de conocimiento:
Ciencias Naturales y Exactas / Ciencias de la Computación e Información /
Ciencias de la Computación /
Ciencia de Datos
-
Learning and control on complex networks (12/2022 - a la fecha)
Machine learning models have known a large success in the last two decades. Although research in this area has been taking place for more than 60 years, the field gained a huge momentum only quite recently following the advent of powerful hardware
and data availability with which supra-human performance were obtained in a variety of tasks (ranging from playing Go to text recognition or images classification). However, these impressive successes often rely on quite exceptional hardware possibilities and cannot be applied in many ``usual'' contexts, where, for instance, the volume of data available or the amount of computing power is more restricted. In this project, we aim at defining the next generation of more ``democratic'' and widely applicable algorithms, for a variety of learning problems involving network structures. We will study learning and control problems where bottlenecks are high dimensionality and stochasticity. These key features will be represented using an underlying graph or network structure which will be key in the study of our models.
We aim at leveraging some underlying knowledge and structure present in these control/learning problems to find less computationally demanding algorithms.
Institutionally, the main objectives of the project are:
(i) to consolidate an already strong research and education relationship between the Probability group of the university of Buenos Aires (UBA, Argentina), the Engineering Faculties of UDELAR (Universidad de la República Uruguay), the CNRS
(LAAS/IRIT Toulouse) and more recently the Ecole Polytechnique (Paris).
(ii) to boost and to promote research bonds between the main research and graduate/post-graduate education institutions in Argentina and Uruguay (Universidad de Buenos Aires, UDELAR), as well as to expand the South American-French historical
scientific collaboration by including both CNRS and Ecole polytechnique, two major pillars of French scientific development.
The common roadmap for reaching these goals will be: (i) to organize project workshops and internships in partner institutions in order to build a common knowledge map and common tools in the field of learning and optimal control of complex networks (ii) to
disseminate joint results by publications in major international conferences or journals,
(iii) to develop common guidance of PhD and postdocs.
Through the creation and consolidation of strong research and formation exchanges between Argentina, France and Uruguay, the LAGOON project will contribute to the fields of learning applied to network structures.
Some of the challenges this project will address are:
- Stochastic matching problems on random graphs,
- Graph detections and representation learning,
- Boosting exploration mechanisms for reinforcement learning on models
with sparse and
rare rewards
- Distance learning algorithms based on Euclidean percolation.
5 horas semanales
University of Buenos Aires, Universidad de la República, CNRS (LAAS/IRIT) , Ecole Polytechnique
Investigación
Integrante del Equipo
En Marcha
RRHH formados en el proyecto:
Maestría/Magister:7
Financiación:
Agencia Nacional de Investigación e Innovación, Uruguay, Apoyo financiero
Equipo:
FARIELLO, M.I. , PAOLA BERMOLEN (Responsable) , Groisman P. (Responsable) , Jonckheere M. (Responsable) , Moulines E. (Responsable) , LARROCA F. , FEDERICO LECUMBERRY , MARCELO FIORI , Valeria GOICOECHEA JACKSON , B. Marenco
Areas de conocimiento:
Ciencias Naturales y Exactas / Matemáticas /
Estadística y Probabilidad /
Ciencias Naturales y Exactas / Matemáticas /
Matemática Aplicada /
-
Integración de datos genómicos y ambientales mediante aprendizaje profundo para selección genómica (04/2023 - 04/2025 )
La selección genómica (SG) es una metodología predictiva que en lugar de evaluar todos los genotipos en campo, entrena un modelo predictivo con una muestra de referencia la cual contiene datos genotípicos, ambientales y fenotípicos. Posteriormente con este modelo entrenado se hacen predicciones para genotipos candidatos para los cuales únicamente se cuenta con información genotípica y ambiental. Esta metodología está revolucionando el mejoramiento genético ya que incrementa la ganancia genética por unidad de tiempo y ahorra recursos significativos en el fenotipado. Sin embargo, su implementación práctica es todavía compleja ya que requiere alta precisión en las predicciones para que su implementación sea exitosa. Por esto se han explorado varios algoritmos de Aprendizaje Automático (AA) para mejorar estas capacidades predictivas, sin embargo, los resultados obtenidos no son aún suficientes para su implementación exitosa en forma rutinaria, sobre todo en granos. Por ello, en esta propuesta de investigación se explorará el estado del arte en métodos de Aprendizaje Profundo, en particular el uso de Transformers, para evaluar, respecto a los métodos tradicionales de AA, la factibilidad de incrementar su capacidad predictiva. De esta manera se busca que esta metodología se pueda implementar en forma rutinaria en muchos programas de mejoramiento genético en la región, con lo cual se pueda coadyuvar a incrementar la ganancia genética de las especies productivas de la región.
En base a esta propuesta se busca consolidar la colaboración entre grupos de investigación en AA con base en Uruguay y México y antecedentes en el área de SG. Se desarrollarán actividades de formación en base a seminarios interdisciplinarios, cursos, posgrados e intercambio de profesores.
15 horas semanales
Investigación
Coordinador o Responsable
Concluido
RRHH formados en el proyecto:
Pregrado:3
Maestría/Magister:2
Equipo:
FARIELLO, M.I. (Responsable) , FEDERICO LECUMBERRY (Responsable) , ALVARO PARDO , Juan Rosas , J. Crossa , Osval Montessinos , Abelardo Montessinos
Palabras clave:
Predicción genómica
Aprendizaje automático
Integración de datos multimodales
-
Predicción genómica con técnicas de aprendizaje profundo (12/2019 - 12/2022 )
El mejoramiento genético en razas cárnicas se ha incrementado espectacularmente en la cantidad de carne de bovinos y su rentabilidad económica. Una característica de alto costo y dificultad de medida es la calidad de carne producida, medida a partir de varias características, por ejemplo, del porcentaje de grasa intramuscular (IMF). El impacto esperado de la selección genómica es mayor en las características de difícil y costosa medición, cuyo progreso genético se incrementa por una mayor precisión de estimación del mérito genético a edades más tempranas. Las características relacionadas a la calidad de carne, están codificadas por la interacción de varios loci en el genoma, que cada uno contribuye una pequeña proporción al fenotipo. Por lo tanto, las predicciones hechas a partir de genes resultantes de estudios de asociación genómica en general contienen un gran error.
Una de las razones, es que para acumular los efectos de las distintas mutaciones, se asume que los efectos de las mismas son aditivos. Por otro lado, los tests utilizados para encontrar asociación entre cada locus del genoma y el fenotipo captan solamente las variantes con mayor asociación, ya que lo hacen para cada locus por separado.
La precisión en la estimación del IMF repercutirá en la identificación de los animales para terminación a corral, favoreciendo el alcance de las especificaciones de los mercados y, al conocer las capacidades de cada animal de alcanzar la calidad de carne deseada, una mayor eficiencia en el uso del alimento.
10 horas semanales
Instituto de Matemática y Estadística - Instituto de Ingeniería Eléctrica
Investigación
Coordinador o Responsable
Concluido
RRHH formados en el proyecto:
Pregrado:6
Maestría/Magister:2
Financiación:
Agencia Nacional de Investigación e Innovación, Uruguay, Apoyo financiero
Equipo:
FARIELLO, M.I. , FEDERICO LECUMBERRY , CIAPPESONI, G. , E.A. NAVAJAS , NAYA H , GUILLERMO CARBAJAL
Palabras clave:
Aprendizaje Automático
Deep Learning
Predicción genómica
Areas de conocimiento:
Ciencias Naturales y Exactas / Ciencias de la Computación e Información /
Ciencias de la Información y Bioinformática /
Aprendizaje Automático
-
FLEA: Uso de técnicas de Aprendizaje Federado para el análisis de datos sensibles y su aplicación al caso de Analíticas de Aprendizaje (05/2021 - 10/2022 )
Las analíticas de aprendizaje (learning analytics-LA) consisten en la aplicación de técnicas cuantitativas a datos educativos, para asistir en la solución de problemas como el diseño de trayectorias de aprendizaje personalizado, o la elaboración de alertas tempranas de deserción escolar. En particular, los métodos de aprendizaje automa?tico (machine learning-ML) y técnicas de Inteligencia Artificial (IA) como el reconocimiento de patrones, o el uso de redes neuronales abren nuevas perspectivas para responder esas preguntas usando datos. En Uruguay, en el contexto de Plan Ceibal, equipos de analistas de datos utilizan técnicas de LA para responder preguntas. La aplicación de métodos de LA plantea cuestiones de orden legal, ético y tecnológico. Dada la naturaleza de los datos a estudiar, es necesario garantizar la protección de la privacidad de las personas involucradas y de sus datos personales. Por otro lado, los datos suelen provenir de diferentes sistemas y de fuentes heterogéneas; algunos son almacenados centralizadamente (por ejemplo, datos de uso de plataformas educativas), y otros residen en los dispositivos y aplicaciones (por ejemplo, las interacciones que los usuarios realizan con las aplicaciones). Tradicionalmente, las técnicas de ML/IA necesitan grandes volúmenes de datos centralizados e integrados para el entrenamiento de los algoritmos. Si bien es posible aplicar técnicas de anonimización sobre los datos centralizados antes de usarlos en modelos de ML, en algunos casos, no es posible centralizar los datos (por ejemplo, datos sensibles de otras agencias del gobierno, datos que residen en dispositivos). Las técnicas de aprendizaje federado (federated learning-FL) buscan construir modelos de ML usando conjuntos de datos distribuidos en múltiples dispositivos, y al mismo tiempo evitan la fuga de datos. En este contexto, el objetivo de este proyecto es desarrollar analíticas de aprendizaje basadas en técnicas de ML/IA que salvaguarden la privacidad y eviten la centralización, utilizando el enfoque de aprendizaje federado
5 horas semanales
Instituto de Computación - Instituto de Matemática y Estadística - Instituto de Ingeniería Eléctrica
Investigación
Integrante del Equipo
Concluido
RRHH formados en el proyecto:
Pregrado:2
Maestría/Magister:1
Financiación:
Agencia Nacional de Investigación e Innovación, Uruguay, Apoyo financiero
Equipo:
FARIELLO, M.I. , ETCHEVERRY, L. (Responsable) , PAOLA BERMOLEN , G. CAPDEHOURAT
Palabras clave:
Federated Learning
Learning Analytics
-
Análisis y Visualización de la Evolución de Virus (05/2017 - 05/2019 )
El principal objetivo de este proyecto es proponer y evaluar diferentes medidas, estadísticos o nuevos algoritmos para representar la capacidad mutacional de un virus. Con las medidas seleccionadas se desarrollará una aplicación (software) que permita la visualización de esa información brindando herramientas para analizar la evolución del virus. Es decir, ayudar en el análisis de las cepas y su evolución, resaltando de forma automática regiones de interés, tanto en la representación lineal de la secuencia genómica (secuencia ARN) como en la estructura 3D de la cápside (si se encuentra disponible).
La aplicación generará figuras, videos, gráficas interactivas u otra representación adecuada de la información de forma que los usuarios podrán ver la evolución del virus en el tiempo, y usar los resultados del análisis para predecir las mutaciones más probables, o diseñar futuras vacunas, entre otras posibles aplicaciones. En caso de disponer de información de fitness del virus se presentara ́ el paisaje de fitness de forma de poder identificar hacia dónde intentar arrinconar el virus para su extinción.
10 horas semanales
Instituto de Matemática y Estadística Rafael Laguardia
Investigación
Coordinador o Responsable
Concluido
RRHH formados en el proyecto:
Pregrado:4
Maestría/Magister:1
Financiación:
Comisión Sectorial de Investigación Científica, Uruguay, Apoyo financiero
Equipo:
F LECUMBERRY (Responsable) , MORATORIO, G. , Martínez , Diego Simón , Federico Aicardi , Rodrigo Céspedes , Felipe Tambasco
Areas de conocimiento:
Ciencias Naturales y Exactas / Ciencias de la Computación e Información /
Ciencias de la Información y Bioinformática /
Bioestadística