Curso gratis en Harvard: Análisis de datos de alta dimensión
Idioma del curso: Ingles.

Un enfoque en varias técnicas que son ampliamente utilizadas en el análisis de datos de alta dimensión.



Si está interesado en el análisis e interpretación de datos, este es el curso de ciencias de datos para usted. Comenzamos por aprender la definición matemática de distancia y usamos esto para motivar el uso de la descomposición de valores singulares (SVD) para la reducción de dimensiones y escalamiento multidimensional y su conexión con el análisis de componentes principales. Aprenderemos sobre el efecto por lotes: el problema analítico de datos más desafiante en genómica actual y describiremos cómo las técnicas se pueden usar para detectar y ajustar los efectos por lotes. Específicamente, describiremos el análisis del componente principal y el análisis factorial y demostraremos cómo estos conceptos se aplican a la visualización de datos y al análisis de datos experimentales de alto rendimiento.

Finalmente, damos una breve introducción al aprendizaje automático y lo aplicamos a datos de alto rendimiento. Describimos la idea general detrás del análisis de agrupamiento y los K-means descriptibles y la agrupación jerárquica y demostramos cómo se usan en genómica y describimos algoritmos de predicción tales como k-vecinos más cercanos junto con los conceptos de conjuntos de entrenamiento, conjuntos de prueba, índices de error y valores cruzados. validación.
Dada la diversidad en los antecedentes educativos de nuestros estudiantes, hemos dividido la serie en siete partes. Puede tomar toda la serie o los cursos individuales que le interesan. Si usted es un estadístico, debería considerar omitir los primeros dos o tres cursos, del mismo modo, si es biólogo, debería considerar omitir algunas de las clases introductorias de biología. Tenga en cuenta que las estadísticas y los aspectos de programación de la clase aumentan en dificultad relativamente rápido en los primeros tres cursos. En el tercer curso, se enseñarán conceptos estadísticos avanzados, tales como modelos jerárquicos y, por cuarto, habilidades avanzadas de ingeniería de software, como computación paralela y conceptos de investigación reproducibles.

Estos cursos componen 2 XSeries y son autodidactados:

PH525.1x: Estadísticas y R para las ciencias de la vida
PH525.2x: Introducción a los modelos lineales y Matrix Algebra
PH525.3x: Inferencia estadística y modelado para experimentos de alto rendimiento
PH525.4x: análisis de datos de alta dimensión
PH525.5x: Introducción a Bioconductor: anotación y análisis de genomas y ensayos genómicos
PH525.6x: informática de alto rendimiento para genómica reproducible
PH525.7x: Estudios de casos en genómica funcional

Lo que aprenderás

Distancia Matemática, Reducción de dimensión, Descomposición de valores singulares y análisis de componentes principales. Diagramas de escala dimensional múltiple Análisis factorial.Tratando con los efectos por lotes. Agrupación, Heatmaps, Conceptos básicos de aprendizaje automático.


LINK DEL CURSO
Fecha de creación: 12/12/2017 Fuente: edx
Click aquí para suscribirte a nuestro newlsletter semanal de noticias
SUSCRÍBETE a nuestro newsletter de novedades
VIDEOTUTORIALES
¿como usar MID?