Universitat Internacional de Catalunya

MÓDULO 2: Lenguajes de Programación para el Data Scientist

MÓDULO 2: Lenguajes de Programación para el Data Scientist
5
13944
1
Primer semestre
OB
Llengua d'impartició principal: català

Altres llengües d'impartició: anglès, castellà,

Professorat


Professorat:

Josep Arrufat (SQL) jarrufat@uic.es

Albert Climent (Python) albert.climent@pervasive-tech.com

David Roche (R) droche@uic.es

Presentació

En el cas que les autoritats sanitàries decretin un nou període de confinament davant l'evolució de la crisi sanitària provocada per la COVID-19, el professorat comunicarà oportunament les afectacions possibles en les metodologies i activitats formatives, i també en els sistemes d'avaluació.


Les eines primàries per a un científic de dades es basen o es recolzen essencialment en la capacitat de programar amb diferents llenguatges i a diferents nivells. A més, actualment, amb el procés de canvi i de transformació que estan patint les empreses, el conocimeinto dels principals llenguatges per a la ciència de dades es considera un "skill" en si mateix. En aquesta assignatura es presenten els principals llenguatges de programació necessaris per completar qualsevol màster en ciència de dades, R i Python, juntament amb el aprendijaze de el llenguatge de base de dades SQL.

Requisits previs

Coneixements bàsics d'informàtica i ser capaç de llegir i entendre textos en anglès

Objectius

Els objectius d'aquesta assignatura es composen de l'aprenentatge i coneixement dels diferents llenguatges de programació per el científic de dades. Python, R i SQL.  Per a cada un d'ells els objectius són:  1. Entendre l'aplicació dels diferents llenguatges  2. Saber seleccionar el llenguatge apropiat per a diferents situacions  3. Conèixer l'ús i aplicació pràctica dels diversos llenguatges  4. Saber crear codi per a resoldre problemes senzills i complexos a partir dels diversos llenguatges contemplats

Competències/Resultats d’aprenentatge de la titulació

- Recerca de dades a institucions i biblioteques. Accés a força de dades, navegació selectiva per Internet.    - Aproximar a l'alumne a la utilització d'eines informàtiques per incloure mostres gràfiques.   - Establir criteris per a l'adopció de decisions raonades.   - Reconèixer i solucionar problemes en l'àmbit d'actuació professional.   - Analitzar les variables que intervenen en la gestió de l'àrea de coneixement de el programa.   - Reconèixer i solucionar problemes vinculats a la gestió de l'àrea de coneixement de el programa.   - Reflexionar sobre les formes de comunicació necessàries per a una bona gestió.   - Gestionar recursos bibliogràfics i documentals.

Resultats d’aprenentatge de l’assignatura

Els resultats de l'aprenentatge dels alumnes són les capacitats que hauran obtingut després de cursar i superar aquesta assignatura:   1. Ser capaç d'entendre l'aplicació dels diferents llenguatges 2. Ser capaç de seleccionar el llenguatge apropiat per a diferents situacions 3. Ser capaç d'utilitzar i aplicar de forma pràctica els diversos llenguatges de programació de l'assignatura 4. Saber crear codi per a resoldre problemes senzills i complexos a partir dels diversos llenguatges contemplats

Continguts

1. Llenguatge R 1.1 Introducció al llenguatge R 1.2. Variables i aspectes bàsics de R 1.3. Bucles i control del flux en R 1.4. Funcions i estructura de el codi 1.5. Visualització amb R   2. Llenguatge Python 2.1. Introducció al llenguatge Python 2.2. Introducció a Docker i Git 2.3. Elements bàsics de Python 2.4. L'entorn de treball: Notebooks 2.5. Treballar amb dades: Pandes 2.6. Cas pràctic amb Python   3. El llenguatge SQL 3.1. Fonaments teòrics de SQL 3.2. Entorn de treball i el sistema gestor de bases de dades PostgreSQL 3.3 Primers passos amb SQL 3.4. Aspectes avançats pràctics amb SQL 3.5. Fonaments teòrics de bases de dades (Àlgebra Relacional)

Metodologia i activitats formatives

Modalitat totalment presencial a l'aula



La tècnica d'aprenentatge d'aquesta assignatura és "learning by doing" de manera que es realitzaran casos pràctics aplicats a cada concepte teòric que es desenvolupi en les diferents sessions i per als diferents llenguatges. L'objectiu sempre és apropar l'alumne a la realitat de la seva professió on haurà d'aplicar els coneixements teoricopràctics apresos al llarg de l'assignatura. La majoria de les sessions s'estructuren de la següent manera:   1. Presentació del resum teòric per part de professorat 2. Aplicació exemple per part de professorat 3. Plantejament de problemes i solució per part de l'alumnat 4. Solució de el problema de manera conjunta 5. Cas pràctic simulat o amb dades reals 6. Treball pràctic per fer a casa amb la intenció d'assimilar els conceptes apresos en la sessió

Sistemes i criteris d'avaluació

Modalitat totalment presencial a l'aula



L'avaluació d'aquesta assignatura s'obtindrà amb la ponderació equitativa de tots els lliuraments realitzats al llarg del curs. La nota final és la nota de l'avaluació continuada.

Bibliografia i recursos

- R Cookbook: Proven Recipes for Data Analysis, Statistics, and Graphics. J D Long y Paul Teetor. 2019

- SQL Cookbook: Query Solutions and Techniques for All SQL Users. Anthony Molinaro. 2020

- An Introduction to Statistical Learning: with Applications in R. Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2014. Springer Publishing Company, Incorporated.

-The Python Language Reference, https://docs.python.org/3/reference/