Screencast di scienza dei dati: una revisione degli origami dei dati
Data Origami è un nuovo sito Web di Cameron Davidson-Pilon che fornisce screencast di data science. È una bella idea e un bel sito.
Cameron è stato così gentile da darmi l'accesso al sito in modo che potessi recensirlo. Ho guardato tutti i video che potevo e ho scritto tutti i miei appunti, e in questo post darai un'anteprima del nuovo sito di Cameron, Data Origami.
Origami di dati
Data Origami è un'idea semplice. Fornisce screencast su argomenti rilevanti per uno scienziato dei dati.
Ogni screencast dura 9-13 minuti su un argomento ristretto e specifico. Tutti gli screencast utilizzano Python e sono presentati in un notebook IPython che include testo, equazioni matematiche, codice e grafici. Sono disponibili i taccuini, nonché i download dei video stessi per desktop e dispositivi mobili e collegamenti a ulteriori risorse e set di dati pertinenti.
Al momento in cui scrivo si tratta di un servizio a pagamento a $9 al mese per l'accesso a tutti gli screencast, sebbene sia disponibile uno screencast gratuitamente.
I video presuppongono che tu sappia programmare (Python) e che tu conosca le statistiche.
Il sito è pulito e ha un'atmosfera da Heroku (forse è il viola e i disegni al tratto). I video sono grandi e di buona qualità e gli schermi non sono ingombri di distrazioni.
Chi è Cameron?
Se stai cercando indicatori di autorità nel settore, Cameron li ha.
Cam lavora sull'analisi dei dati su Shopify. Sta elaborando dati per una grande azienda, 9-5.
Cameron è l'autore del libro tecnico autopubblicato Bayesian Methods for Hackers che insegna un'introduzione al bayesiano utilizzando Python. È tutto disponibile su GitHub (e nbviewer IPython viewer) ed è stato reso popolare molte volte su siti di notizie tecniche come Hacker News e Reddit (più volte, social proof++).
Infine, Cameron è l'autore di lifelines, un pacchetto Python che supporta l'analisi di sopravvivenza.
Entrambi gli argomenti dei metodi bayesiani e dell'analisi di sopravvivenza sono presenti nei suoi screencast su Data Origami.
Screencast di scienza dei dati
https://www.youtube.com/watch?v=Qw1XrXd4Gwc
Ho sfogliato tutti e 7 gli screencast e ho preso appunti. Voglio rispettare Cam e la sua risorsa, quindi ecco solo un riepilogo dei video attualmente disponibili:
- Modello beta-binomiale bayesiano: More maths than the other, si concentra sull'introduzione della distribuzione Beta e sul suo utilizzo per modellare le distribuzioni a posteriori.
- Introduzione alla PCA: cos'è l'analisi delle componenti principali, cosa sta cercando di ottenere e cosa significano i risultati.
- Visualizzazione della perdita di informazioni della PCA: un modo intelligente per dimostrare questo metodo di proiezione reversibile.
- Ordinamento dei colori utilizzando PCA (quello gratuito): un modo intelligente per dimostrare un'utile applicazione di PCA.
- Tassi di conversione dei test A/B: un approccio quantificato per comunicare l'incertezza nel contesto dei risultati dei test A/B. Assolutamente da guardare!
- Perché dovrei essere interessato all’Analisi della Sopravvivenza? Preparare la scena per l'analisi di sopravvivenza.
- Stima della funzione di sopravvivenza: utilizzo dello stimatore di Kaplan Meier per modellare la funzione di sopravvivenza per un problema di esempio intelligente.
Nota che ho usato smart alcune volte. I suoi esempi sono molto ben pensati, molto interessanti.
AGGIORNAMENTO: da quando ho scritto la recensione è apparso un nuovo screencast.
Revisione
Cameron sa il fatto suo. Personalmente ho trovato i video PCA meno interessanti, o perché avevo familiarità con il contenuto o forse perché la consegna era meno raffinata. Immergersi nell’incertezza bayesiana e nell’analisi della sopravvivenza è stato fantastico.
Cameron è il capo del bayesiano. Potrebbe facilmente dividere il suo libro in parti di 10 minuti e io lo mangerei tutto (suggerimento, suggerimento).
I video sembrano essere ospitati su Amazon S3, ma ho subito qualche ritardo durante la visione. È molto probabile che fosse l'ora del giorno in cui ho deciso di guardare i video, ma in quel momento era fastidioso. Non è un grosso problema, avrei potuto semplicemente scaricarli e guardarli e sono sicuro che Cam risolverà questo problema man mano che crescerà.
Sta ancora trovando la sua impresa in termini di formato. I video più recenti sono molto più raffinati dei primi e sono un ottimo segno di ciò che verrà. Personalmente, mi piacerebbe davvero più "questo è quello che faremo" all'inizio e "questo è quello che abbiamo fatto" alla fine. Devo essere molto carico di caffeina per assorbire uno di questi video al primo sguardo, anche prendendo rapidamente appunti. Avere lo screencast che mi ricorda ciò di cui abbiamo parlato sarebbe bello.
Forse sono un utente esperto. Guardo tutti i video di YouTube su 2x e prendo molti appunti. Sarebbe bello se il player integrato avesse una funzionalità 2x e se l'account supportasse la possibilità di prendere appunti o commentare. Non è un grosso problema, solo funzionalità per utenti esperti che potrebbero aumentare la felicità.
Una volta che avrà inserito molti più contenuti, posso immaginare caselle di controllo per "L'ho guardato" e persino raggruppare i video in flussi di contenuti.
Non sembra esserci una tabella di marcia per i contenuti in questo momento, in realtà solo quello che piace alla fantasia di Cam. Questo è positivo, in quanto è appassionato di qualunque cosa condivida, ma inizialmente negativo perché dobbiamo attenerci ai suoi interessi. Non è possibile tenersi per mano.
Cam nota che ne pubblicherà 2 al mese, quindi la crescita della libreria è limitata. Ciò potrebbe frenare il burn-out (come Ryan Bates di Railscasts), ma è solo 24 all'anno. Ho fatto un power-slam su tutti e 7 i video in una notte. Mi aspetto che alcuni appetiti potrebbero non essere soddisfatti.
Infine, il contenuto è professionale. Alcuni screencast sono contrassegnati come principianti. Non lo sono. Ti consigliamo di conoscere i dati e alcuni algoritmi prima di immergerti. Se stai ancora decidendo quale strumento o libreria utilizzare per eseguire il tuo primo classificatore sul set di dati iris, queste risorse non fanno per te.
Riepilogo
Questa è una grande risorsa con tutti i segni di essere un must, con il tempo.
- È stato creato da un vero professionista, un boss bayesiano.
- È troppo economico (alza i prezzi, considera di offrire un abbonamento annuale/a vita per poche centinaia/migliaia di dollari).
- In realtà è per professionisti di livello intermedio (o superiore), dicono i colleghi di Cameron o vicini ad esso.
- Sono solo una dozzina di video, ma verranno aggiunti mensilmente.
- Non ha una tabella di marcia "seguimi da a a b", ma sta fornendo picchi ai prossimi "cast".
Se i dati sono il tuo lavoro quotidiano, dai un'occhiata a Data Origami e arriva presto per supportare Cameron e la sua visione di incredibili screencast di data science di livello mondiale.