Meetup Data Science
- Posted by Rochelle Silva
- On April 21, 2017
- 0 Comments
No passado dia 5 de Abril estivemos presentes num meetup de Data Science em Braga, organizado pela comunidade Data Science Portugal.
Neste meetup foram convidados dois speakers o João Brandão, Data Scientist na Robert Bosch em Braga, e o Daniel Loureiro, ex-Data Scientist da Followprice.
Na primeira talk o João apresentou possíveis abordagens para lidar com deteção de anomalias em dados, essencial para diferentes domínios como monitorização de equipamentos, deteção de fraude, segurança, saúde, entre outros. Dada a sua importância numa diversidade de áreas é crucial conhecer técnicas para poder detetar anomalias, contudo, não é uma tarefa trivial por envolver muitos pormenores desafiantes de tratar como: raridade de anormalidades em comparação à quantidade de dados normais; casos onde não se têm dados históricos com labels, ou seja, no caso de termos dados que não venham identificados com o que é ou não uma anomalia, neste caso, teremos de ser nós a identificar e avaliar o que pode ou não ser uma anomalia tendo sempre em atenção que um acontecimento raro não é necessariamente uma anormalidade; no caso contrário, quando temos labels, existe também a possibilidade de ocorrer overfitting aos exemplos de anormalidades que temos e escapar-nos novas anormalidades. O João apresentou-nos algumas técnicas de Machine learning como por exemplo Bayesian networks, One-class SVM e K-Nearest Neighbors que podem ser usadas para facilitar o processo de detecção de anomalias, mas como referido, há que ter em atenção que este processo tem muitos aspectos que devemos ter especial cuidado para conseguir fazer corretas deteções.

A segunda talk foi mais virada para Natural Language Processing (NLP). Daniel demonstrou alguns exemplos de processamento de texto e linguagem usando uma técnica chamada word2vec. Esta é uma técnica de extração automatizada de relações semânticas criada por uma equipa de investigadores liderada por Tomas Mikolov, na Google. Esta ferramenta usa um enorme corpus de texto, e tal como o nome indica, transforma as palavras em vectores (word embedding) e posteriormente treina uma rede neuronal neste espaço vectorial. Na sua talk, Daniel demonstrou esta técnica através do Notebook Jupyter usando a linguagem python com exemplos da Marvel para encontrar relações entre palavras de forma automática. Nomeadamente palavras como “Peter Parker” tem relação com “Mary Jane”, ou “Iron Man” com “Robert Downey”, entre outros exemplos. Técnicas deste género podem ser bastante úteis para recomendações em pesquisas. Os exemplos apresentados pelo Daniel estão disponíveis no seu github.


Com a presença de cerca de 30 participantes interessados na área de data science foi possível aprender novos conceitos de machine learning, discutir ideias e esclarecer dúvidas. Tudo é feito num ambiente informal, ideal para deixar todos à vontade para poderem colocar as suas questões. Pretende-se trocar experiências e sobretudo aprender. Além do bom ambiente vivido dentro da sala de apresentações no coffee break foi possível fazer networking entre todos os participantes com umas minis e petiscos para acompanhar. Foi sem dúvida uma ótima experiência para a nossa equipa de data science da Redglue estar presente neste meetup em Braga. Obrigada a todos os organizadores da comunidade Data Science Portugal por esta iniciativa e aos speakers pelas suas interessantes talks.



0 Comments