Marcos André Gonçalves


Adjunto  Professor 


Bolsa produtividade CNPq nível   1C


Doutor, Virginia Polytechnic Institute and State University, USA, 2004

  mgoncalv@dcc.ufmg.br   www
 ICEx/DCC, room 6313, +55 (31) 3409-7541
Research areas

Information extracted from Lattes platform


Last update: 2017/07/27

Degrees

Ph.D. Computer Science na Virginia Tech em 2004
M.Sc. Ciência da Computação na Universidade Estadual de Campinas em 1997
B.Sc. Bacharelado em Ciência da Computação na Universidade Federal do Ceará em 1995

Current projects

2016 a AtualOptimizing Ensembles of Boosted Additive Bagged Trees for Learning-to-Rank.
In 2015, this research focused on solving the problem of the information retrieval known as ?Learning to Rank (L2R)?, the primary goal of which was to learn how to combine predictors to leverage the performance of ranking models, by combining in an effective manner two ensemble-based Machine Learning (ML) strategies: Boosting and Bagging. For this year's research, the focus will be on covering a lot of ground regarding ML approaches.
Integrantes: Marcos André Gonçalves (coordenador).
2015 a AtualProjeto 21997 FAPEMIG/ICEX/DCC/INFORMACAO INTELIGENTE

Integrantes: Marcos André Gonçalves (coordenador).
2015 a AtualBoosting Out­of­Bag Estimators for Learning to Rank
This project aims at solving the L2R (Learning To Rank) problem by developing an original and novel Random Forest­based algorithm which smoothly combines properties of the bagging with the boosting procedures.
Integrantes: Marcos André Gonçalves (coordenador), Clebson Sá.
2014 a AtualCNPq Universal Faixa C- RecInt - Recuperação de Informação Inteligente
O problema da sobrecarga de informação produzida pelo crescimento da Web e principalmente de serviços e aplicações da chamada Web 2.0, (e.g., redes sociais, blogs e microblogs, etc), bem como pelo uso cada vez maior de dispositivos eletrônicos no dia-a-dia (smartphones, tablets, etc) é um dos principais desafios da Ciência da Computação na atualidade. Estes desafios advém não apenas da imensa quantidade de dados/informações disponíveis, que precisam ser tratados de forma eficaz e eficiente nas mais diversas plataformas utilizadas pelos usuários, mas também da dificuldade inerente em identificar e tratar conteúdo de boa e principalmente de má qualidade (e.g., spam, vandalismo, informalidade e imprecisão na linguagem). Esse projeto de pesquisa busca propor soluções inovadoras para vários problemas relacionados ao tratamento de grandes volumes de informação, principalmente associados a serviços e aplicações da Web 2.0 (e.g., redes sociais, blogs e micro-blogs) tais como recuperação de informação em máquinas de busca, classificação automática de texto e recomendação de conteúdo. Em particular, propomos o uso de técnicas avançadas de aprendizado de máquina para a resolução de alguns desse problemas focando em seis linhas de pesquisa, a saber: (1) Exploração de Meta-Atributos para Classificação Automática de Documentos; (2)Classificação Automática de Documentos com Florestas Aleatórias Melhoradas (FAM); (3) Classificação Automática de Documentos Probabilística em Plataformas Massivamente Paralelas; (4) Aprendizado Multi-Visão para Estimativa de Qualidade de Conteúdo Criado Colaborativamente na Web 2.0. (5) Exploração de Diversidade e Novidade em Recomendação de Tags; (5) Aprendizado Ativo para Ordenação de Documentos em Máquinas de Busca
Integrantes: Marcos André Gonçalves (coordenador).
2013 a AtualA Multi-view Approach for Automatic Quality Assessment in Collaborative Web Documents
The Web 2.0 has brought deep changes to the Internet, as users are now able not only to consume, but also to produce content in a much faster and easier manner, in many cases in a collaborative way. This change gave rise to new ways for creating knowledge repositories to which anyone can freely contribute. Some examples of these repositories include blogs, forums, or collaborative digital libraries, whose collections are maintained by the own Web community. However, such freedom also carries an important question: given the rhetoric of democratic access to everything, by everyone, at any time, how can a user determine the quality of the information provided? Currently, content generated in a more traditional, centralized manner, published using physical media, such as books or journals, is still naturally seen as being of higher quality and more trustworthy [Dondio et al. 2006]. Nevertheless, the growth and level of dissemination of this collaboratively created content is such that mechanisms to assess the quality and trust of this type of material should be provided. For instance, collaborative e fforts such as Wikipedia and Wikia rely on human judgments of specialized editors for quality assessment. However, manual assessment not only does not scale to the current rate of growth of such collections, but is also subject to human bias, which can be in uenced by the varying background, expertise, and even a tendency for abuse. A possible solution to this problem would be to automatically estimate the quality of these collaborative content. Accordingly, this research proposal aims at developing automatic quality assessment methods of collaborative content such as collaborative encyclopedia and Q&A Forums. In particular, we intend to explore machine learning methods which exploit the idea of the combination of \multiple experts" for quality estimation. Our hypothesis is that quality is a multifaceted problem in which each facet corresponds to a quality aspect (e.g., readability, style, organizational structure, link/citation coverage, review history) which can be individually analyzed by an automated \expert" (learner) and the \opinions" of these experts can be combined for a nal decision about the overall quality of a particular item. Moreover, based on lessons learned in these other domains, for which some labels about the quality of certain items can be obtained (e.g., editors' analyses of Wikipedia articles, \best" answers for Q&A forums), we intend to study how to \transfer" the obtained knowledge for other domains for which such labeled data is not easily available such as the open Web. Particularly, the goal is to explore the quality of web pages aiming at improving ranking results.
Integrantes: Marcos André Gonçalves (coordenador).
2009 a AtualINCTWeb - Instituto Nacional de Ciencia e tecnologia para a Web
O objetivo do INCT para Web é desenvolver modelos, algoritmos e novas tecnologias que permitam aumentar a integração da Web com a sociedade. Além disso, pretende-se tornar mais efetiva e mais segura a distribuição de informação na Web, e mais eficazes e eficientes os seus serviços, de forma a proporcionar um vetor de mudanças sociais e econômicas no País. O programa do Instituto compreende atividades relacionadas à pesquisa, à formação de recursos humanos e à transferência de conhecimento para a sociedade e para o setor empresarial.
Integrantes: Virgilio Almeida (coordenador), Marcos André Gonçalves, Alberto H F Laender, Altigran Soares da Silva, Edleno Silva de Moura, Nivio Ziviani, Carlos Alberto Heuser, Jussara Marques Almeida.
2008 a AtualInfoWeb- Métodos e Ferramentas para Tratamento de Informação Disponível na Web
A Web é hoje o maior repositório de informação digital produzida pelo ser humano, estando distribuído por milhões servidores conectados ao redor do mundo via Internet. O domínio de tecnologias capazes de tirar proveito desse repositório representa um diferencial de competitividade dentro da sociedade moderna, gerando oportunidades de desenvolvimento econômico e social. Este projeto visa desenvolver novos métodos e ferramentas para tratamento de informação existente em grandes repositórios de dados e coleções de documentos disponíveis na Web. O projeto pretende gerar soluções para diversos problemas relacionados ao tratamento de informação, tais como classificação de texto, mineração de dados a partir de fontes não estruturadas, integração de dados de fontes heterogêneas, enriquecimento semântico de dados, indexação e busca, dentre outros.
Integrantes: Nivio Ziviani (coordenador), Marcos André Gonçalves, Alberto H F Laender, Berthier Ribeiro Neto, Wagner Meira Jr, José Carlos Maldonado.
2007 a AtualGP Ranking ? Descoberta de funcoes de ranking para colecoes de documentos usando Programacao Genetica
Neste projeto focamos na aplicação de uma técnica de aprendizado de máquina, Programação Genética (PG), na resolução do problema de recuperação de informação efetiva em coleções de documentos textuais. PG ser´a utilizada como um arcabouço para permitir a combinação flexível das diversas evidências disponíveis para a geração de funções de ranking que permitam recuperar, dado uma consulta, os documentos mais relevantes àquela consulta, ordenados por relevância. A idéia é descobrir a partir de um processo de aprendizado funções de similaridade que maximizem a relevância ou a qualidade das respostas obtidas. Essas funções normalmente recaem no uso de conjuntos de evidências positivas e negativas extraídos dos próprios documentos, e.g., frequência de termos nos documentos e nas consultas; frequência de termos como um todo na coleção, tamanho do documento, etc.
Integrantes: Marcos André Gonçalves (coordenador), Humberto Mossri.

Current applied research projects

See all projects in Lattes

Recent publications

Articles in journals


Papers in conferences

A multicriteria Evaluation of Hybrid Recommender Systems
2017. 19th International Conference on Enterprise Information Systems.
Stacking Bagged and Boosted Forests for Effective Automated Classification
2017. 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.
A Framework for Unexpectedness Evaluation in Recommendation
2017. The 32nd ACM SIGAPP Symposium On Applied Computing (SAC 2017).
Automatic Hierarchical Categorization of Research Expertise Unisng Minimum Information
2017. International Conference on Theory and Practice of Digital Libraries (TPDL).
Generalized BROOF-L2R: A General Framework for Learning to Rank Based on Boosting and Random Forests
2016. The 39th Annual ACM SIGIR Conference.
On the combination of "off-the-shelf" sentiment analysis methods
2016. the 31st Annual ACM Symposium.
Exploiting New Sentiment-Based Meta-level Features for Effective Sentiment Analysis
2016. the Ninth ACM International Conference.
Dissecting a Scholar Popularity Ranking into Different Knowledge Areas
2016. International Conference on Theory and Practice of Digital Libraries (TPDL).
Early Prediction of Scholar Popularity
2016. the 16th ACM/IEEECS.
Incorporating Risk-Sensitiveness into Feature Selection for Learning to Rank
2016. he 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
A Multi-View Approach for Assessing the Quality of Collaboratively Created Content on the Web 2.0
2016. X Concurso de Teses e Dissertações em Inteligência Artificial e Computacional (CTDIAC).
Quando a Amazônia Encontra a Mata Atlântica: Empilhamento de Florestas para Classificação Efetiva de Texto
2016. IV KDMile - Symposium on Knowledge Discovery, Mining and Learning.
A Fast and Scalable Manycore Implementation for an On-Demand Learning to Rank Method
2016. WSCAD - Simpósio em Sistemas Computacionais de Alto Desempenho.
BERT: Melhorando Classicação de Texto com Arvores Extremamente Aleatorias, Bagging e Boosting
2016. 31st of the Brazilian Symposium on Databases.
Compression-Based Selective Sampling for Learning to Rank
2016. The 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
G-KNN: An Efficient Document Classification Algorithm for Sparse Datasets on GPUs using KNN
2015. ACM SAC 2015.
BROOF: Exploiting Out-of-Bag Errors, Boosting and Random Forests for Effective Automated Classification
2015. The 38th Annual ACM SIGIR Conference.
Bazinga! Caracterizando e Detectando Sarcasmo e Ironia no Twitter
2015. IV Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2015).
On Tag Recommendation for Expertise Profiling
2015. the Eighth ACM International Conference.
An Efficient and Scalable MetaFeature-based Document Classification Approach based on Massively Parallel Computing
2015. the 38th International ACM SIGIR Conference.
Parallel Lazy Semi-Naive Bayes Strategies for Effective and Efficient Document Classification
2015. The 24th ACM International Conference on Information and Knowledge Management (CIKM'15).
On the Impact of Academic Factors on Scholar Popularity: A Cross-Area Study
2015. 19th International Conference on Theory and Practice of Digital Libraries.
Aprendendo a Ranquear com Boosting e Florestas Aleatórias: Um Modelo Híbrido
2015. 3rd Symposium on Knowledge Discovery, Mining and Learning (KDMiLe).
A Genealogy of the work of Collector: the document and its image
2015. Digital Heritage (2015).
A Soft Computing Approach for Learning to Aggregate Rankings
2015. the 24th ACM International.
Combining Domain-Specific Heuristics for Author Name Disambiguation
2014. International Conference on Digital Libraries 2014 (conjoined conference for both the ACM/IEEE Joint Conference on Digital Libraries and the Theory and Practice of Digital Libraries Conference)..
Quality Assessment of Collaborative Content With Minimal Information
2014. International Conference Digital Libraries 2014 (conjoined conference for both the ACM/IEEE Joint Conference on Digital Libraries and the Theory and Practice of Digital Libraries Conference)..
How you post is who you are: characterizing Google+ status updates across social groups
2014. ACM Hypertext conference.
Noticing the Other Gender on Google+
2014. ACM Web Science 2014 Conference.
What makes your Opinion Popular? Predicting the Popularity of Micro-Reviews in Foursquare
2014. ACM Symposium On Applied Computing.
Diversity-driven Learning for Multimodal Image Retrieval with Relevance Feedback
2014. IEEE International Conference on Image Processing (ICIP).
Characterizing Scholar Popularity: A Case Study in the Computer Science Research Community
2014. International Conference Digital Libraries 2014 (conjoined conference for both the ACM/IEEE Joint Conference on Digital Libraries and the Theory and Practice of Digital Libraries Conference)..
Popularity Dynamics of Foursquare Micro-Reviews
2014. ACM Conference on Social Networgs (COSN 2014).
On Efficient Meta-Level Features for Effective Text Classification
2014. CIKM 2014 : Conference on Information and Knowledge Management..
Improving the Effectveness of Content Popularity Prediction Methods using Time Series Trends
2014. Workshop on Predictive Web Analytics - ECML/PKDD 2014.
Recomendação Associativa de Tags na Ausência de Informação Prévia
2014. Concurso de Teses e Dissertações da SBC.
Active Learning for Learning to Rank
2013. Concurso de Teses e Dissertações da Sociedade Brasileira de Computação.
Sentiment-based Influence Detection on Twitter
2013. Concurso de Teses e Dissertações da Sociedade Brasileira de Computação.
Adaptive Spammer Detection at the Source Network
2013. IEEE Global Communications Conference 2013 (Globecom 2013).
Tuning Large Scale Deduplication with Reduced Effort
2013. International Conference on Scientific and Statistical Database Management.
Eficácia da Recomendação Associativa de Tags Frente à Ausência de Informação Prévia
2013. 19th Brazilian Symposium on Multimedia and the Web (Webmedia 2013).
Exploiting Novelty and Diversity in Tag Recommendation
2013. 35th European Conference on Information Retrieval Research, ECIR 2013.
Using early view patterns to predict the popularity of youtube videos
2013. ACM International Conference on Web Search and Data Mining.
Análise da Polaridade de Micro-Revisões no Foursquare
2013. 19th Brazilian Symposium on Multimedia and the Web (Webmedia 2013).
A Relevance Feedback Approach for the Author Name Disambiguation Problem
2013. ACM/IEEE Joint Conference on Digital Libraries.
Exploiting User Feedback to Learn to Rank Answers in Q&A Forums: a Case Study with Stack Overflow
2013. The Annual ACM SIGIR Conference on Information Retrieval.
Formal Approach for the Specification of Digital Complex Objects
2013. 19th Brazilian Symposium on Multimedia and the Web (Webmedia 2013).
GPU-NB: A Fast CUDA-based Implementation of Naive Bayes
2013. The 25th International Symposium on Computer Architecture and High Performance Computing.
Desambiguating Author Names in Large Bibliographic Repositories
2013. International Conference on Digital Libraries.
Um Estudo sobre Meta-Atributos para Classificação Automática de Texto
2013. Symposium on Knowledge Discovery, Mining and Learning (KDMiLe).
Polarity of Foursquare Tips: Analysis and Detection
2013. The 5th International Conference on Social Informatics (SocInfo2013).
Topic Diversity in Tag Recommendation
2013. The ACM Conference Series on Recommender Systems (RecSys 2013).
A Linguistic Characterization of Google+ Post across Different Social Groups
2013. Workshop on Information Systems (WIN 2013).
On MultiView-Based Meta-Learning for Automatic Quality Assessment of Wiki Articles
2012. International Conference on Theory and Practice of Digital Libraries.
Automatic Document Classification Temporally Robust
2012. XXV Concurso de Teses e Dissertações.
Análise de Vulnerabilidade de Usuários no Facebook
2012. XVIII Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia).
Active Associative Sampling for Author Name Disambiguation
2012. ACM/IEEE Joint Conference on Digital Libraries.
Aggressive and Effective Feature Selection using Genetic Programming
2012. IEEE Congress on Evolutionary Computation (CEC).
Previsão de Popularidade de Vídeos no YouTube Utilizando Padrões de Acesso Iniciais
2012. Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC).
Seleção de Anúncios para Veiculação Durante a Exibição de Vídeos na Web
2012. XVIII Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia).
Impacto da Evolução Temporal na Detecção de Spammers na Rede de Origem
2012. Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC).
Utilizando Algoritmos Genéticos para Detecção do Vandalismo na Wikipedia
2012. Simpósio Brasileiro de Bancos de Dados.
Ranqueamento Supervisionado de Autores em Redes de Colaboração Científica
2012. Simpósio Brasileiro de Bancos de Dados.
Automatic Vandalism Detection in Wikipedia with Active Associative Classification.
2012. International Conference on Theory and Practice of Digital Libraries.
'Is Learning to Rank Worth it? A Statistical Analysis of Learning to Rank Methods
2012. Simpósio Brasileiro de Bancos de Dados.
Improving On-Demand Learning to Rank Through Parallelism
2012. 13th International Conference on Web Information System Engineering.
Automatic Query Expansion Based on Tag Recommendation
2012. 21st ACM Conference on Information and Knowledge Management.

Extended abstracts in conferences

The LExR Collection for Expertise Retrieval in Academia
2016. the 39th International ACM SIGIR conference.
Automatic Methods for Disambiguating Author Names in Bibliographic Data Repositories
2015. the 15th ACM/IEEECE.
Combining Classifiers and User Feedback for Disambiguating Author Names
2015. the 15th ACM/IEEECE.
RECOD @ Placing Task of MediaEval 2015
2015. MediaEval 2015 Multimedia Benchmark Workshop.
Recod @ MediaEval 2015: Diverse Social Images Retrieval
2015. MediaEval 2015 Multimedia Benchmark Workshop.
Multimodal Image Geocoding: The 2013 RECOD's Approach
2013. MediaEval 2013 Benchmarmarking Initiative for Multimedia Evaluation Workshop.
A Gender Based Study of Tagging Behavior in Twitter
2012. 23rd ACM Conference on Hypertext and Social Media.
Explorando Relevância, Novidade e Diversidade em Recomendação de Tags
2012. XVIII Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia).

Abstracts in conferences

A practical and effective sampling selection strategy for large scale deduplication
2016. 2016 IEEE 32nd International Conference on Data Engineering (ICDE).
Métodos Automáticos para Desambiguação de Nomes de Autores em Repositórios de Dados Bibliográficos
2014. Simpósio Brasileiro de Bancos de Dados.
From Concepts to Implementation and Visualization: Tools from a Team-Based Approach to IR
2008. 31st Annual International ACM SIGIR Conference.
5SQual - A Quality Assessment Tool for Digital Libraries
2007. ACM/IEEE Joint Conference on Digital Libraries.
PIM through a 5S Perspective
2007. ACM IEEE Joint Conference on Digital Libraries.

See all publications in Lattes

Current students

MS

Victor Rodrigues. Bag-of-Word-Embeddings: Extending Bag-of-Words with Word Embeddings for Semantically-Enhanced Text Representation. Início: 2016. Universidade Federal de Minas Gerais (Orientador principal)
Luiz F. Gonçalves. Sem titulo.. Início: 2015. Universidade Federal de Minas Gerais (Orientador principal)

PhD

Amir Khatib. Sem Titulo. Início: 2016. Universidade Federal de Minas Gerais (Orientador principal)
Guilherme Gomes. Modelos Graficos pra Learning to Rank. Início: 2015. Universidade Federal de Minas Gerais (Orientador principal)
Felipe Augusto Resende Viegas. Exploiting Efficient and Effective and Bayesian Strategies for Text Classification. Início: 2015. Universidade Federal de Minas Gerais (Orientador principal)
Sergio Daniel. Meta-Atributos para Classificacao. Início: 2014. Universidade Federal de Minas Gerais (Orientador principal)
Daniel Sousa. Learning to Rank. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)
Reinaldo Fortes. Combinação de Recomendadores. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)
Rodrigo Silva. Active Learning for Learning to Rank. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)
Thiago Cunha de Moura Salles. Avancos em Classificacao Temporal Robusta Temporalmente. Início: 2011. Universidade Federal de Minas Gerais (Orientador principal)

See all students in Lattes