Sabe qual a diferença entre classificação, detecção e segmentação em visão computacional?

Será que tudo se resume a classificação de animais e roupas?

A primeira tarefa que todos nós aprendemos quando começamos no campo de Visão Computacional é aquela de classificação de Gatos e Cães ou a mais tradicional ainda, classificação de dígitos do MNIST. Mas será que todas as tarefas são desse tipo? Identificar o animal, peça de roupa ou dígito? Classificar em carro, moto ou pessoa?

Claro que não! A tarefa de classificação é a mais básica e fundamental para todas as demais. Mas as coisas podem ficar ligeiramente mais difíceis de implementar. Vamos diferenciar as 3 tarefas principais para os projetos de Visão Computacional: Classificação, Detecção e Segmentação (semântica).

Classificação

É a tarefa fundamental e basicamente é responsável por reconhecer "o que a imagem é" (What is it?) ou qual tipo de imagem. Por exemplo, qual tipo de objeto está dentro da imagem abaixo?

Exceto os que possuem alguma dificuldade na visão, a maioria das pessoas diria que há uma pessoa, um cavalo e os mais audaciosos diriam que há até dois carros. Outra tarefa poderia ser a classificação da imagem como dia/noite ou imagem outdoor ou indoor. Esse segundo tipo é usado em sistemas que precisam da informação sobre onde o veículo está.

A tarefa de classificação pode ser desafiadora devido a fatores como luminosidade, posição do objeto, estilo, cores e especialidades, como por exemplo uma raça exótica de cavalo.

Ruídos e outros problemas relacionados a qualidade da imagem podem ser tratados através de processamento de imagem, aumentando a qualidade teórica do modelo.

Categorizações especializadas são mais desafiadoras quando precisamos distinguir entre duas flores qual é a Tulipa e qual é a Flor de Cerejeira ou entre duas espécies de pássaros semelhantes.

Para esses problemas complexos de classificação os pesquisadores buscam criar grandes conjuntos de dados e de alta qualidade, além de algoritmos específicos para diferenciar essas classes.

É uma estratégia de alcançar nos algoritmos algo próximo da performance de um especialista em biologia, por exemplo.

Detecção

Essa é a tarefa de reconhecer não somente o que, mas onde determinado objeto está localizado. Ou seja, detectar um objeto é a tarefa de encontrar o objeto desejado e a sua localização na imagem ou video.

A tarefa de classificação considera apenas a presença ou ausência, detectar demanda reconhecermos a cada instante como enxergamos os 2 carros.

Objetos pequenos ou objetos que envolvem vários pedaços/peças podem ser mais difíceis de serem localizados.

Segmentação Semântica

A tarefa de segmentação semântica tenta encontrar a identidade de um pixel.

Ou seja, tenta responder que tipo de objeto determinado pixel faz parte. No exemplo abaixo, os pixels do cavalo são marcados de cores diferentes dos pixels da pessoa, por exemplo.

Poderíamos configurar o algoritmo para marcar a grama ou o céu. Há sistemas que utilizam imagens de satélite e fazem a segmentação para separar ruas, prédios, água e assim por diante.

Esse tipo de tarefa precisa atuar globalmente para separar os objetos e depois localmente para encontrar a borda entre eles. O custo computacional costuma ser mais alto também devido a dificuldade de processamento para cada pixel e cada imagem tem se tornado de maior resolução a cada ano.

Uma outra explicação mais simples:

Promessas do uso de Deep Learning em Visão Computacional

Essas atividades vem evoluindo graças aos avanços em deep learning, abrindo novas frentes de trabalho com detecção de objetos e reconhecimento facial. Outras promessas que o deep learning trouxe estão relacionadas ao métodos automáticos para aprender as características/features de uma imagem, dispensando que um especialista precise definir manualmente cada uma das features. Outra promessa é a de aprendizado contínuo, com cada vez mais dados disponíveis o esperado é que os resultados continuem não só a avançar mas também acelerar.

Os desafios de visão computacional não estão resolvidos com deep learning, mas o que parece essa será a técnica utilizada no estado da arte para superar os novos problemas desse campo de atuação.

Obrigado pela leitura e até o próximo!

Obs: Para outros materiais sobre o assunto, acesso nosso instagram https://instagram.com/aprendadatascience