Original Article: Relative Attributes
Author: Devi Parikh and Kristen Grauman

 

Atributos Relativos

 

Vencedor Marr Prize (Melhor Prêmio de Papel), ICCV 2011

 

Devi Parikh e Kristen Grauman

  

�Quem no arco-íris pode desenhar a linha onde a tonalidade violeta termina e a tonalidade de laranja começa? Distinguidamente, vemos a diferença das cores, mas onde exatamente o primeiro se mistura no outro? Então, com sanidade e insanidade.�
 
�Herman Melville, Billy Budd 

     

 

[papel]    [dados]     [código]     [demos]    [slides]     [conversa (video)]     [poster]

   


Abstrato


Os "atributos" visualmente conhecidos pelo homem podem beneficiar várias tarefas de reconhecimento. No entanto, as técnicas existentes restringem essas propriedades a rótulos categóricos (por exemplo, uma pessoa é "sorridente" ou não, uma cena é "seca" ou não) e, portanto, não consegue capturar relações semânticas mais gerais. Propomos modelar relativo atributos. Dado que os dados de treinamento indicam como as categorias de objeto / cena se relacionam de acordo com atributos diferentes, nós aprendemos uma função de classificação por atributo. As funções de classificação aprendidas prevêem a força relativa de cada propriedade em imagens novas. Em seguida, construímos um modelo generativo sobre o espaço conjunto de resultados de classificação de atributo e propomos uma nova forma de aprendizagem de tiro zero em que o supervisor relaciona a categoria de objeto não visto para objetos anteriormente vistos através de atributos (por exemplo, 'os ursos são mais furrier do que girafas'). Mostramos ainda como os atributos relativos propostos permitem descrições textuais mais ricas para imagens novas, que na prática são mais precisas para a interpretação humana. Demonstramos a abordagem em conjuntos de dados de rostos e cenas naturais, e mostramos suas vantagens claras em relação à previsão tradicional de atributo binário para essas novas tarefas. 
 

  


Motivação


Os atributos binários são restritivos e podem não ser naturais. Nos exemplos acima, enquanto se pode caracterizar a imagem na parte superior esquerda e superior direita como natural e artificial, o que você descreveria a imagem no topo do centro? A única maneira significativa de caracterizá-lo é em relação às outras imagens: é menos natural do que a imagem à esquerda, mas mais do que a imagem à direita. 

 

  


Proposta


Neste trabalho, propomos modelar atributos relativos. Ao contrário de prever a presença de um atributo, um atributo relativo indica a força de um atributo em uma imagem em relação a outras imagens. Além de serem mais naturais, os atributos relativos oferecem um modo de comunicação mais rico, permitindo o acesso a uma supervisão humana mais detalhada (e, portanto, uma maior precisão de reconhecimento), bem como a capacidade de gerar descrições informativas de imagens novas. 

 

Nós planejamos uma abordagem que aprende um função de classificação para cada atributo, com restrições de similaridade relativa em pares de exemplos (ou, mais geralmente, uma ordem parcial em alguns exemplos). A função de classificação aprendida pode estimar um ranking de valor real para imagens que indicam a força relativa da presença de atributo neles. 

 

Apresentamos novas formas de aprendizado de tiro zero e descrição de imagem que exploram as previsões de atributos relativos.

 

  


Abordagem


 

Aprendendo atributos relativos: Cada atributo relativo é aprendido através de uma formulação de aprendizagem para classificação, dada a supervisão comparativa, conforme mostrado abaixo:

 


  

 

Distinção entre a aprendizagem de uma função de classificação de margem larga (direita) que impõe a ordenação desejada em pontos de treinamento (1-6) e um classificador binário de margem larga (esquerda) que separa apenas as duas classes (+ e -) e faz não necessariamente preservar uma ordenação desejada sobre os pontos é mostrado abaixo:

 

 


  

 

 

 

Novel zero-shot learning: Estudamos a seguinte configuração 

  • categorias totais N: S seen categorias (imagens associadas estão disponíveis) + U unseen categorias (não há imagens disponíveis para essas categorias)
  • S seen As categorias são descritas em relação entre si através de atributos (nem todos os pares de categorias precisam estar relacionados para todos os atributos)
  • U unseen as categorias são descritas em relação a (um subconjunto de) categorias vistas em termos de (um subconjunto de) atributos.

Em primeiro lugar, treinamos um conjunto de atributos relativos usando a supervisão fornecida no seen categorias. Esses atributos também podem ser pré-treinados a partir de dados externos. Em seguida, construímos um modelo generativo (gaussiano) para cada um seen categoria usando as respostas dos atributos relativos às imagens do seen categorias. Em seguida, inferimos os parâmetros dos modelos generativos de unseen categorias, utilizando suas descrições relativas em relação a seen categorias. Uma visualização da abordagem simples que empregamos para isso é mostrada abaixo: 


 

 

 

 

Uma imagem de teste é atribuída à categoria com a máxima probabilidade.

   

Gerando automaticamente descrições textuais relativas de imagens: Dada uma imagem a ser descrita, avaliamos todas as funções de classificação aprendidas em I. Para cada atributo, identificamos duas imagens de referência de cada lado de I e não estão muito longe ou muito próximas de I. A imagem I é descrita em relação a estas duas imagens de referência, conforme mostrado abaixo:
 

 

  

Como visto acima, além de descrever uma imagem relativa a outras imagens, nossa abordagem também pode descrever uma imagem relativa a outras categorias, resultando em uma descrição puramente textual. Claramente, as descrições relativas são mais precisas e informativas do que a descrição binária convencional.

 


Experimentos e resultados


Realizamos experiências em dois conjuntos de dados: 

(1) Reconhecimento de cena ao ar livre (OSR) contendo 2688 imagens de 8 categorias: costa C, forest F, highway H, inside-city I, mountain M, open-country O, street S e tall-building T. Usamos os recursos de gist para representar as imagens.

(2) Um subconjunto do Base de dados de rosto de figuras públicas (PubFig) contendo 772 imagens de 8 categorias: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V e Zac Efron Z. Usamos recursos de cores e cores coloridos para representar as imagens.

 

A lista de atributos utilizados para cada conjunto de dados, juntamente com as anotações de atributo binário e relativo, são mostradas abaixo:

   


 

 

Aprendizagem com tiro zero:

 

Comparamos nossa abordagem proposta com duas linhas de base. O primeiro é atributo relativo baseado em pontuação (SRA). Esta linha de base é a mesma que a nossa abordagem, exceto que ela usa as pontuações de um classificador binário (atributos binários) em vez dos escores de uma função de classificação. Esta linha de base ajuda a avaliar a necessidade de uma função de classificação para melhor modelar atributos relativos. Nossa segunda linha de base é o modelo de Previsão de Atributos Diretos (DAP), apresentado por Lampert et al. em CVPR 2009. Esta linha de base ajuda a avaliar os benefícios do tratamento relativo de atributos em oposição ao categórico. Avaliamos essas abordagens para variar o número de categorias não vistas, quantidades variáveis de dados usados para treinar os atributos, número variável de atributos usados para descrever as categorias não vistas e níveis variáveis de "folga" na descrição de categorias não vistas. Os detalhes da configuração experimental podem ser encontrados em nosso artigo. Os resultados são mostrados abaixo:

 

 


 

Descrições de imagens geradas automaticamente:

 

Para avaliar a qualidade das descrições de imagens relativas às contrapartes binárias, realizamos um estudo humano. Nós geramos uma descrição de uma imagem usando nossa abordagem, bem como os atributos binários de linha de base. Apresentamos os assuntos com esta descrição, juntamente com três imagens. Uma das três imagens foi a imagem que está sendo descrita. A tarefa dos sujeitos era classificar as três imagens com base nas quais eles pensavam ser mais provável que fosse o que está sendo descrito. Quanto mais precisa for a descrição, melhores serão as chances de os sujeitos terem identificado a imagem correta. Uma ilustração de uma tarefa apresentada aos assuntos é mostrada abaixo:


 

 

Os resultados do estudo são mostrados abaixo. Observamos que os sujeitos podem identificar a imagem correta com mais precisão usando nossos atributos relativos propostos, em comparação com os atributos binários.

 


 

 

 

Exemplo de descrições binárias de imagens, bem como descrições relativas a categorias são mostradas abaixo:

  

        

Imagem Descrições binárias Descrições relativas
não natural
não aberto
perspectiva
mais natural do que o tallbuilding, menos natural do que a floresta
mais aberto do que alto, menos aberto do que a costa
mais perspectiva do que edifício alto
não natural
não aberto
perspectiva
mais natural do que a insidecidade, menos natural do que a rodovia
mais aberto do que a rua, menos aberto do que a costa
mais perspectiva do que rodovia, menos perspectiva do que insidecidade
natural
aberto
perspectiva
mais natural do que o alto, menos natural do que a montanha
mais aberto do que a montanha
menor perspectiva do que o campo aberto
White
not Smiling
VisibleForehead
mais Branco do que AlexRodriguez
mais Sorridente do que JaredLeto, menos Sorridente do que ZacEfron
mais VisibleForehead do que 
JaredLeto, menos VisibleForehead do que MileyCyrus
Branco
não Sorrindo
não VisibleForehead
mais Branco do que AlexRodriguez, menos Branco do que MileyCyrus
menos Sorridente do que HughLaurie
mais VisibleForehead do que 
ZacEfron, menos VisibleForehead que MileyCyrus
não Jovem
BushyEyebrows
RoundFace
mais Jovem do que CliveOwen, menos Jovem do que ScarlettJohansson
mais BushyEyebrows do que 
ZacEfron, menos BushyEyebrows do que AlexRodriguez
mais RoundFace do que CliveOwen, menos RoundFace do que ZacEfron

  


Data


Nós provemos o aprendizado os atributos relativos e suas previsões para os dois conjuntos de dados usados em nosso artigo: Reconhecimento de cena ao ar livre (OSR) e um subconjunto do Base de dados de rosto de figuras públicas (PubFig). 

 

README

Download (v2)

 

Conjunto de dados de atributos de rosto relativo. Ele contém anotações para 29 atributos relativos em 60 categorias do Base de dados de rosto de figuras públicas (PubFig). 

  


Código


Modificamos a implementação RankSVM de Olivier Chappelle para treinar atributos relativos com restrições de similaridade. Nosso código modificado pode ser encontrado aqui.

 

Se você usa o nosso código, cite o seguinte artigo:

D. Parikh e K. Grauman

Atributos Relativos

Conferência Internacional sobre Visão de Computador (ICCV), 2011.

   


Demos


Demonstrações de várias aplicações de atributos relativos podem ser encontradas aqui. Uma descrição desses aplicativos pode ser encontrada nos documentos aqui.

 


Publicações


D. Parikh e K. Grauman

Atributos Relativos

Conferência Internacional sobre Visão de Computador (ICCV), 2011. (Oral)

Marr Prize (Melhor Prêmio Papel) vencedor

[slides] [conversa (video)] [poster] [demos]

 

Os seguintes são outros documentos que usam atributos relativos: 

 

A. Biswas e D. Parikh

Aprendizagem ativa simultânea de classificadores & Atributos via Feedback relativo

Conferência IEEE sobre visão computacional e reconhecimento de padrões (CVPR), 2013

[página e dados do projeto] [poster] [demo]

  

A. Parkash e D. Parikh
Atributos para comentários do classificador
Conferência européia sobre visão computacional (ECCV), 2012 (Oral)

                        [slides] [conversa (video)[página e dados do projeto] [demo]

   
A. Kovashka, D. ParikhK. Grauman
WhittleSearch: Pesquisa de imagens com comentários relativos de atributos
Conferência IEEE sobre visão computacional e reconhecimento de padrões (CVPR), 2012
[
página do projeto[poster] [demo]

 

D. ParikhA. Kovashka, A. Parkash e K. Grauman
Atributos relativos para comunicação entre humanos e máquinas aprimoradas (Documento convidado)
Conferência AAAI sobre Inteligência Artificial (AAAI), 2012 (Oral)