Conteúdo Digital Curadoria: Vocabulários controlados

Versão Beta para testes e avaliações: Aguarde em breve a versão final. É um especialista em vocabulários controlados e quer contribuir com sua opinião sobre esta Curadoria? Clique aqui para acessar os Contatos. 

Vocabulários controlados são listas de termos que podem ser utilizados nos processos de indexação, bem como de representação temática, objetivando padronizar e facilitar a recuperação da informação em sistemas de documentação.

AGROVOC é um tesauro mantido pelo AIMS (Agricultural Information Management Standards) da FAO (Food and Agriculture Organization). É um vocabulário de valores para temáticas na área de agricultura e produção de alimentos.  É multilíngue, seus termos têm identificadores únicos – IRIs. O tesauro como um todo pode ser exportado em SKOS/RDF.

Acesse em: http://aims.fao.org/vest-registry/vocabularies/agrovoc

Terminologia sobre mobiliário antigo.

Acesse em: https://antiquesworld.co.uk/different-antique-furniture-terminology/

Uma enciclopédia on-line sobre artes plásticas em geral. Traz informações sobre artistas, obras de artes, movimentos artísticos, etc.

Acesse em: http://www.artcyclopedia.com/

Modelo conceitual para informações bibliográficas, mantido pela Library of Congress dos EUA, tem categorias semelhantes ao FBBR e LRM, como Work (Obra), Instance (equivalente a Manifestação) e Item. Além dessas também previstas no BIBFRAME categorias Agent, Subject e Event.

Acesse em: https://www.loc.gov/bibframe/

Cerâmica, normas de Inventário, artes plásticas e artes decorativas do Museu do Azulejo, Portugal.

Acesse em: Clique para efetuar o download do pdf

O modelo CIDOC CRM é o resultado de esforços conjuntos da comunidade museológica, organizada no CIDOC – ICOM International Committee for Documentation – com o objetivo prover definições, estrutura e semântica para orientar a documentação das entidades e relacionamentos existentes na área de preservação do patrimônio cultural.

Conforme é informado no seu sítio Web, estes esforços tiveram um primeiro produto em 1994, um modelo de dados para museus, o CIDOC Relational Data Model. Esse modelo de dados evoluiu para um modelo conceitual, mais genérico e abstrato. Em 2000 o CIDOC CRM foi aceito como documento de trabalho do Comitê ISO TC46/SC4 – Interoperability , o passo inicial para se tornar uma norma ISO, o que aconteceu em 2006, quando o CIDOC CRM se tornou a norma ISO 21127/2014. No ano de 2000 também foi criado pelo CIDOC o CRM Special Interest Group, um grupo de trabalho com o objetivo de manter e atualizar o CRM.

Ainda segundo seu sítio Web, o CIDOC CRM:

CIDOC CRM is intended to promote a shared understanding of cultural heritage information by providing a common and extensible semantic framework that any cultural heritage information can be mapped to.

Como pode ser visto, o objetivo declarado do CIDOC CRM tem um escopo mais amplo do que simplesmente a área de museus, abrangendo de instituições de memória e cultura em geral. O CRM é, portanto, mais amplo que o FRBR.

A hierarquia de classes e subclasses do CRM é desenvolvida a partir dessas três categorias: Objetos, Eventos e Atores (ICOM/CIDOC, 2011). O modelo possui ao todo 86 classes e estas são relacionadas através de 137 propriedades. Classes e propriedades são organizadas em hierarquias de classes-subclasses e propriedades-subpropriedades. O CIDOC CRM tem também versões como uma ontologia computacional, nas linguagens RDF e OWL.

O CRM foi planejado segundo o paradigma da orientação a objetos – OO. Nesse paradigma os elementos do modelo – suas classes – são considerados objetos, o que significa constituem um todo, que herdam suas propriedades específicas dos objetos que são suas superclasses e qualquer nova subclasse que venha a ser criada herda também todas as propriedades específicas dessa classe.

O CRM é também extensível, isto é, suas classes e propriedades podem ser estendidas através da criação de subclasses e subpropriedades mais específicas para atender necessidades especiais. Por exemplo, a classe E39 Actor, subclasse E31 Person, poderia ser especializada, por exemplo, por uma classe como E 31.01 Painter.

Acesse em: http://www.cidoc-crm.org/

Categories for  the Description of Works of Art (Categorias para descrição de obras de arte).

Acesse em: https://www.getty.edu/research/publications/electronic_publications/cdwa/

O vocabulário Dublin Core (DC) é o vocabulário mais largamente utilizado na descrição de recursos na Web, devido a sua simplicidade e generalidade. Sua concepção minimalista permite que praticamente qualquer tipo de recurso Web  (documentos vídeos, imagens, páginas, etc.) possa ser descrito genericamente usando o DC.

Existem inúmeras experiências do uso do DC em arquivos, bibliotecas e museus. Por isso tem sido sempre o vocabulário usado quando o objetivo é a interoperabilidade entre sistemas distintos; diferentes vocabulários podem ser mapeados para o DC. É um vocabulário simples, sem nenhuma estruturação entre seus 15 conceitos, chamados de elementos. Simples e genéricos, os 15 elementos DC formam um núcleo ou core, aplicada a uma grande variedade de objetos digitais. É a língua franca para representação de informação na Internet.

Acesse em: https://www.dublincore.org/

O EDM é o modelo conceitual que estrutura os conteúdos da Biblioteca Europeana, iniciativa que visa criar um portal na Web para dar acesso às manifestações culturais dos países da Comunidade Européia. Essas manifestações incluem textos (livros, documentos), vídeos, objetos tridimensionais (imagens de obras de arte, de objetos), gravações de som, imagens (fotografias).

Especificamente, a Europeana agrega registros – metadados – desses objetos mantidos nos acervos de mais 3.500 instituições culturais europeias de diferentes tipos: bibliotecas, museus, arquivos, cinematecas, etc. Seu acervo totaliza cerca de 58 milhões de itens, em 2020.

Acesse em: https://www.europeana.eu/pt

Enciclopédia on-line sobre arte e cultura brasileira. É subdividida em categorias como Artes Visuais, Cinema, Dança, Literatura, Música, Teatro.

Acesse em: https://enciclopedia.itaucultural.org.br/

Modelo Conceitual FRBR (Functional Requirements for Bibliographic Records) foi complementado e é usado hoje juntamente com dois outros modelos, o FRAD (Functional Requiriments for Authority Data) e o FRSAD (Functional Requiriments for Subject Authority Data).

O FRBR teve uma grande influência, que ultrapassa os aspectos específicos da catalogação bibliográfica. Nele, de forma explícita, os usuários da biblioteca e suas tarefas aparecem como determinantes na construção do modelo. Isso significa um reposicionamento da biblioteca e de suas funções, não mais como um repositório de documentos, mas como um serviço voltado aos usuários.

Atualmente o FRBR vêm sendo substituído pelo modelo LRM (Library Reference Model). Ambos têm como categorias principais: Obras, Agentes (pessoas e instituições) e Temas.

Acesse em:

https://www.ifla.org/publications/functional-requirements-for-bibliographic-records

https://www.ifla.org/publications/node/11412

GEONAMES é um vocabulários de lugares geográficos em que estes estão associados às suas coordenadas, fuso horário, código postal, nome em diferentes idiomas, etc.

Cada lugar geográfico também tem links para a Wikipedia. Os lugares geográficos estão organizados hierarquicamente (a cidade do Rio de Janeiro está sob “Brasil”, ”Rio de Janeiro (estado)”) em classes como país, capital, estado, cidade, região administrativa, ou acidentes geográficos como montanha, rio, mar, etc.

Cada lugar geográfico possui um identificador persistente e pode ser exportado em RDF/XML. Estas características tornam o GEONAMES um vocabulário importante para acervos em memória e cultura, com grande potencial para fornecer um rico contexto a estes acervos.

Acesse em: https://www.geonames.org/

São quatro os vocabulários controlados do Getty: Art & Architecture Thesaurus (AAT), Cultural Name Objects Authority (CONA) para nomes de sítios como o Pantheon de Atenas ou a torre Eiffel, Getty Thesaurus of Geographic Names (TGN) para lugares e o Union List of Artists Names (ULAN).

São muito usados na área de museologia e patrimônio cultural. Dos 4, o AAT, o TGC e o ULAN têm seus termos preparados para serem usados com as tecnologias LOD; todos possuem definições ou notas de escopo e identificadores únicos; os termos que são propriedades trazem também especificados seus domínios e escopos. O TGC e o ULAN permitem que seus termos sejam exportados em RDF/XML, TURTLE e JASON-LD.

Acesse em: http://www.getty.edu/research/tools/vocabularies/cona/index.html

Humphries weaving glossary of terms for textiles and weaving é um glossário de termos de tecelagem.

Acesse em: https://www.humphriesweaving.co.uk/glossary-of-terms/

ICONCLASS, a multilingual classification system for cultural content, é um sistema de classificação com foco em artes e iconografia. É multilíngue, tem seus conceitos organizados em hierarquias a partir de 10 categorias.

Todos os seus conceitos têm um código que permite a criação de IRIs únicos. ICONCLASS é licenciado segundo a Open Database License. Seus conceitos podem ser exportados/baixados nos formatos SKOS/RDF e JASON.

Acesse em: http://www.iconclass.nl/

Um dicionário ilustrado sobre arquitetura e áreas correlatas, como mobiliário, vitrais, arquitetura egípcia, etc.

Acesse em: https://buffaloah.com/a/DCTNRY/vocab.html

Tanto os LC Subject Headings quanto os LC Name Authority File estão disponíveis para serem usados com as tecnologias LOD, além de outros vocabulários mantidos pela LC.

Acesse em: https://id.loc.gov/

LIDO (Lightweith Information Descripbin Objects) é um formato de metadados para compartilhamento de dados (harvesting) de objetos museológicos (descrições de objetos, de seu contexto e de suas relações) entre sistemas de museus.

Acesse em: http://network.icom.museum/cidoc/working-groups/lido/what-is-lido/

É uma enciclopédia aberta sobre música, com informações sobre artistas, obras, estilos, etc.

Acesse em: https://musicbrainz.org/

O modelo conceitual RiC-CM (International Council on Archives – Experts Group on Archival Description) teve uma versão inicial (Consultation Draft v0.1) publicada para discussão, comentários e sugestões, em setembro de 2016.

Depois das bibliotecas e museus, a área de arquivos vem percebendo a necessidade de ter como base de suas práticas de representação e descrição um modelo conceitual mais geral e abstrato que as diferentes normas de descrição arquivísticas específicas, criadas ao longo dos anos, dando consistência e compatibilidade às entidades, características e relacionamentos existentes nas diferentes normas.

Semelhantemente ao processo ocorrido com as bibliotecas, a partir da criação do modelo FRBR em 1998 pela IFLA e com os museus a partir da criação do CIDOC CRM em 2000 pelo ICOM, o ICA (International Council of Archives) criou em 2012 o EGAD (Experts Group on Archival Description), que se encarregou do desenvolvimento do RiC-CM.

Incorpora as categorias das normas de descrição arquivísticas ISAD(G) – General International Standard Archival Description, ou Norma Geral Internacional de Descrição Arquivística, ISAAR (CPF) – International Standard Archival Authority Record for Corporate Bodies, Persons and Families, ou Norma Internacional de Registo de Autoridade Arquivística para Pessoas Coletivas, Pessoas Singulares e Famílias, ISDIAH – International Standard for Describing Institutions with Archival Holdings, ou Norma Internacional para a Descrição de Instituições com Acervo Arquivístico, e  ISDF – International Standard for Describing Functions, ou Norma Internacional para Descrição de Funções.

Acesse em: https://www.ica.org/en/egad-ric-conceptual-model-ric-cm-01pdf

Schema é um vocabulário criado por empresas como Google, Microsoft, Yahoo and Yandex, que operam grandes mecanismos de busca da Web. O vocabulário Schema é codificado como um micro formato, inserindo nas páginas html informações (os termos do vocabulário Schema), que permitem aos programas indexadores dos mecanismos de busca compreenderem o conteúdo das páginas e assim indexarem melhor cada página.

O vocabulário cobre tipos de entidades, relações entre entidades e ações, e pode ser facilmente estendido para cobrir novas necessidades. Schema é o vocabulário utilizado no projeto de dados abertos da OCLC (Online Computer Library Center)

Acesse em: https://schema.org/

Padrão de metadados do Reino Unido para gestão de coleções museológicas.

Acesse em: https://collectionstrust.org.uk/terminologies/

VIAF (Virtual International Authority File) é uma base de dados internacional e cooperativa de controle de autoridades. Além do nome padronizado de um artista, autor ou instituição, dados históricos e/ou biográficos sobre o mesmo, cada autoridade tem também seu IRI, permitindo referenciá-lo como um link na descrição de um recurso em RDF.

Acesse em: http://viaf.org/

VRA (Visual Resources Association) é um vocabulário de metadados descritivos mantido pela LC para a descrição de obras de arte e cultura e suas imagens. O conjunto de metadados descreve as diferentes propriedades desse tipo de objetos, organizadas em elementos, subelementos e atributos.

O VRA é codificado em XML (atributos neste caso se referem aos atributos de um elemento XML). O vocabulário VRA se baseia no CDWA, aqui listado. Os elementos principais descritos pelo VRA são work, image, collection, agent, location, culturalcontext, title e date.

Acesse em: https://vraweb.org/

Wikipedia, DBpedia e Wikidata são vocabulários inter-relacionados.

A Wikipedia é uma enciclopédia geral nos moldes da Encyclopédie de Diderot e d’Alembert, disponível na Web, formada por entradas sobre os mais diferentes temas e em muitos idiomas. Seu conteúdo é em formato textual, legível por pessoas. É uma iniciativa coletiva e cooperativa, qualquer usuário pode editar, criar ou alterar qualquer verbete, que não são assinados.

A Wikipedia é estruturada tendo em vista as tecnologias LOD, suas entradas são todas identificadas por IRIs. Por isso ela vem se tornando o ponto central da Web de Dados, o recurso para o qual a maioria dos outros recursos disponíveis formatados como LOD fazem links. Devido ao fato de ser uma enciclopédia, um link para a Wikipedia (ou para suas irmãs, a DBpedia e a Wikidata) agrega informação a qualquer outro recurso. Esta posição especial da Wikipedia entre os outros recursos formatados, segundo as tecnologias LOD, pode ser ilustrada no diagrama da nuvem LOD.

A DBpedia é a versão da Wikipedia em RDF, isto é, conteúdo estruturado, legível por máquinas. Como tal, é uma base de conhecimento que pode ser acessada diretamente por programas e consultada usando SPARQL. É obtida através do processamento automático das knowledge box, sumários que aparecem na parte superior direita de cada página da Wikipedia e que sumarizam o conteúdo da entrada. Veja um exemplo aqui. 

A Wikidata é também uma versão da Wikipedia em formato RDF, como a DBpedia, só que invés de ser o resultado da extração automática do conteúdo das knowledge boxes da Wikipedia, é editada por pessoas. Como tal, é também uma base de conhecimento estruturado que pode ser acessada diretamente por programas e consultada usando SPARQL.

Como vocabulários Wikipedia, DBpedia e Wikidata podem funcionar  da mesmas maneira que outros vocabulários, com o objetivo de controlarem e darem maior precisão semântica aos termos:

  • Agregando informação adicional sobre os mesmos, como no caso de substituir, no objeto do predicado dc:creator a cadeia de caracteres “Miguel de Cervantes” por um IRI para o item da DBpedia “http://dbpedia.org/page/Miguel_de_Cervantes” (neste caso seriam o objeto das triplas RDF), agregando toda a informação contida nesse item da DBpedia; Vide exemplo aqui. 
  • Padronizando os nomes dos termos (que neste caso seriam os predicados das triplas RDF), pois seus diferentes tipos de termos (entradas, itens) são padronizados por uma ontologia própria. Esta ontologia contém, por exemplo, termos padronizados para diferentes tipos de agentes utilizados nas entradas da Wikipedia ou nos itens da DBpedia e Wikidata, como Artista, Cantor, Diretor de cinema, Escritor, Jogador de futebol, Político, etc.

Versão inicial de autoria de Carlos Henrique Marcondes de Almeida.