Para as análises conjuntas, utilizar-se-á um Corpus Compartilhado selecionado dos diferentes corpora organizados pelos pesquisadores responsáveis por este projeto e a seguir sucintamente caracterizados.
Em Portugal, dispõe-se do Corpus do Português Fundamental, do Corpus de Referência do Português Contemporâneo (CRPC) e das elocuções livres do Corpus do Atlas Lingüístico-Etnográfico de Portugal e da Galiza (ALEPG), do Centro de Lingüística da Universidade de Lisboa.
O Corpus de Referência do Português Contemporâneo (CRPC), do Centro de Lingüística da Universidade de Lisboa é um corpus lingüístico, eletrônico, que contém atualmente 86,3 milhões de palavras, sendo constituído por amostragens de diversos tipos de texto de discurso escrito (literários, jornalísticos, técnicos, científicos, didáticos, econômicos, jurídicos, parlamentares, etc.) e de discurso oral (elocuções informais e formais). Estas amostragens dizem respeito a variedades nacionais e regionais do português (português europeu, português do Brasil, português dos cinco países africanos de língua oficial portuguesa e o português de Macau). Do ponto de vista cronológico, o corpus contém textos que vão desde a segunda metade do séc. XIX até 1998, sendo, na sua maior parte, posteriores a 1970. Estes recursos lingüísticos específicos de cada língua, em associação com tecnologias adequadas à extração de dados e de conhecimentos, constituem pré-requisitos indispensáveis a um grande conjunto de trabalhos de investigação e a vários tipos de desenvolvimento e aplicações.
O CPRC tem, assim, vindo a ser utilizado em numerosos trabalhos acadêmicos (essencialmente dissertações de doutoramento e de mestrado) realizados em Portugal e no estrangeiro e em projetos de investigação. Destes, salientam-se:
- Novo Dicionário da Língua Portuguesa em execução na Academia das Ciências de Lisboa;
- Dicionário de Combinatórias do Português (1994-1997), Programa Lusitânia) - inventário das associações lexicais contínuas que ocorrem num subcorpus do CPRC de 12 milhões de palavras;
- Português Falado, Variedades Geográficas e Sociais (1995-1997, Programa europeu LÍNGUA/SOCRATES em que o CLUL é a instituição coordenadora e são parceiros as Universidades de Toulouse-Le Mirail e de Aix-en-Provence) - 80 amostragens do português falado, nas suas variantes europeia, brasileira, africanas e de Macau, em CD-ROM, com a gravação sonora de produções autênticas e a correspondente transcrição ortográfica alinhada, e, ainda, três volumes de estudos lexicais, morfossintáticos, sintáticos, enunciativos e pragmáticos feitos com base no corpus de português falado (materiais em via de publicação);
- LE-PAROLE (1996-1998 - Programa europeu Telematics Application of Common Interest em que participam instituições de todos os países da União Européia), estando a língua portuguesa representada pelo CLUL como parceiro principal e pelo INESC como parceiro associado) _ Projeto de reutilização de recursos lingüísticos e informáticos disponíveis nos países europeus. Foram constituídos corpora de 20 milhões de palavras, para cada língua, harmonizados no que respeita ao seu desenho, composição e codificação, incluindo 250.000 palavras anotadas morfossintaticamente. O léxico de cada língua contém 20.000 entradas acompanhadas de informação morfossintática e sintática;
- Léxico Multifuncional Computadorizado do Português Contemporâneo (1997- Programa PRAXIS XXI) - Léxico de 30 000 palavras, extraído de um subcorpus do CRPC, com freqüências de ocorrência, transcrição fonética larga e classificação morfossintática;
- Simple (Semantic Information for Multifunctional Plurilingual Lexica (1998- Programa europeu Telematics Application of Common Interest) - Anotação de 10000 unidades semânticas do léxico LE-PAROLE e respectiva ligação à sintaxe (este projeto é a extensão do LE-PAROLE).
- European Language Activity Network (ELAN) (1998 - Programa europeu MLIS - 121) - Disponibilização em rede de corpora com um formato comum (corpora de 3 milhões de palavras para cada uma das 30 línguas européias representadas); estabelecimento de uma linguagem comum de pesquisa.
No Brasil, conta-se com o Arquivo Sonoro do Projeto Norma Urbana Culta (NURC), referente à fala de cinco capitais brasileiras, com o Corpus de Recontato do Rio de Janeiro, com o Arquivo Sonoro do Projeto do Atlas Etnolingüístico dos Pescadores do Estado do Rio de Janeiro (APERJ), com o Corpus do Português Clássico e Moderno, no qual se inclui o Corpus do Brasil Colônia.
O Projeto de Estudo Conjunto e Coordenado da Norma Urbana Oral Culta, mais conhecido como Projeto NURC, vincula-se ao "Proyecto de Estudio Coordinado del Habla Culta de las Principales Cuidades de Iberoamérica y de la Península Ibérica", em virtude de serem evidentes os pontos comuns à problemática do espanhol das Américas e do Português do Brasil. Assim é que o Projeto NURC se desenvolve, desde 1970, em cinco das principais capitais brasileiras, Porto Alegre, São Paulo, Rio de Janeiro, Recife. e Salvador, centros urbanos irradoriadores de usos lingüísticos para vastas áreas que deles dependem culturalmente. O objetivo do NURC é caracterizar o uso urbano culto da língua falada, a partir do exame sistemático da pluralidade de normas e registros que refletem a variação regional, social e estilística do português falado, com vista ao ensino em todos os graus. O arquivo sonoro do Projeto está constituído por 1870 entrevistas com 1356 informantes num total de 1570 horas no Brasil, distribuído por tipo de inquérito, faixa etária e sexo dos informantes. Atualmente, a database está sendo ampliada com a gravação através do recontado de falantes entrevistados na década de 70 e pela constituição de uma nova amostra complementar. Dentro do subprojeto de Fonética e Fonologia, vem operando o Laboratório de Fonética, que desenvolve pesquisas de ponta que incluem a participação de especialistas nas áreas de engenharia e música. O Projeto tem mantido estreita relação com outros Projetos, apresenta produção expressiva na área e tem contribuído de forma significativa na formação de novos pesquisadores.
O Projeto do Atlas Etnolingüístico dos Pescadores do Estado do Rio de Janeiro (APERJ) possui um corpus com 178 horas de gravação no Norte-Noroeste do Estado do Rio de Janeiro, correspondente a entrevistas com 78 informantes, realizadas em 13 localidades daquela região. O corpus vem sendo alargado para atingir as regiões das LagunasLitorâneas, Metropolitana e Sul do Estado do Rio de Janeiro, prevendo-se a inclusão de 36 outras comunidades. O Projeto está sendo desenvolvido não só por meio da recolha sistemática de dados (constituição do Arquivo Sonoro referente à fala de 49 localidades do Estado) e pela elaboração de cartas linguísticas, mas também pela realização de estudos nas linhas sociolinguística variacionista e especificamente dialectológica, visando à descrição e análise de aspectos fonético-fonológicos, morfossintáticos e léxicos da fala popular do Rio de Janeiro. Tem contado com a colaboração de bolsistas de Iniciação Científica e contribuído para a formação de alunos de Mestrado e Dourado. Foram defendidas dissertações e estão sendo elaboradas teses com base no corpus e orientações metodológicas do Projeto.
O Corpus do Português Clássico e Moderno, ainda em constituição, reúne (a) produção manuscrita no Brasil durante o Período Clássico (séculos XVI, XVII e XVIII) e (b) produção manuscrita e impressa no Brasil durante o Período Moderno (séculos XIX e XX).