Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Learning Module Combinando dados Este módulo irá ilustrar como você pode combinar arquivos no Stata. Exemplos incluem arquivos anexos, fusão de correspondência de um para um e fusão de um para muitos. Adicionando arquivos de dados Quando você tem dois arquivos de dados, você pode querer combiná-los, empilhando-os um sobre o outro. Por exemplo, temos um arquivo contendo pais e um arquivo contendo moms como mostrado abaixo. Se queremos combinar esses arquivos, empilhando-os um sobre o outro, podemos usar o comando append como mostrado abaixo. Podemos usar o comando list para ver se isso funcionou corretamente. O append funcionou corretamente. Os pais e as mães são empilhados juntos em um arquivo. Mas, há um pequeno problema. Nós não podemos dizer os pais das mães. Vamos tentar fazer isso de novo, mas primeiro vamos criar uma variável chamada momdad no papéis e mamães arquivo de dados que irá conter pai para o arquivo de dados dos pais e mãe para o arquivo de dados mães. Quando combinamos os dois arquivos juntos, a variável momdad nos dirá quem são as mães e os pais. Aqui fazemos a variável momdad para o arquivo de dados dos pais. Salvar o arquivo chamando-lhe dads1. Aqui nós tornamos a variável momdad para o arquivo de dados das mães. Gravamos o arquivo chamando-o moms1. Agora, vamos acrescentar dads1 e moms1 juntos. Agora, quando listamos os dados, a variável momdad mostra quem são as mães e os pais. Combinar fusão Outra forma de combinar arquivos de dados é fusão de correspondência. Dizer que nós quisemos combinar os paizinhos com o arquivo de dados do faminc, tendo as informações dos paizinhos e as informações da família lado a lado. Podemos fazer isso com uma fusão de correspondência. Deixa para ter um olhar nos paizinhos e no arquivo do faminc. Queremos combinar os arquivos de dados para que eles se parecem com isso. Observe que a variável famid é usada para associar a observação do arquivo dads com a observação apropriada do arquivo faminc. A estratégia para a fusão dos arquivos é assim. 1. ordenar pais em famid e salvar esse arquivo (chamando-lhe dads2). 2. classifique o faminc em famid e excepto esse arquivo (chamando o faminc2). 3. use o arquivo dads2. 4. mesclar o arquivo dads2 com o arquivo faminc2 usando famid para combiná-los. Aqui estão os quatro passos. 1. Classifique o arquivo dos pais pelo famid e salve-o como o dads2 2. Classifique o arquivo do faminc por o famid e excepto ele como o faminc2. 3. Use o arquivo dads2 4. Mesclar com o arquivo faminc2 usando famid como a variável-chave. Parece que isso funcionou bem, mas o que é essa variável de mesclagem A variável de mesclagem indica, para cada observação, como a mesclagem foi. Isso é útil para identificar registros incompatíveis. 2 - O registro contém informações de file2 somente (por exemplo, um registro faminc2 com nenhum registro dad2 correspondente.) 3 - O registro contém informações de file1 somente (por exemplo, um registro dad2 sem registro correspondente de faminc2. O registro contém informações de ambos os arquivos (por exemplo, os registros dad2 e faminc2 correspondem) Quando você tem muitos registros, tabular mesclar é muito útil para resumir quantos incompatíveis você tem. No nosso caso, todos os registros correspondem para que o valor de mesclagem Era sempre 3. Um-para-muitos fósforo que fundem Um outro tipo da fusão é chamado um a muitos fundem-se. Nosso um a um mesclaram acima dos paizinhos e do faminc e havia um a um que combinam dos arquivos. Kids. There pode ser vários filhos por pai e, portanto, este é um um para muitos fundir. Como você vê abaixo, a estratégia para a fusão de um para muitos é realmente o mesmo que um para um mesclar. Salvar esse arquivo como dads3 2. classificar crianças em famid e salvar esse arquivo como kids3 3. usar o arquivo dads3 4. mesclar o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. As 4 etapas são mostradas abaixo. 1. Classifique o arquivo de dados dos pais em famid e salve esse arquivo como dads3. 2. Classifique o arquivo de dados das crianças no famid e salve esse arquivo como kids3. 3. Utilize o ficheiro dads3. 4. Mesclar o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. Permite listar os resultados. Os resultados são um pouco mais fáceis de ler se classificamos os dados sobre famid e birth. Como você vê, isso é basicamente o mesmo que uma fusão de um para um. Você pode se perguntar se a ordem dos arquivos na instrução de mesclagem é relevante. Aqui, trocamos a ordem dos arquivos e os resultados são os mesmos. A única diferença é a ordem dos registros após a mesclagem. Exemplo de exemplo de anexação Exemplo de etapas de exemplo de mesclagem (um para um e um para muitos) Programa de exemplo de mesclagem de correspondência O conteúdo deste site não deve ser interpretado como endosso de nenhum site, livro ou produto de software específico por A Universidade de California. Welcome para o Instituto de Pesquisa Digital e Educação Stata FAQ: Como posso mesclar vários arquivos em Stata Esta FAQ é baseado em uma página desenvolvida pelo Programa de Pós-Graduação Assistente Estatística no Boston College. Agradecemos sua permissão para reproduzir este FAQ aqui. Não é incomum que dados, especialmente dados de pesquisa, venham em vários conjuntos de dados (há razões práticas para distribuir conjuntos de dados dessa maneira). Quando os dados são distribuídos em vários arquivos, as variáveis que você deseja usar estarão muitas vezes espalhadas por vários conjuntos de dados. Para trabalhar com informações contidas em dois ou mais arquivos de dados é necessário mesclar os segmentos em um novo arquivo que contém todas as variáveis com as quais você pretende trabalhar. Primeiro, você precisará descobrir quais variáveis você precisa e quais conjuntos de dados contêm, você pode fazer isso consultando o livro de códigos. Além de encontrar as variáveis desejadas para sua análise, você precisa saber o nome da variável id. Uma variável de id é uma variável que é exclusiva de um caso (observação) no conjunto de dados. Para um determinado indivíduo, o id deve ser o mesmo em todos os conjuntos de dados. Isso permitirá que você combine os dados de diferentes conjuntos de dados com a pessoa certa. Para dados de corte transversal, isso normalmente será uma única variável, em outros casos, duas ou mais variáveis são necessárias, isso é comumente visto em dados de painel onde a identificação de assunto e data ou onda são freqüentemente necessárias para identificar exclusivamente uma observação. Para que o Stata mescle os conjuntos de dados, a variável id, ou variáveis, terá que ter o mesmo nome em todos os arquivos. Além disso, se a variável for uma string em um conjunto de dados, ela também deve ser uma string em todos os outros conjuntos de dados, e o mesmo é verdadeiro para variáveis numéricas (o tipo de armazenamento específico não é importante, contanto que sejam numéricos). Depois de identificar todas as variáveis que você precisa e saber qual é a variável de identificação, você pode começar a mesclar os conjuntos de dados. Um exemplo simples Um bom primeiro passo é descrever os nossos dados. Podemos fazer isso sem realmente abrir o arquivo (isso pode ser útil se os arquivos são muito grandes), tudo o que temos a fazer é abrir o Stata e emitir o comando. O comando descrever nos dá um monte de informações úteis, para os nossos propósitos as coisas mais importantes que mostra é que o id da variável é numérico e que os dados são não ordenados (os dados devem ser classificados pela variável id ou variáveis para mesclar ). Também observamos que as variáveis que queremos deste conjunto de dados estão, de fato, no conjunto de dados. Gostaríamos de fazer isso para todos os nossos três conjuntos de dados, mas para economizar espaço bem apenas mostrar a saída de um dos conjuntos de dados. Vamos supor que os conjuntos de dados são todos unsorted e que a variável id tem o mesmo nome (id) em todos os três conjuntos de dados. Como os conjuntos de dados não são classificados, precisamos abrir cada conjunto de dados, classificá-lo e salvar o conjunto de dados ordenado. Embora possamos usar os dados de um site facilmente dentro do Stata, não podemos salvá-lo lá. Portanto, note que todos os comandos de uso puxam conjuntos de dados do nosso site, mas salve-os no diretório d: dados no computador do usuário. A sintaxe abaixo abre cada conjunto de dados, classifica-o por id e salva-o em um novo local com um novo nome. Se o conjunto de dados já estivesse no nosso computador, poderíamos salvá-lo no mesmo local e, possivelmente, mesmo sob o mesmo nome (substituindo o conjunto de dados antigo), essa é a escolha dos usuários. Em seguida, nós realmente mesclar os conjuntos de dados. O comando de mesclagem mescla as observações correspondentes do conjunto de dados atualmente na memória (chamado de conjunto de dados mestre) com as de um conjunto de dados Stata diferente (chamado de conjunto de dados) em observações únicas. Supondo que temos data3 aberto a partir da execução da sintaxe acima, que será o nosso conjunto de dados mestre. A primeira linha de sintaxe abaixo mescla os dados. Diretamente após o comando de mesclagem é o nome da variável (ou variáveis) que servem variáveis de identificação, neste caso id. Em seguida é o argumento usando isso diz Stata que estamos feito listando as variáveis de id, e que o que se segue são os dataset (s) a ser mesclado. Os nomes são listados, com apenas espaços (sem vírgulas, etc.) entre eles. (Observe se os nomes ou caminhos de seus conjuntos de dados incluem espaços, certifique-se de colocá-los entre aspas, ou seja.) A próxima linha de sintaxe salva nosso novo conjunto de dados mesclado. Observe que mesclar não produz saída. Agora podemos dar uma olhada em nosso conjunto de dados recentemente mesclado. Na saída acima vemos o número de casos (200), que está correto. Isso é importante, pois os problemas com o processo de mesclagem geralmente resultam em poucos casos, ou mais frequentemente muitos, no conjunto de dados mesclado. Também vemos uma lista das variáveis, que inclui todas as variáveis que queremos. O conjunto de dados mesclado contém três variáveis extras. Essas novas variáveis são mesclagem. Merge1 e merge2. A mesclagem de comando sempre gerará pelo menos uma variável adicional denominada mesclar. Quando vários arquivos são especificados no uso. O comando produzirá variáveis de mesclagem adicionais, uma para cada um dos conjuntos de dados na lista using (no nosso caso, merge1 e merge2). Essas variáveis nos dizem onde cada observação no conjunto de dados veio, isso é útil como uma verificação de que seus dados fundiram corretamente. Às vezes, uma observação não estará presente em um determinado conjunto de dados, isso não significa necessariamente que algo deu errado no processo de mesclagem, mas este é outro lugar onde muitas vezes pode obter pistas sobre o que poderia ter dado errado no processo de mesclagem. Como neste exemplo todos os conjuntos de dados incluem todos os casos, e porque a mesclagem foi como deveria, as variáveis de mesclagem arent muito interessante. Vamos discutir essas variáveis em maior detalhe abaixo, quando lidamos com conjuntos de dados onde nem todos os casos estão presentes em todos os conjuntos de dados. Eliminando variáveis indesejadas Não é incomum descobrir que um conjunto de dados grande contém muitas variáveis que você não vai usar em sua análise. Você pode apenas deixar essas variáveis em seus conjuntos de dados quando você mesclá-los juntos, no entanto, existem várias razões que você pode não querer fazer isso. Primeiro, há um limite no número de variáveis que o Stata pode manipular. Em Small Stata o limite é 99, em Stata / IC o limite é 2.047 e em Stata / SE e Stata / MP o limite é 32.767. Estes limites podem ver alto, mas se você mesclar vários conjuntos de dados, cada um com um grande número de variáveis, você pode exceder o limite para o seu tipo de Stata. A segunda razão pela qual você pode não querer deixar variáveis desnecessárias no seu conjunto de dados é que cada variável na memória usa recursos adicionais do sistema. Algumas variáveis extras não vão prejudicar nada, mas se você tiver um grande número de variáveis indesejadas, você pode estar desperdiçando recursos do sistema. Abaixo apresentamos vários métodos de eliminação de variáveis extras. Uma opção é que quando você abre os conjuntos de dados para classificá-los, você também pode eliminar as variáveis que você não planeja usar. Dependendo se é mais fácil listar as variáveis que você deseja que você planeja usar em sua análise, ou listar as variáveis que você não precisa, você pode usar os comandos keep or drop. Há pelo menos uma opção adicional, você pode abrir os conjuntos de dados colocando apenas as variáveis que você precisa na memória. Se eu tiver um conjunto de dados contendo um número de variáveis, mas as únicas variáveis que eu preciso dele são id e ler. Posso adicionar nomes de variáveis ao meu comando de uso como mostrado na primeira linha de sintaxe abaixo. Isso é particularmente útil com arquivos muito grandes que exigem muita memória para abrir. Depois de ter aberto o subconjunto desejado de variáveis, tudo o que você precisa fazer é salvar o subconjunto de dados sob um novo nome. No exemplo acima, dataset2 continha as seguintes variáveis: id, read, write, math, science e socst. Suponha que a minha análise requer apenas as variáveis ler e escrever. As únicas variáveis do dataset2 que são necessárias são aquelas duas e a variável id para mesclar os dados com outro conjunto de dados. Abaixo estão exemplos do mesmo tipo de preparação de dados feita acima, utilizando cada uma das técnicas descritas. Estas técnicas são equivalentes, na medida em que produzem o mesmo resultado final. A eficiência de cada técnica varia dependendo da situação. Usando keep para selecionar variáveis: Usando drop para remover variáveis indesejadas: Abrindo um subconjunto de dados: As variáveis de mesclagem As variáveis de mesclagem criadas pelo comando de mesclagem são fáceis de perder, mas são muito importantes. Conforme discutido acima, eles nos dizem de que dataset (s) cada caso veio. Isso é importante porque muitos valores provenientes de apenas um conjunto de dados podem sugerir um problema no processo de mesclagem. No entanto, não é incomum que alguns casos estejam em um conjunto de dados, mas não outro. No painel de dados isso pode ocorrer quando um determinado respondente não participou em todas as ondas do estudo. Também pode ocorrer por várias outras razões. Por exemplo, uma respondente feminina pode aparecer no subconjunto dos dados com informações demográficas, mas estar completamente ausente do subconjunto de dados com informações sobre as mulheres entrevistadas, porque ela não tem filhos. Como os casos que não estão presentes em todos os conjuntos de dados não são necessariamente um problema, para que as informações em variáveis de mesclagem sejam úteis, você precisa saber o que esperar se os conjuntos de dados se fundirem corretamente. No exemplo acima, onde os mesmos 200 casos apareceram em três conjuntos de dados eu esperaria ver 200 casos, todos os quais vieram de todos os três conjuntos de dados. Se houver alguns casos faltando em alguns dos conjuntos de dados, então eu esperaria ver um certo número de casos que não vêm de todos os conjuntos de dados, mas eu ainda preciso ter certeza de que não há muitos que vêm de apenas alguns dos Conjuntos de dados. Tendo muitos ou todos os casos em seu conjunto de dados mesclado vir de um, ou apenas alguns dos datasets youve mesclado é um sinal de que a variável id não corresponde corretamente entre datasets. Isso é particularmente comum quando a variável id é uma string. Abaixo examinamos um conjunto de dados após a fusão para ver se tudo correu como esperado. A saída abaixo mostra o arquivo descrever para um conjunto de dados data1m. dta, se olharmos para o número de observações (obs) vemos que o conjunto de dados contém apenas 197 casos, mas sabemos que o estudo global incluiu 200 casos, por isso sabemos que lá São três casos faltando inteiramente de dados1m. Esta é uma informação importante se vamos interpretar corretamente as variáveis de mesclagem posteriormente. Finalmente, classificamos os dados e os guardamos com um novo nome. Para economizar espaço, não mostraremos a saída para os outros dois conjuntos de dados (o código aparece abaixo caso você queira executá-lo). Suponha que quando executamos descrevemos em data2m e data3m descobrimos que eles também estão faltando casos. O conjunto de dados data2m contém 196 observações eo dataset3m contém 197. É possível que alguns desses casos faltem em todos os três conjuntos de dados (ou seja, as observações que faltam se sobrepõem entre os conjuntos de dados), mas também é possível que todas as 200 observações ocorram em pelo menos uma das Conjuntos de dados. Vamos descobrir uma vez que nós fundir os dados. Depois de examinarmos e classificarmos os conjuntos de dados, podemos fundí-los. A sintaxe abaixo faz isso, observe que o comando é o mesmo que no primeiro exemplo. Por padrão, o Stata permitirá que os casos venham de qualquer um dos três conjuntos de dados. Existem opções que lhe permitem controlar quais conjuntos de dados os casos vêm, você pode descobrir sobre eles, digitando help merge (sem as aspas) no Stata. Como antes, o comando de mesclagem criou três novas variáveis de mesclagem. Merge1. E merge2. A intercalação de variáveis fornece informações sobre quais os casos que estavam presentes no conjunto de dados mestre, ele assume um dos três valores: A observação está presente apenas no dataset principalEm Stata, como faço para mesclar dois conjuntos de dados Para mesclar dois conjuntos de dados no Stata, primeiro Classificar cada conjunto de dados sobre as variáveis-chave sobre as quais a fusão será baseada. Em seguida, use o comando. merge seguido por uma lista de variáveis-chave e conjunto (s) de dados. No Stata versão 11 e posterior: mesclagem 1: 1 varlist usando nome de arquivo, opções Se você estiver usando Stata versão 10 ou mais antigo, omita a especificação 1: 1. As observações em cada conjunto de dados devem ser exclusivas na fusão de correspondência um-para-um. Suponha que temos duas variáveis-chave id e nome em dois conjuntos de dados stat e math. O código a seguir classifica e salva o conjunto de dados estatísticos e, em seguida, classifica o conjunto de dados matemáticos. Em seguida, enquanto o conjunto de dados de matemática ainda está na memória, ele mescla (usando o conjunto de dados estatísticos) nas variáveis de chave id e name: Se dois conjuntos de dados compartilharem variáveis além das variáveis-chave, use a opção update para substituir valores ausentes em O arquivo mestre (na memória) com os valores não faltantes correspondentes no arquivo secundário. Use, update replace para substituir os valores não faltantes no arquivo mestre com os valores não faltantes correspondentes no arquivo secundário. Para usar o menu drop-down no Stata versão 11 e posterior: Dados gt Combinar conjuntos de dados gt Fundir dois conjuntos de dados Se você tiver dúvidas sobre o uso de software estatístico e matemático na Universidade de Indiana, entre em contato com o Research Analytics. O Research Analytics está localizado no campus da IU Bloomington na Woodburn Hall 200 funcionários estão disponíveis para consulta de segunda a sexta-feira, das 9h às 12h e mediante marcação.
No comments:
Post a Comment