Saturday 11 November 2017

Manipolazione Dei Dati Nel Forex Stata


Im attualmente utilizzando un campione di 10 un grande insieme di dati (10 Vars, oltre 300 file) che ammonta a più di 200 GB di dati, se conservati in. dta formato per l'intero set di dati. Stata è in grado di gestire operazioni come Egen, collasso, fusione, ecc in un ragionevole lasso di tempo per il campione 10 quando si utilizza Stata-MP su un server UNIX con 50G di RAM e core multipli. Tuttavia, ora voglio passare ad analizzare l'intero campione. Anche se io uso una macchina che ha RAM sufficiente per contenere il set di dati, semplicemente generando una variabile prende le età. (Penso che forse le operazioni in background stanno causando Stata a correre in Mem virtuale) Il problema è anche molto suscettibili di parallelizzazione, vale a dire le righe nel set di dati sono indipendenti l'uno dall'altro, in modo da poter altrettanto facilmente pensare a quella grande insieme di dati come 100 set di dati più piccoli. Qualcuno ha qualche suggerimento su come processanalyze tali dati o mi può dare un feedback su alcuni suggerimenti che attualmente hanno Io uso soprattutto StataSASMATLAB così forse ci sono altri approcci che io sono semplicemente a conoscenza. Ecco alcune delle mie idee correnti: Dividere l'insieme di dati fino a set di dati più piccoli e utilizzare l'elaborazione parallela informale Stata. Posso eseguire il mio cleaningprocessinganalysis su ogni partizione e quindi unire i risultati dopo senza avere il negozio tutte le parti intermedie. Utilizzare SQL per memorizzare i dati e anche eseguire alcune delle operazioni di manipolazione dati quali aggregare oltre certi valori. Una preoccupazione è che alcuni compiti che Stata in grado di gestire abbastanza facilmente come confrontare i valori attraverso il tempo solito funzionano così bene in SQL. Inoltre, Im già incorrere in problemi di prestazioni durante l'esecuzione di alcune query in SQL su un campione di 30 dei dati. Ma forse io non sono l'ottimizzazione per l'indicizzazione correttamente, ecc Inoltre, Shard-Query sembra che potrebbe aiutare con questo, ma non ho troppo a fondo ancora ricercato esso. R sembra promettente, ma non sono sicuro se sarebbe risolvere il problema di lavorare con questa enorme quantità di dati. Dal momento che si ha familiarità con Stata c'è una FAQ ben documentato su grandi insiemi di dati in Stata Trattare con set di dati di grandi dimensioni. si potrebbe trovare questo utile. Vorrei pulire via le colonne, dividendo quelli up, in esecuzione alcuna routine di pulizia specifici e si fondono nel più tardi. A seconda delle risorse della macchina, si dovrebbe essere in grado di tenere le singole colonne in più file temporanei utilizzando tempfile. Avendo cura di selezionare solo le variabili o colonne più rilevanti per l'analisi dovrebbe ridurre le dimensioni del vostro set di un bel po '. risposto 22 novembre 13 alle 7:10 Shouldn39t link si parla punto a questa pagina. ndash Radek 22 novembre 13 alle 11:25 assolutamente ragione, stupido me, copiare pasticcio di pasta lassù ndash D3L 23 novembre 13 a 12:29 Grazie D3L. Il problema qui è che sto facendo funzionare un certo codice di manipolazione dei dati che richiede l'interazione tra le colonne. Dividere le righe up è una possibile soluzione, ma è abbastanza ingombrante per il compito che sto eseguendo. ndash user3018549 26 13 novembre alle 15: 40Stata: Analisi dei dati e del software statistico 1. Lettura e l'inserimento dei dati Come si collega ad un database utilizzando un plugin Stata Come faccio a esportare le tabelle da Stata Perché ricevo righe di dati mancanti quando ho uso infile Come posso convertire altri file pacchetti di file di dati in formato Stata Come faccio a impostare un nome di origine dati ODBC per Stata in Windows Come faccio a impostare un nome di origine dati ODBC per Stata su Mac o LinuxUnix Stata sta leggendo nei miei variabili come stringa invece che numerico. Cosa devo fare Come faccio a convertire le variabili di data in Stata trascorso date in cui i numeri corrono insieme, come ldquo4151999rdquo Come faccio ad avere le informazioni da Excel in Stata Come uso infile a leggere i dati in formato fisso può infile leggere in un set di dati gerarchica 2. la combinazione di set di dati come elaborare grandi insiemi di dati in Stata 3. utilizzo della memoria Quanto grande sarà il mio set di dati è 4. manipolazione dei dati 4.1 creazione variabile Come posso assaggiare cluster. non individui Come posso identificare primi e gli ultimi avvenimenti sistematicamente dati panel. Come faccio a trattare con un rapporto di valori di tempo ripetuti all'interno del pannello. Come posso creare le variabili che contengono riepiloghi per cento Come faccio a generare una variabile che contiene l'ultimo di più date Come faccio a dividere una variabile di tipo stringa in parti ciò che è vero e falso in Stata Come faccio a calcolare misure quali per cento migliorata meno per cento deteriorata Come fare creo le variabili per le singole proprietà individuali degli altri membri di un gruppo come creo singoli identificatori numerate da 1 verso l'alto Come si crea una registrazione variabile se tutti i membri di un gruppo (o di tutti i membri di un gruppo) possiedono alcune caratteristiche Come faccio a creare variabili dummy 4,2 scorciatoie Come faccio a eseguire operazioni elemento per elemento su matrici Come posso elencare. far cadere . e tenere una serie consecutiva di variabili senza digitare i nomi singolarmente Posso applicare l'etichetta valori comando a più di una variabile, allo stesso tempo voglio attaccare le stesse etichette dei valori a diverse variabili. 4.3 risultati Puzzling Quante cifre significative ci sono in un galleggiante Perché la funzione MOD (x, y) a volte danno sconcertante risultati Perché mod (0,3, 0,1) non è uguale a 0 Perché canrsquot confrontare due valori che conosco sono uguali Perché è xgt1000 vero quando x contiene valori mancanti Perché il mio do-file o ado-file di produrre risultati diversi ogni volta che lo eseguo 4.4 Dataset manipolazione Come posso convertire i miei codici ICD-9 da un tipo stringa in un tipo numerico Come faccio a controllare una variabile per una serie di codici di diagnosi o di procedura Come faccio a etichettare la mia diagnosi o procedura codici con la loro descrizione Come faccio a calcolare il valore massimo o minimo visto finora in una sequenza Quali sono le espressioni regolari e come posso utilizzarli in Stata Come fare i rimuovere iniziali o finali zeri da variabili stringa Come faccio a passare attraverso i gruppi di una variabile in ordine di prima occorrenza nel set di dati Come posso cadere magie di valori mancanti all'inizio e alla fine dei dati panel c'è un modo per dire Stata per provare tutti i valori di una particolare variabile in un'istruzione foreach senza specificare li voglio calcolare una variabile che contiene le statistiche di riepilogo gruppo ponderati. ma io non voglio comprimere i dati e egen non supporta pesi. Come posso fare questo Come faccio a trattare con più risposte Come posso crollare il mio set di dati e mantenere le stesse etichette delle variabili Come faccio a individuare percorsi di osservazioni consecutive a dati panel Come faccio a selezionare un sottoinsieme di osservazioni utilizzando un criterio complicata Come posso salvare una o più parti di un grande insieme di dati Come si fa a definire in modo efficace le caratteristiche di gruppo nei dati al fine di creare sottoinsiemi Come si esegue più operazioni su record di dati se una condizione è soddisfatta sto avendo problemi con il comando rimodellare. Puoi dare ulteriori indicazioni Come posso produrre un set di dati in base a tutte le possibili coppie di identificatori all'interno di ogni gruppo perché pretende molto il comando destring in Stata includono un'opzione di codifica Come posso creare un set di dati (matrice) di mezzi (altre statistiche) delle variabili da il set di dati corrente Come faccio a implementare ARRAY SAS-come in Stata 4.5 valori o osservazioni sostituzione Come posso sostituire i valori mancanti con valori non mancanti precedenti o seguenti oa sequenze Come posso sostituire l'osservazione di una variabile con una osservazione diverso per un'altra variabile 5 . I dati di segnalazione Come faccio a calcolare il numero di valori distinti visto finora Come faccio a contare il numero di stringhe distinte attraverso un insieme di variabili Come si calcola il numero di osservazioni distinte Come faccio a catalogare le frequenze cumulative Come posso elencare osservazioni un gruppo che si differenziano su una variabile c'è un modo per mettere zeri iniziali in uscita Come posso produrre una tabulazione di una variabile stringa che è elencato nella logica piuttosto che ordine alfabetico c'è un modo diretto per salvare in una nuova variabile delle frequenze ottenute applicando il comando tabulate Come identifico vicini di punti o aree su una griglia rettangolare in Stata Come identifico anni bisestili in Stata Perché mi appare un messaggio di errore che vi sia spazio su disco insufficiente Come posso mettere la data e l'ora correnti nei miei file di log Come posso accumulare i risultati dei comandi immediati Perché il comando lamentano che non ci sono osservazioni 7. domande frequenti relative rilascio prima Stata 14 Perché ottengo il numero di errore ldquowrong di valuesrdquo quando uso insheet per leggere i dati da Excel posso usare ODBC per scrivere in un Excel esistente file ogni mattina devo impostare la mia dimensione della memoria, per esempio, 20m. L'impostazione predefinita, 1m, non è sufficiente per i miei dati. C'è un modo di cambiare l'impostazione Perché ricevo il messaggio di errore ldquo spazio per aggiungere ulteriori osservazioni rdquo come posso usare un set di dati che è più grande della RAM disponibile Come posso applicare il valore originale e etichette delle variabili dopo aver usato il default rimodellare comando Perché la mia unione produce un insieme di dati con un numero eccessivo di osservazioni c'è un modo per dire Stata per provare tutti i valori di una particolare variabile in un'istruzione for senza specificare li Come identifico osservazioni duplicate in miei dati Come posso convertire altri pacchetti file di dati in formato Stata file Cosa devo fare se il comando ho bisogno non può essere usato con by Come si crea una variabile che contiene una sequenza ripetuta di numeri Qual è il nuovo comando rimodellare Perché non rimodellare dare un troppo-molti-variabili errore Perché ricevo un messaggio che non c'è spazio sul mio disco rigido

No comments:

Post a Comment