Logo bg.boatexistence.com

Какви са недостатъците на приписването на липсващи стойности със средна стойност?

Съдържание:

Какви са недостатъците на приписването на липсващи стойности със средна стойност?
Какви са недостатъците на приписването на липсващи стойности със средна стойност?

Видео: Какви са недостатъците на приписването на липсващи стойности със средна стойност?

Видео: Какви са недостатъците на приписването на липсващи стойности със средна стойност?
Видео: Херман Хесе - Играта на стъклени перли 1 част Аудио Книга 2024, Може
Anonim

Средно импутиране изкривява връзките между променливите Но средното импутиране също изкривява многовариантните връзки и засяга статистики като корелация. Например, следното извикване на PROC CORR изчислява корелацията между променливата Orig_Height и променливите Weight и Age.

Защо използването на средна стойност за липсващи данни е лоша идея?

Mean намалява дисперсията на данните Навлизайки по-дълбоко в математиката, по-малката дисперсия води до по-тесния интервал на доверие в разпределението на вероятностите[3]. Това не води до нищо друго освен да въвеждаме пристрастия към нашия модел.

Защо липсващите стойности са проблем?

Липсващите данни представляват различни проблеми. Първо, отсъствието на данни намалява статистическата мощност, което се отнася до вероятността тестът да отхвърли нулевата хипотеза, когато е невярна. Второ, загубените данни могат да причинят отклонение в оценката на параметрите. Трето, това може да намали представителността на извадките.

Защо средното вменяване е лошо?

Проблем 1: Средно импутацията не запазва връзките между променливите. Вярно е, приписването на средната стойност запазва средната стойност на наблюдаваните данни. Така че, ако данните липсват напълно произволно, оценката на средната стойност остава безпристрастна.

Трябва ли да замените липсващите данни със средната стойност?

Точки от данни за отклонения ще имат значително влияние върху средната стойност и следователно в такива случаи не се препоръчва използването на средната стойност за заместване на липсващите стойности. Използването на средни стойности за заместване на липсващи стойности може да не създаде страхотен модел и следователно да бъде изключено.

Препоръчано: