Last active
December 16, 2015 22:08
-
-
Save khalman-m/218e820cfccf6cea0b84 to your computer and use it in GitHub Desktop.
Revisions
-
mishakhalman revised this gist
Dec 16, 2015 . 1 changed file with 62 additions and 0 deletions.There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -10,6 +10,59 @@ "Задание состоит в том, чтобы по одномерной выборке посчитать среднее значение (медиану), вместе с соответствующими доверительными интервалами, а затем проверить результат на отложенных данных." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Описание статистических методов, использованных в решении:\n", "\n", "Общий метод проверки гипотез состоит в том, чтобы посчитать по выборке статистику $T(X)$ и сравнить её значение с квантилью распределения статистики в зависимости от уровня значимости.\n", "\n", "### Student's t-test\n", "\n", "https://en.wikipedia.org/wiki/Student%27s_t-test\n", "\n", "Семейство статистических тестов, для проверки равенства средних, в которых статистика имеет распределение Стьюдента.\n", "\n", "Выделяют:\n", "#### Одновыборочный тест о проверке равенства среднего заданной константе $\\mu_0$\n", "\n", "**Тестовая статистика:**\n", "$$ t = \\frac{\\bar{X} - \\mu_0}{s / \\sqrt{n}} $$\n", "\n", "В предположениях нормальности выборки $X$ статистика имеет распределение Стьюдента c $n-1$ степенями свободы. Гипотеза $H_0$ о равенстве отвергается, если значение статистики $|t| > u_{1-\\alpha/2}$, где $u_q$ - $q$-квантиль распределения стьюдента, а $\\alpha$ --- уровень значимости.\n", "\n", "#### Двувыборочный тест о проверке равенства средних для двух выборок.\n", "\n", "**Тестовая статистика:**\n", "$$ t = \\frac{\\bar{X} - \\mu_0}{\\tilde{s}}$$\n", "\n", "Где $\\tilde{s}$ определённым образом определяется в зависимости от того, отличаются или совпадают размеры или дисперсии выборок.\n", "\n", "В предположениях нормальности выборки $X$ статистика имеет распределение Стьюдента. Гипотеза $H_0$ о равенстве отвергается, если значение статистики $|t| > u_{1-\\alpha/2}$, где $u_q$ - $q$-квантиль распределения стьюдента, а $\\alpha$ --- уровень значимости.\n", "\n", "\n", "### Mann Whitney U test\n", "\n", "https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test\n", "\n", "Непараметрический аналог двувыборочного t-теста. Отвергает гипотезу о том, что две выборки пришли из одного распределения. Главное отличие состоит в том, что тест не предполагает нормальности выборок. \n", "\n", "Тестовая статистика считается опредёлнным суммированием рангов (порядковых индексов в отсортированной выборке, полученной смешением двух выборок). \n", "\n", "### Shapiro-Wilk test\n", "\n", "https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test\n", "\n", "Тест, отвергающий нормальность выборки.\n", "\n", "### Chi-squared test\n", "\n", "https://en.wikipedia.org/wiki/Chi-squared_test\n", "\n", "Тест, отвергающий принадлежность выборки определённому семейству распределений. Тестовая статистика считает отклонения эмпирического распределения от теоретического и имеет распределение Хи-квадрат." ] }, { "cell_type": "markdown", "metadata": {}, @@ -842,6 +895,15 @@ "3. Проверка нормальности дискретных данных \n", " * http://blog.minitab.com/blog/quality-data-analysis-and-statistics/assumptions-and-normality" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] } ], "metadata": { -
mishakhalman revised this gist
Dec 16, 2015 . 1 changed file with 4 additions and 60 deletions.There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -777,50 +777,6 @@ "print 'p-value= %e' % p_value" ] }, { "cell_type": "markdown", "metadata": {}, @@ -830,28 +786,16 @@ }, { "cell_type": "code", "execution_count": 27, "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAWwAAAFwCAYAAACci0FZAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAEvtJREFUeJzt3H+MZXV9xvHnKUNs6AqzNA1bK+WaNhhtrdNajCB071aa\nEIuISZOGtNHR/tF/VoGmBoxJGdJogcaWVmpMm66ztGIb0WyCNUW0HGKK1Vp2gSKVtslaqgEUdv2R\nRoH10z/m7u7scmd2995zv+f7Off9SsA5d+5dP5779dkzz7nzdUQIAFC/H+l6AADAySGwASAJAhsA\nkiCwASAJAhsAkiCwASCJTQPb9i7bT9p+eN1jf2z7UdsP2v6k7bNmPyYA4ERX2B+RdNlxj31G0s9F\nxKslPSbpPbMYDABwrE0DOyI+L+nAcY/dExE/HB1+UdJLZzQbAGCdaTvsd0j6dBuDAAA2N3Fg236v\npGcj4o4W5wEAbGBhkhfZXpb0Rklv2OQ5bFICABOICI97/JQD2/Zlkt4taXtEfP8E/6Wn+sdjAysr\nK1pZWel6DOAFWJvtssdmtaQTf6zvY5Lul/Ry24/bfoekD0raIuke23ttf6jNYTHe/v37ux4BGIu1\nWc6mV9gRcdWYh3fNaBYAwCb4TccklpeXux4BGIu1WY5n1TPbDjpsADg1tje86cgVdhJN03Q9AjAW\na7McAhsAkqASAYCKUIkAQA8Q2EnQE6JWrM1yCGwASIIOGwAqQocNAD1AYCdBT4hasTbLIbABIAk6\nbACoCB02APQAgZ0EPSFqxdosh8AGgCTosAGgInTYANADBHYS9ISoFWuzHAIbAJKgwwaAitBh98Ct\nt3Y9AYCuEdhJrK42XY8AjEWHXQ6BDQBJ0GFX7NZbpT171r6+7z5p+/a1r6+8Urrmmu7mAjA7m3XY\nBHYSw6HET55A/3HTsQcOHmy6HgEYiw67HAI7iYsv7noCAF2jEgGAilCJAEAPENhJ0BOiVqzNcghs\nAEiCDhsAKkKHDQA9QGAnQU+IWrE2yyGwASAJOmwAqAgdNgD0AIGdBD0hasXaLIfABoAk6LABoCJ0\n2ADQAwR2EvSEqBVrsxwCGwCSoMMGgIrQYQNADxDYSdATolaszXI2DWzbu2w/afvhdY+dbfse24/Z\n/oztxdmPCQDYtMO2fYmk70m6PSJeNXrsFknfiohbbF8naWtEXD/mtXTYAHCKJu6wI+Lzkg4c9/AV\nknaPvt4t6cqpJwQAnNAkHfY5EfHk6OsnJZ3T4jzYAD0hasXaLGeqm46jzoPeAwAKWJjgNU/a3hYR\nT9j+SUlPbfTE5eVlDQYDSdLi4qKWlpY0HA4lHf1bmeOTOz78WC3zcMzx4ePhcFjVPNmOm6bR6uqq\nJB3Jy42c8BdnbA8k3XXcTcenI+Jm29dLWuSmIwC0Y+KbjrY/Jul+SS+3/bjtt0u6SdKv2X5M0q+O\njjFjh/9GBmrD2ixn00okIq7a4FuXzmAWAMAm2EsEACrCXiIA0AMEdhL0hKgVa7McAhsAkqDDBoCK\n0GEDQA8Q2EnQE6JWrM1yCGwASIIOGwAqQocNAD1AYCdBT4hasTbLIbABIAk6bACoCB02APQAgZ0E\nPSFqxdosh8AGgCTosAGgInTYANADBHYS9ISoFWuzHAIbAJKgwwaAitBhA0APENhJ0BOiVqzNcghs\nAEiCDhsAKkKHDQA9QGAnQU+IWrE2yyGwASAJOmwAqAgdNgD0AIGdBD0hasXaLIfABoAk6LABoCJ0\n2ADQAwR2EvSEqBVrsxwCGwCSoMMGgIrQYQNADxDYSdATolaszXIIbABIgg4bACpChw0APUBgJ0FP\niFqxNsshsAEgCTpsAKgIHTYA9ACBnQQ9IWrF2ixn4sC2/R7bj9h+2PYdtl/U5mAAgGNN1GHbHkj6\nJ0mviIgf2P57SZ+OiN3rnkOHDQCnaBYd9nckPSfpDNsLks6Q9PUJ/yycBH7qBDBRYEfEM5I+IOl/\nJH1D0sGI+Gybg+FYq6tN1yMAY9FhlzNRYNv+GUnXSBpIeomkLbZ/q8W5AADHWZjwdb8s6f6IeFqS\nbH9S0kWSPrr+ScvLyxoMBpKkxcVFLS0taTgcSjr6tzLHGx/v2ycdPLh2vHu3JDUaDIZae0r383Gc\n73jHjh3K4t577+38fJU4bppGq6urknQkLzcy6U3HV2stnC+Q9H1Jq5K+FBF/se453HRs0crK2j8A\n+q31m44R8aCk2yV9WdJDo4f/crLxcDL272+6HgEY6/DVImZv0kpEEXGLpFtanAWbWFrqegIAXWMv\nEQCoCHuJAJgZ7q2UQ2AnQU+IWt14Y9P1CHODwAaAJOiwAUzFlvi/envosAGgBwjsJOiwUa+m6wHm\nBoENYCpve1vXE8wPOmwAqAgdNgD0AIGdBB02asXaLIfABoAk6LABoCJ02ABmhr1EyiGwk6AnRK3Y\nS6QcAhsAkqDDBjAV9hJpFx02APQAgZ0EHTbq1XQ9wNwgsAFMhb1EyqHDBoCK0GH3wM6dXU8AoGsE\ndhJ33tl0PQIwFvdXyiGwASAJOuyK7dwpfepTa19/7WvSeeetfX355dJtt3U3F4DZ2azDJrCTGAyk\n/fu7ngJ4oZUV9hNpE4HdA9u2NXriiWHXYwAvYDeKGHY9Rm/wKZEeuPDCricA0DWusAFMhb1E2sUV\nNgD0AIGdBJ91Rb2argeYGwQ2gKmwl0g5dNgAUBE6bADoAQI7CTps1Iq1WQ6BDQBJ0GEDQEXosAHM\nDPuIlENgJ0FPiFrdeGPT9Qhzg8AGgCTosAFMhb1E2kWHDQA9QGAnQYeNejVdDzA3CGwAU2EvkXLo\nsAGgInTYANADBHYSdNioFWuznIkD2/ai7TttP2r7K7Zf1+ZgAIBjTdxh294t6b6I2GV7QdKPRcS3\n132fDhsATlHrHbbtsyRdEhG7JCkinl8f1gDmB3uJlDNpJfIySd+0/RHbD9j+K9tntDkYjkVPiFqx\nl0g5C1O87pck7YyIf7V9q6TrJf3B+ictLy9rMBhIkhYXF7W0tKThcCjpaAD18dge+9NMlQ7XVjWd\nP445nqfjpmm0uroqSUfyciMTddi2t0n6QkS8bHR8saTrI+Lydc+hwwbmAHuJtKv1DjsinpD0uO3z\nRw9dKumRCecDAJyEaT6H/U5JH7X9oKRfkPT+dkbCOId/hALq03Q9wNyYtMNWRDwo6YIWZwGQEHuJ\nlMNeIgBQEfYS6QE+6wqAwE6Cz7qiVtxfKYfABoAk6LCT4LOuwHygwwYwM9xfKYcr7CTsRhHDrscA\nXoC12S6usHuAz7oC4AobwFS4v9IurrABoAcI7CT4rCvq1XQ9wNwgsAFMhfsr5dBhA0BF6LB7gM+6\nAiCwk2AvEdSK+yvlENgAkAQddhJ81hWYD3TYAGaG+yvlcIWdBPs1oFaszXZxhd0DfNYVAFfYAKbC\n/ZV2cYUNAD1AYCfBZ11Rr6brAebGQtcDABjv7LOlAwe6nuLkeOwP8HXZulV65pmup5gOHTZQKbrh\ndmU5n3TYPcBnXQEQ2Emwlwhqxf2VcghsAEiCDjuJLP0b2sN73q4s55MOGwB6gMBOo+l6AGAsOuxy\nCOwk2EsEAB02UKksnWsWWc4nHTYA9ACBnQQ9IWrF2iyHwAaAJOiwgUpl6VyzyHI+6bB7gL1EABDY\nSbCXCGpFh10OgQ0ASdBhJ5Glf0N7eM/bleV80mEDQA8Q2Gk0XQ8AjEWHXQ6BnQR7iQCgwwYqlaVz\nzSLL+aTDBoAemCqwbZ9me6/tu9oaCOPRE6JWrM1ypr3CvlrSVyQl+EEDAHKbuMO2/VJJq5LeJ+n3\nIuJNx32fDhuYQpbONYss53NWHfafSnq3pB9O8WfgJLGXCICJAtv25ZKeioi9ksb+TYB2sZcIakWH\nXc7ChK+7SNIVtt8o6UclnWn79oh46/onLS8vazAYSJIWFxe1tLSk4XAo6eibzPHJHUv71DT1zMNx\nmWOprnmyH9d4Ppum0erqqiQdycuNTP05bNvbJf0+HfZsZenf0B7e83ZlOZ8lPoed4DQAQG5TB3ZE\n3BcRV7QxDDbTdD0AMNbRugGzxm86JsFeIgDYSwSoVJbONYss55O9RACgBwjsJOgJUSvWZjkENgAk\nQYcNVCpL55pFlvNJh90D7CUCgMBOgr1EUCs67HIIbABIgg47iSz9G9rDe96uLOeTDhsAeoDATqPp\negBgLDrscgjsJNhLBAAdNlCpLJ1rFlnOJx02APQAgZ0EPSFqxdosh8AGgCTosIFKZelcs8hyPumw\ne4C9RAAQ2EmwlwhqRYddDoENAEnQYSeRpX9De3jP25XlfNJhA0APENhpNF0PAIxFh13OQtcDdO3s\ns6UDB7qe4uR47A9Jddm6VXrmma6n6IeQpQTveRax7t9ZzX2HnaXXyoLz2R7OZbuynE86bADoAQI7\nCXpC1Iq1WQ6BDQBJ0GEn6bWy4Hy2h3PZriznkw4bAHqAwE6CnhC1Ym2WQ2ADQBJ02El6rSw4n+3h\nXLYry/mkwwaAHiCwk6AnRK1Ym+UQ2ACQBB12kl4rC85neziX7cpyPumwAaAHCOwk6AlRK9ZmOQQ2\nACRBh52k18qC89kezmW7spxPOmwA6AECOwl6QtSKtVkOgQ0ASdBhJ+m1suB8todz2a4s55MOGwB6\nYKLAtn2u7XttP2L7322/q+3BcCx6QtSKtVnOwoSve07StRGxz/YWSf9m+56IeLTF2QAA67TSYdve\nI+mDEfG5dY/RYc8hzmd7OJftynI+Z9ph2x5I+kVJX5z2zwIAbGyqwB7VIXdKujoivtfOSBiHnhC1\nYm2WM2mHLdunS/qEpL+NiD3jnrO8vKzBYCBJWlxc1NLSkobDoaSjb3LXx6EdkqVmNPNw9J+1He+r\nbJ6NjmP071re3+zH9tpxPe9w3uMtW44e1/L+DodDNU2j1dVVSTqSlxuZqMO2bUm7JT0dEddu8Bw6\n7DnE+Zw/vOftmkWH/XpJvy1ph+29o38um3hCAMAJ8ZuOSa4OmqY58uNUzbKcT7THbhQx7HqM3uA3\nHQGgB7jC5oqwVZzP+cN73i6usAHMzA03dD3B/CCwk+CzrqjVcNh0PcLcILABIAk6bPq3VnE+genQ\nYQNADxDYSdBho1aszXIIbABTGW2DgQLosOlcW8X5nD+85+2iwwaAHiCwk6AnRL2argeYGwQ2ACRB\nh03/1irO5/zhPW8XHTaAmWEvkXII7CTosFEr9hIph8AGgCTosOnfWsX5BKZDhw0APUBgJ0GHjVqx\nNsshsAFMhb1EyqHDpnNtFedz/vCet4sOGwB6gMBOgp4Q9Wq6HmBuLHQ9QA089ocPTGLr1q4nAPpr\n7jvsLOgJUSvWZrvosAHMDHuJlENgp9F0PQAwFnuJlENgA0ASdNhJ0BMC84EOuwfoCQEQ2EnQE6JW\n/I5AOQQ2gKmwl0g5dNgApsL9lXbRYQNADxDYSdATol5N1wPMDQI7CXpCAHTYSdATolaszXbRYQOY\nGX5HoBwCO42m6wGAsfgdgXIIbABIgg47CXpCYD7QYfcAPSEAAjsJekLUit8RKIfABjAVfkegHDps\nAFPh/kq76LABoAcmDmzbl9n+D9v/afu6NofCC9ETol5N1wPMjYkC2/Zpkm6TdJmkV0q6yvYr2hwM\nx7rppn1djwBsgLVZyqRX2K+V9F8RsT8inpP0d5Le3N5YON7ddx/segRgA6zNUiYN7J+S9Pi64/8d\nPQZgzmzf3vUE82PSwOaecHH7ux4AGGsw2N/1CHNjYcLXfV3SueuOz9XaVfYx7LGfTMGE7N1djwCM\ntXs3a7OEiT6HbXtB0lclvUHSNyR9SdJVEfFou+MBAA6b6Ao7Ip63vVPS3ZJOk/TXhDUAzNbMftMR\nANCuSTtsTMn2j0v67Ohwm6RDkr6ptRu6r42I5zd57WskvTUirp75oJhb06zR0eu3S3o2Ir4w00Hn\nCFfYFbB9g6TvRsSfrHvstIg41OFYwBHj1uhJvGZl9JoPzGywOcNeIvWw7VXbH7b9L5Jutn2B7ftt\nP2D7n22fP3ri0PZdo69XbO+yfa/t/7b9zk7/V6DPbPs1thvbX7b9j7a3jb7xLtuP2H7Q9h22z5P0\nu5Kutb3X9sXdjt4PVCJ1CUkvkXRhRITtF0u6JCIO2b5U0vsl/caY150vaYekMyV91faHuDrHDFjS\nn0t6c0R8y/ZvSnqfpN+RdJ2kQUQ8Z/vMiPiO7Q/rFK/KsTkCuz4fX7cv7aKk223/rNbC/PQxzw9J\n/zDaIuBp209JOkdrH7cE2vQiST8v6Z7R71icpqPr7CFJd9jeI2nPutfwyxgtIrDr83/rvv5DSZ+L\niLeMfsRsNnjNs+u+PiTeV8yGJT0SEReN+d6vS/oVSW+S9F7bryo62Zygw67bmTp6BfP2DZ7DFQxK\n+YGkn7D9OkmyfbrtV3rtcvunI6KRdL2ksyRtkfRdSS/uatg+IrDrs/5jO7dI+iPbD2jtx88Y87wQ\ne7ugjENau4dys+19kvZKulBra/NvbD8k6QFJfxYR35Z0l6S3jG46vr6rofuEj/UBQBJcYQNAEgQ2\nACRBYANAEgQ2ACRBYANAEgQ2ACRBYANAEgQ2ACTx/zYbNQ/3cO1fAAAAAElFTkSuQmCC\n", "text/plain": [ "<matplotlib.figure.Figure at 0x10a2eb410>" ] }, "metadata": {}, @@ -861,8 +805,8 @@ "source": [ "figure(figsize=(6, 6))\n", "boxplot(x=(siblings, ho_siblings), widths=0.5)\n", "xticks([1, 2], ('Train', 'Test'))\n", "grid(True)" ] }, { -
mishakhalman created this gist
Dec 16, 2015 .There are no files selected for viewing