Skip to content

Instantly share code, notes, and snippets.

@khalman-m
Last active December 16, 2015 22:08
Show Gist options
  • Select an option

  • Save khalman-m/218e820cfccf6cea0b84 to your computer and use it in GitHub Desktop.

Select an option

Save khalman-m/218e820cfccf6cea0b84 to your computer and use it in GitHub Desktop.

Revisions

  1. @mishakhalman mishakhalman revised this gist Dec 16, 2015. 1 changed file with 62 additions and 0 deletions.
    62 changes: 62 additions & 0 deletions Statistics project.ipynb
    Original file line number Diff line number Diff line change
    @@ -10,6 +10,59 @@
    "Задание состоит в том, чтобы по одномерной выборке посчитать среднее значение (медиану), вместе с соответствующими доверительными интервалами, а затем проверить результат на отложенных данных."
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "## Описание статистических методов, использованных в решении:\n",
    "\n",
    "Общий метод проверки гипотез состоит в том, чтобы посчитать по выборке статистику $T(X)$ и сравнить её значение с квантилью распределения статистики в зависимости от уровня значимости.\n",
    "\n",
    "### Student's t-test\n",
    "\n",
    "https://en.wikipedia.org/wiki/Student%27s_t-test\n",
    "\n",
    "Семейство статистических тестов, для проверки равенства средних, в которых статистика имеет распределение Стьюдента.\n",
    "\n",
    "Выделяют:\n",
    "#### Одновыборочный тест о проверке равенства среднего заданной константе $\\mu_0$\n",
    "\n",
    "**Тестовая статистика:**\n",
    "$$ t = \\frac{\\bar{X} - \\mu_0}{s / \\sqrt{n}} $$\n",
    "\n",
    "В предположениях нормальности выборки $X$ статистика имеет распределение Стьюдента c $n-1$ степенями свободы. Гипотеза $H_0$ о равенстве отвергается, если значение статистики $|t| > u_{1-\\alpha/2}$, где $u_q$ - $q$-квантиль распределения стьюдента, а $\\alpha$ --- уровень значимости.\n",
    "\n",
    "#### Двувыборочный тест о проверке равенства средних для двух выборок.\n",
    "\n",
    "**Тестовая статистика:**\n",
    "$$ t = \\frac{\\bar{X} - \\mu_0}{\\tilde{s}}$$\n",
    "\n",
    "Где $\\tilde{s}$ определённым образом определяется в зависимости от того, отличаются или совпадают размеры или дисперсии выборок.\n",
    "\n",
    "В предположениях нормальности выборки $X$ статистика имеет распределение Стьюдента. Гипотеза $H_0$ о равенстве отвергается, если значение статистики $|t| > u_{1-\\alpha/2}$, где $u_q$ - $q$-квантиль распределения стьюдента, а $\\alpha$ --- уровень значимости.\n",
    "\n",
    "\n",
    "### Mann Whitney U test\n",
    "\n",
    "https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test\n",
    "\n",
    "Непараметрический аналог двувыборочного t-теста. Отвергает гипотезу о том, что две выборки пришли из одного распределения. Главное отличие состоит в том, что тест не предполагает нормальности выборок. \n",
    "\n",
    "Тестовая статистика считается опредёлнным суммированием рангов (порядковых индексов в отсортированной выборке, полученной смешением двух выборок). \n",
    "\n",
    "### Shapiro-Wilk test\n",
    "\n",
    "https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test\n",
    "\n",
    "Тест, отвергающий нормальность выборки.\n",
    "\n",
    "### Chi-squared test\n",
    "\n",
    "https://en.wikipedia.org/wiki/Chi-squared_test\n",
    "\n",
    "Тест, отвергающий принадлежность выборки определённому семейству распределений. Тестовая статистика считает отклонения эмпирического распределения от теоретического и имеет распределение Хи-квадрат."
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    @@ -842,6 +895,15 @@
    "3. Проверка нормальности дискретных данных \n",
    " * http://blog.minitab.com/blog/quality-data-analysis-and-statistics/assumptions-and-normality"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": null,
    "metadata": {
    "collapsed": true
    },
    "outputs": [],
    "source": []
    }
    ],
    "metadata": {
  2. @mishakhalman mishakhalman revised this gist Dec 16, 2015. 1 changed file with 4 additions and 60 deletions.
    64 changes: 4 additions & 60 deletions Statistics project.ipynb
    Original file line number Diff line number Diff line change
    @@ -777,50 +777,6 @@
    "print 'p-value= %e' % p_value"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 23,
    "metadata": {
    "collapsed": false
    },
    "outputs": [
    {
    "data": {
    "text/plain": [
    "220"
    ]
    },
    "execution_count": 23,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "siblings.size"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 24,
    "metadata": {
    "collapsed": false
    },
    "outputs": [
    {
    "data": {
    "text/plain": [
    "66"
    ]
    },
    "execution_count": 24,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "ho_siblings.size"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    @@ -830,28 +786,16 @@
    },
    {
    "cell_type": "code",
    "execution_count": 25,
    "execution_count": 27,
    "metadata": {
    "collapsed": false
    },
    "outputs": [
    {
    "data": {
    "text/plain": [
    "([<matplotlib.axis.XTick at 0x10357b5d0>,\n",
    " <matplotlib.axis.XTick at 0x103d36a90>],\n",
    " <a list of 2 Text xticklabel objects>)"
    ]
    },
    "execution_count": 25,
    "metadata": {},
    "output_type": "execute_result"
    },
    {
    "data": {
    "image/png": "iVBORw0KGgoAAAANSUhEUgAAAWwAAAFwCAYAAACci0FZAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAEvtJREFUeJzt3H+MZXV9xvHnKUNs6AqzNA1bK+WaNhhtrdNajCB071aa\nEIuISZOGtNHR/tF/VoGmBoxJGdJogcaWVmpMm66ztGIb0WyCNUW0HGKK1Vp2gSKVtslaqgEUdv2R\nRoH10z/m7u7scmd2995zv+f7Off9SsA5d+5dP5779dkzz7nzdUQIAFC/H+l6AADAySGwASAJAhsA\nkiCwASAJAhsAkiCwASCJTQPb9i7bT9p+eN1jf2z7UdsP2v6k7bNmPyYA4ERX2B+RdNlxj31G0s9F\nxKslPSbpPbMYDABwrE0DOyI+L+nAcY/dExE/HB1+UdJLZzQbAGCdaTvsd0j6dBuDAAA2N3Fg236v\npGcj4o4W5wEAbGBhkhfZXpb0Rklv2OQ5bFICABOICI97/JQD2/Zlkt4taXtEfP8E/6Wn+sdjAysr\nK1pZWel6DOAFWJvtssdmtaQTf6zvY5Lul/Ry24/bfoekD0raIuke23ttf6jNYTHe/v37ux4BGIu1\nWc6mV9gRcdWYh3fNaBYAwCb4TccklpeXux4BGIu1WY5n1TPbDjpsADg1tje86cgVdhJN03Q9AjAW\na7McAhsAkqASAYCKUIkAQA8Q2EnQE6JWrM1yCGwASIIOGwAqQocNAD1AYCdBT4hasTbLIbABIAk6\nbACoCB02APQAgZ0EPSFqxdosh8AGgCTosAGgInTYANADBHYS9ISoFWuzHAIbAJKgwwaAitBh98Ct\nt3Y9AYCuEdhJrK42XY8AjEWHXQ6BDQBJ0GFX7NZbpT171r6+7z5p+/a1r6+8Urrmmu7mAjA7m3XY\nBHYSw6HET55A/3HTsQcOHmy6HgEYiw67HAI7iYsv7noCAF2jEgGAilCJAEAPENhJ0BOiVqzNcghs\nAEiCDhsAKkKHDQA9QGAnQU+IWrE2yyGwASAJOmwAqAgdNgD0AIGdBD0hasXaLIfABoAk6LABoCJ0\n2ADQAwR2EvSEqBVrsxwCGwCSoMMGgIrQYQNADxDYSdATolaszXI2DWzbu2w/afvhdY+dbfse24/Z\n/oztxdmPCQDYtMO2fYmk70m6PSJeNXrsFknfiohbbF8naWtEXD/mtXTYAHCKJu6wI+Lzkg4c9/AV\nknaPvt4t6cqpJwQAnNAkHfY5EfHk6OsnJZ3T4jzYAD0hasXaLGeqm46jzoPeAwAKWJjgNU/a3hYR\nT9j+SUlPbfTE5eVlDQYDSdLi4qKWlpY0HA4lHf1bmeOTOz78WC3zcMzx4ePhcFjVPNmOm6bR6uqq\nJB3Jy42c8BdnbA8k3XXcTcenI+Jm29dLWuSmIwC0Y+KbjrY/Jul+SS+3/bjtt0u6SdKv2X5M0q+O\njjFjh/9GBmrD2ixn00okIq7a4FuXzmAWAMAm2EsEACrCXiIA0AMEdhL0hKgVa7McAhsAkqDDBoCK\n0GEDQA8Q2EnQE6JWrM1yCGwASIIOGwAqQocNAD1AYCdBT4hasTbLIbABIAk6bACoCB02APQAgZ0E\nPSFqxdosh8AGgCTosAGgInTYANADBHYS9ISoFWuzHAIbAJKgwwaAitBhA0APENhJ0BOiVqzNcghs\nAEiCDhsAKkKHDQA9QGAnQU+IWrE2yyGwASAJOmwAqAgdNgD0AIGdBD0hasXaLIfABoAk6LABoCJ0\n2ADQAwR2EvSEqBVrsxwCGwCSoMMGgIrQYQNADxDYSdATolaszXIIbABIgg4bACpChw0APUBgJ0FP\niFqxNsshsAEgCTpsAKgIHTYA9ACBnQQ9IWrF2ixn4sC2/R7bj9h+2PYdtl/U5mAAgGNN1GHbHkj6\nJ0mviIgf2P57SZ+OiN3rnkOHDQCnaBYd9nckPSfpDNsLks6Q9PUJ/yycBH7qBDBRYEfEM5I+IOl/\nJH1D0sGI+Gybg+FYq6tN1yMAY9FhlzNRYNv+GUnXSBpIeomkLbZ/q8W5AADHWZjwdb8s6f6IeFqS\nbH9S0kWSPrr+ScvLyxoMBpKkxcVFLS0taTgcSjr6tzLHGx/v2ycdPLh2vHu3JDUaDIZae0r383Gc\n73jHjh3K4t577+38fJU4bppGq6urknQkLzcy6U3HV2stnC+Q9H1Jq5K+FBF/se453HRs0crK2j8A\n+q31m44R8aCk2yV9WdJDo4f/crLxcDL272+6HgEY6/DVImZv0kpEEXGLpFtanAWbWFrqegIAXWMv\nEQCoCHuJAJgZ7q2UQ2AnQU+IWt14Y9P1CHODwAaAJOiwAUzFlvi/envosAGgBwjsJOiwUa+m6wHm\nBoENYCpve1vXE8wPOmwAqAgdNgD0AIGdBB02asXaLIfABoAk6LABoCJ02ABmhr1EyiGwk6AnRK3Y\nS6QcAhsAkqDDBjAV9hJpFx02APQAgZ0EHTbq1XQ9wNwgsAFMhb1EyqHDBoCK0GH3wM6dXU8AoGsE\ndhJ33tl0PQIwFvdXyiGwASAJOuyK7dwpfepTa19/7WvSeeetfX355dJtt3U3F4DZ2azDJrCTGAyk\n/fu7ngJ4oZUV9hNpE4HdA9u2NXriiWHXYwAvYDeKGHY9Rm/wKZEeuPDCricA0DWusAFMhb1E2sUV\nNgD0AIGdBJ91Rb2argeYGwQ2gKmwl0g5dNgAUBE6bADoAQI7CTps1Iq1WQ6BDQBJ0GEDQEXosAHM\nDPuIlENgJ0FPiFrdeGPT9Qhzg8AGgCTosAFMhb1E2kWHDQA9QGAnQYeNejVdDzA3CGwAU2EvkXLo\nsAGgInTYANADBHYSdNioFWuznIkD2/ai7TttP2r7K7Zf1+ZgAIBjTdxh294t6b6I2GV7QdKPRcS3\n132fDhsATlHrHbbtsyRdEhG7JCkinl8f1gDmB3uJlDNpJfIySd+0/RHbD9j+K9tntDkYjkVPiFqx\nl0g5C1O87pck7YyIf7V9q6TrJf3B+ictLy9rMBhIkhYXF7W0tKThcCjpaAD18dge+9NMlQ7XVjWd\nP445nqfjpmm0uroqSUfyciMTddi2t0n6QkS8bHR8saTrI+Lydc+hwwbmAHuJtKv1DjsinpD0uO3z\nRw9dKumRCecDAJyEaT6H/U5JH7X9oKRfkPT+dkbCOId/hALq03Q9wNyYtMNWRDwo6YIWZwGQEHuJ\nlMNeIgBQEfYS6QE+6wqAwE6Cz7qiVtxfKYfABoAk6LCT4LOuwHygwwYwM9xfKYcr7CTsRhHDrscA\nXoC12S6usHuAz7oC4AobwFS4v9IurrABoAcI7CT4rCvq1XQ9wNwgsAFMhfsr5dBhA0BF6LB7gM+6\nAiCwk2AvEdSK+yvlENgAkAQddhJ81hWYD3TYAGaG+yvlcIWdBPs1oFaszXZxhd0DfNYVAFfYAKbC\n/ZV2cYUNAD1AYCfBZ11Rr6brAebGQtcDABjv7LOlAwe6nuLkeOwP8HXZulV65pmup5gOHTZQKbrh\ndmU5n3TYPcBnXQEQ2Emwlwhqxf2VcghsAEiCDjuJLP0b2sN73q4s55MOGwB6gMBOo+l6AGAsOuxy\nCOwk2EsEAB02UKksnWsWWc4nHTYA9ACBnQQ9IWrF2iyHwAaAJOiwgUpl6VyzyHI+6bB7gL1EABDY\nSbCXCGpFh10OgQ0ASdBhJ5Glf0N7eM/bleV80mEDQA8Q2Gk0XQ8AjEWHXQ6BnQR7iQCgwwYqlaVz\nzSLL+aTDBoAemCqwbZ9me6/tu9oaCOPRE6JWrM1ypr3CvlrSVyQl+EEDAHKbuMO2/VJJq5LeJ+n3\nIuJNx32fDhuYQpbONYss53NWHfafSnq3pB9O8WfgJLGXCICJAtv25ZKeioi9ksb+TYB2sZcIakWH\nXc7ChK+7SNIVtt8o6UclnWn79oh46/onLS8vazAYSJIWFxe1tLSk4XAo6eibzPHJHUv71DT1zMNx\nmWOprnmyH9d4Ppum0erqqiQdycuNTP05bNvbJf0+HfZsZenf0B7e83ZlOZ8lPoed4DQAQG5TB3ZE\n3BcRV7QxDDbTdD0AMNbRugGzxm86JsFeIgDYSwSoVJbONYss55O9RACgBwjsJOgJUSvWZjkENgAk\nQYcNVCpL55pFlvNJh90D7CUCgMBOgr1EUCs67HIIbABIgg47iSz9G9rDe96uLOeTDhsAeoDATqPp\negBgLDrscgjsJNhLBAAdNlCpLJ1rFlnOJx02APQAgZ0EPSFqxdosh8AGgCTosIFKZelcs8hyPumw\ne4C9RAAQ2EmwlwhqRYddDoENAEnQYSeRpX9De3jP25XlfNJhA0APENhpNF0PAIxFh13OQtcDdO3s\ns6UDB7qe4uR47A9Jddm6VXrmma6n6IeQpQTveRax7t9ZzX2HnaXXyoLz2R7OZbuynE86bADoAQI7\nCXpC1Iq1WQ6BDQBJ0GEn6bWy4Hy2h3PZriznkw4bAHqAwE6CnhC1Ym2WQ2ADQBJ02El6rSw4n+3h\nXLYry/mkwwaAHiCwk6AnRK1Ym+UQ2ACQBB12kl4rC85neziX7cpyPumwAaAHCOwk6AlRK9ZmOQQ2\nACRBh52k18qC89kezmW7spxPOmwA6AECOwl6QtSKtVkOgQ0ASdBhJ+m1suB8todz2a4s55MOGwB6\nYKLAtn2u7XttP2L7322/q+3BcCx6QtSKtVnOwoSve07StRGxz/YWSf9m+56IeLTF2QAA67TSYdve\nI+mDEfG5dY/RYc8hzmd7OJftynI+Z9ph2x5I+kVJX5z2zwIAbGyqwB7VIXdKujoivtfOSBiHnhC1\nYm2WM2mHLdunS/qEpL+NiD3jnrO8vKzBYCBJWlxc1NLSkobDoaSjb3LXx6EdkqVmNPNw9J+1He+r\nbJ6NjmP071re3+zH9tpxPe9w3uMtW44e1/L+DodDNU2j1dVVSTqSlxuZqMO2bUm7JT0dEddu8Bw6\n7DnE+Zw/vOftmkWH/XpJvy1ph+29o38um3hCAMAJ8ZuOSa4OmqY58uNUzbKcT7THbhQx7HqM3uA3\nHQGgB7jC5oqwVZzP+cN73i6usAHMzA03dD3B/CCwk+CzrqjVcNh0PcLcILABIAk6bPq3VnE+genQ\nYQNADxDYSdBho1aszXIIbABTGW2DgQLosOlcW8X5nD+85+2iwwaAHiCwk6AnRL2argeYGwQ2ACRB\nh03/1irO5/zhPW8XHTaAmWEvkXII7CTosFEr9hIph8AGgCTosOnfWsX5BKZDhw0APUBgJ0GHjVqx\nNsshsAFMhb1EyqHDpnNtFedz/vCet4sOGwB6gMBOgp4Q9Wq6HmBuLHQ9QA089ocPTGLr1q4nAPpr\n7jvsLOgJUSvWZrvosAHMDHuJlENgp9F0PQAwFnuJlENgA0ASdNhJ0BMC84EOuwfoCQEQ2EnQE6JW\n/I5AOQQ2gKmwl0g5dNgApsL9lXbRYQNADxDYSdATol5N1wPMDQI7CXpCAHTYSdATolaszXbRYQOY\nGX5HoBwCO42m6wGAsfgdgXIIbABIgg47CXpCYD7QYfcAPSEAAjsJekLUit8RKIfABjAVfkegHDps\nAFPh/kq76LABoAcmDmzbl9n+D9v/afu6NofCC9ETol5N1wPMjYkC2/Zpkm6TdJmkV0q6yvYr2hwM\nx7rppn1djwBsgLVZyqRX2K+V9F8RsT8inpP0d5Le3N5YON7ddx/segRgA6zNUiYN7J+S9Pi64/8d\nPQZgzmzf3vUE82PSwOaecHH7ux4AGGsw2N/1CHNjYcLXfV3SueuOz9XaVfYx7LGfTMGE7N1djwCM\ntXs3a7OEiT6HbXtB0lclvUHSNyR9SdJVEfFou+MBAA6b6Ao7Ip63vVPS3ZJOk/TXhDUAzNbMftMR\nANCuSTtsTMn2j0v67Ohwm6RDkr6ptRu6r42I5zd57WskvTUirp75oJhb06zR0eu3S3o2Ir4w00Hn\nCFfYFbB9g6TvRsSfrHvstIg41OFYwBHj1uhJvGZl9JoPzGywOcNeIvWw7VXbH7b9L5Jutn2B7ftt\nP2D7n22fP3ri0PZdo69XbO+yfa/t/7b9zk7/V6DPbPs1thvbX7b9j7a3jb7xLtuP2H7Q9h22z5P0\nu5Kutb3X9sXdjt4PVCJ1CUkvkXRhRITtF0u6JCIO2b5U0vsl/caY150vaYekMyV91faHuDrHDFjS\nn0t6c0R8y/ZvSnqfpN+RdJ2kQUQ8Z/vMiPiO7Q/rFK/KsTkCuz4fX7cv7aKk223/rNbC/PQxzw9J\n/zDaIuBp209JOkdrH7cE2vQiST8v6Z7R71icpqPr7CFJd9jeI2nPutfwyxgtIrDr83/rvv5DSZ+L\niLeMfsRsNnjNs+u+PiTeV8yGJT0SEReN+d6vS/oVSW+S9F7bryo62Zygw67bmTp6BfP2DZ7DFQxK\n+YGkn7D9OkmyfbrtV3rtcvunI6KRdL2ksyRtkfRdSS/uatg+IrDrs/5jO7dI+iPbD2jtx88Y87wQ\ne7ugjENau4dys+19kvZKulBra/NvbD8k6QFJfxYR35Z0l6S3jG46vr6rofuEj/UBQBJcYQNAEgQ2\nACRBYANAEgQ2ACRBYANAEgQ2ACRBYANAEgQ2ACTx/zYbNQ/3cO1fAAAAAElFTkSuQmCC\n",
    "text/plain": [
    "<matplotlib.figure.Figure at 0x10a2f9b90>"
    "<matplotlib.figure.Figure at 0x10a2eb410>"
    ]
    },
    "metadata": {},
    @@ -861,8 +805,8 @@
    "source": [
    "figure(figsize=(6, 6))\n",
    "boxplot(x=(siblings, ho_siblings), widths=0.5)\n",
    "grid(True)\n",
    "xticks([1, 2], ('Train', 'Test'))"
    "xticks([1, 2], ('Train', 'Test'))\n",
    "grid(True)"
    ]
    },
    {
  3. @mishakhalman mishakhalman created this gist Dec 16, 2015.
    924 changes: 924 additions & 0 deletions Statistics project.ipynb
    924 additions, 0 deletions not shown because the diff is too large. Please use a local Git client to view these changes.