grahamdaley · August 29, 2015 14:17
diff --git a/nytimes_aggregate.py b/nytimes_aggregate.py
 #!/usr/bin/python
 import pandas as pd

 df = pd.read_csv('nytimes_in.csv')
 group_cols  = ['Age', 'Gender', 'Signed_In']
 all_cols = group_cols + ['Clicks', 'Impressions']
 dfg = df[all_cols].groupby(group_cols).agg([np.mean])
 dfg['Click_Thru_Mean'] = dfg['Clicks'] / dfg['Impressions']
 dfg = dfg.drop(['Clicks', 'Impressions'], axis=1)
 dfg.to_csv('nytimes_aggregation.csv')
diff --git a/nytimes_plot.py b/nytimes_plot.py
 #!/usr/bin/python
 import pandas as pd
 import matplotlib.pyplot as plt

 # This file is output from nytimes_aggregate.py, and then header corrected by hand
 df = pd.read_csv('nytimes_agg_clean.csv')

 df.plot(figsize=(18,10), x='Signed_In', y='Click_Thrus')
 df.plot(figsize=(18,10), x='Age', y='Click_Thrus')
 df.plot(figsize=(18,10), x='Gender', y='Click_Thrus')

 plt.show()
diff --git a/nytimes_retrieve.py b/nytimes_retrieve.py
 #!/usr/bin/python
 import requests

 with open('nytimes_in.csv', 'w') as f:
  for file in range(1, 31):
    url = "http://stat.columbia.edu/~rachel/datasets/nyt{0}.csv".format(file)
    print "Retrieving:", url
    response = requests.get(url)

    if response.ok:
      lines = response.text.splitlines(True)
      for i, line in enumerate(lines):
        # Only copy the header once
        if file == 1 or i > 0:
          f.write(line)
	#!/usr/bin/python
	import pandas as pd

	df = pd.read_csv('nytimes_in.csv')
	group_cols = ['Age', 'Gender', 'Signed_In']
	all_cols = group_cols + ['Clicks', 'Impressions']
	dfg = df[all_cols].groupby(group_cols).agg([np.mean])
	dfg['Click_Thru_Mean'] = dfg['Clicks'] / dfg['Impressions']
	dfg = dfg.drop(['Clicks', 'Impressions'], axis=1)
	dfg.to_csv('nytimes_aggregation.csv')
	#!/usr/bin/python
	import pandas as pd
	import matplotlib.pyplot as plt

	# This file is output from nytimes_aggregate.py, and then header corrected by hand
	df = pd.read_csv('nytimes_agg_clean.csv')

	df.plot(figsize=(18,10), x='Signed_In', y='Click_Thrus')
	df.plot(figsize=(18,10), x='Age', y='Click_Thrus')
	df.plot(figsize=(18,10), x='Gender', y='Click_Thrus')

	plt.show()
	#!/usr/bin/python
	import requests

	with open('nytimes_in.csv', 'w') as f:
	for file in range(1, 31):
	url = "http://stat.columbia.edu/~rachel/datasets/nyt{0}.csv".format(file)
	print "Retrieving:", url
	response = requests.get(url)

	if response.ok:
	lines = response.text.splitlines(True)
	for i, line in enumerate(lines):
	# Only copy the header once
	if file == 1 or i > 0:
	f.write(line)