пре 1 година · f18dfa3d01
--- a/threshold.py
+++ b/threshold.py
@@ -10,8 +10,9 @@ import sklearn.metrics as metrics
 
				 from tqdm import tqdm
			
 
				 import utils.metrics as met
			
 
				 import itertools as it
			
 
				+import matplotlib.ticker as ticker
			
 
				 
			
 
				-RUN = False
			
 
				+RUN = True
			
 
				 
			
 
				 # CONFIGURATION
			
 
				 if os.getenv('ADL_CONFIG_PATH') is None:
			
@@ -46,6 +47,7 @@ def get_predictions(config):
 
				     test_set = torch.load(f'{ENSEMBLE_PATH}/test_dataset.pt') + torch.load(
			
 
				         f'{ENSEMBLE_PATH}/val_dataset.pt'
			
 
				     )
			
 
				+    print(f'Loaded {len(test_set)} samples')
			
 
				 
			
 
				     # [([model results], labels)]
			
 
				     results = []
			
@@ -87,12 +89,18 @@ def get_predictions(config):
 
				     # [(ensemble predicted class, ensemble standard deviation, true label)]
			
 
				     stdevs = []
			
 
				 
			
 
				+    # [(ensemble predicted class, ensemble entropy, true label)]
			
 
				+    entropies = []
			
 
				+
			
 
				     for result in results:
			
 
				         model_results, true_label = result
			
 
				         # Get the ensemble mean and variance with numpy, as these are lists
			
 
				         mean = np.mean(model_results, axis=0)
			
 
				         variance = np.var(model_results, axis=0)
			
 
				 
			
 
				+        # Calculate the entropy
			
 
				+        entropy = -1 * np.sum(mean * np.log(mean))
			
 
				+
			
 
				         # Calculate confidence and standard deviation
			
 
				         confidence = (np.max(mean) - 0.5) * 2
			
 
				         stdev = np.sqrt(variance)
			
@@ -112,12 +120,13 @@ def get_predictions(config):
 
				 
			
 
				         confidences.append((predicted_class, confidence, true_label, class_1, class_2))
			
 
				         stdevs.append((predicted_class, pc_stdev, true_label, class_1, class_2))
			
 
				+        entropies.append((predicted_class, entropy, true_label, class_1, class_2))
			
 
				 
			
 
				-    return results, confidences, stdevs, indv_results
			
 
				+    return results, confidences, stdevs, entropies, indv_results
			
 
				 
			
 
				 
			
 
				 if RUN:
			
 
				-    results, confs, stdevs, indv_results = get_predictions(config)
			
 
				+    results, confs, stdevs, entropies, indv_results = get_predictions(config)
			
 
				     # Convert to pandas dataframes
			
 
				     confs_df = pd.DataFrame(
			
 
				         confs,
			
@@ -127,6 +136,11 @@ if RUN:
 
				         stdevs, columns=['predicted_class', 'stdev', 'true_label', 'class_1', 'class_2']
			
 
				     )
			
 
				 
			
 
				+    entropies_df = pd.DataFrame(
			
 
				+        entropies,
			
 
				+        columns=['predicted_class', 'entropy', 'true_label', 'class_1', 'class_2'],
			
 
				+    )
			
 
				+
			
 
				     indv_df = pd.DataFrame(indv_results, columns=['class_1', 'class_2', 'true_label'])
			
 
				 
			
 
				     if not os.path.exists(V2_PATH):
			
@@ -134,10 +148,12 @@ if RUN:
 
				 
			
 
				     confs_df.to_csv(f'{V2_PATH}/ensemble_confidences.csv')
			
 
				     stdevs_df.to_csv(f'{V2_PATH}/ensemble_stdevs.csv')
			
 
				+    entropies_df.to_csv(f'{V2_PATH}/ensemble_entropies.csv')
			
 
				     indv_df.to_csv(f'{V2_PATH}/individual_results.csv')
			
 
				 else:
			
 
				     confs_df = pd.read_csv(f'{V2_PATH}/ensemble_confidences.csv')
			
 
				     stdevs_df = pd.read_csv(f'{V2_PATH}/ensemble_stdevs.csv')
			
 
				+    entropies_df = pd.read_csv(f'{V2_PATH}/ensemble_entropies.csv')
			
 
				     indv_df = pd.read_csv(f'{V2_PATH}/individual_results.csv')
			
 
				 
			
 
				 # Plot confidence vs standard deviation, and change color of dots based on if they are correct
			
@@ -147,12 +163,25 @@ incorrect_conf = confs_df[confs_df['predicted_class'] != confs_df['true_label']]
 
				 correct_stdev = stdevs_df[stdevs_df['predicted_class'] == stdevs_df['true_label']]
			
 
				 incorrect_stdev = stdevs_df[stdevs_df['predicted_class'] != stdevs_df['true_label']]
			
 
				 
			
 
				-plt.scatter(correct_conf['confidence'], correct_stdev['stdev'], color='green')
			
 
				-plt.scatter(incorrect_conf['confidence'], incorrect_stdev['stdev'], color='red')
			
 
				-plt.xlabel('Confidence')
			
 
				-plt.ylabel('Standard Deviation')
			
 
				+plot, ax = plt.subplots()
			
 
				+plt.scatter(
			
 
				+    correct_conf['confidence'],
			
 
				+    correct_stdev['stdev'],
			
 
				+    color='green',
			
 
				+    label='Correct Prediction',
			
 
				+)
			
 
				+plt.scatter(
			
 
				+    incorrect_conf['confidence'],
			
 
				+    incorrect_stdev['stdev'],
			
 
				+    color='red',
			
 
				+    label='Incorrect Prediction',
			
 
				+)
			
 
				+plt.xlabel('Confidence (Raw Value)')
			
 
				+plt.ylabel('Standard Deviation (Raw Value)')
			
 
				 plt.title('Confidence vs Standard Deviation')
			
 
				+plt.legend()
			
 
				 plt.savefig(f'{V2_PATH}/confidence_vs_stdev.png')
			
 
				+
			
 
				 plt.close()
			
 
				 
			
 
				 
			
@@ -196,32 +225,36 @@ for quantile in iter_conf:
 
				 accuracies_df = pd.DataFrame(accuracies_conf)
			
 
				 
			
 
				 # Plot the coverage
			
 
				-plt.plot(accuracies_df['percentile'], accuracies_df['accuracy'], label='Ensemble')
			
 
				+fig, ax = plt.subplots()
			
 
				+plt.plot(accuracies_df['percentile'], accuracies_df['accuracy'], 'ob', label='Ensemble')
			
 
				 plt.plot(
			
 
				     accuracies_df['percentile'],
			
 
				     [accuracy_indv] * len(accuracies_df['percentile']),
			
 
				-    label='Individual',
			
 
				-    linestyle='--',
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				 )
			
 
				-plt.xlabel('Percentile')
			
 
				+plt.xlabel('Minimum Confidence Percentile (Low to High)')
			
 
				 plt.ylabel('Accuracy')
			
 
				-plt.title('Coverage conf')
			
 
				+plt.title('Confidence Accuracy Coverage Plot')
			
 
				 plt.legend()
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				 plt.savefig(f'{V2_PATH}/coverage_conf.png')
			
 
				 plt.close()
			
 
				 
			
 
				 # Plot coverage vs F1 for confidence
			
 
				-plt.plot(accuracies_df['percentile'], accuracies_df['f1'], label='Ensemble')
			
 
				+fig, ax = plt.subplots()
			
 
				+plt.plot(accuracies_df['percentile'], accuracies_df['f1'], 'ob', label='Ensemble')
			
 
				 plt.plot(
			
 
				     accuracies_df['percentile'],
			
 
				     [f1_indv] * len(accuracies_df['percentile']),
			
 
				-    label='Individual',
			
 
				-    linestyle='--',
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				 )
			
 
				-plt.xlabel('Percentile')
			
 
				+plt.xlabel('Minimum Confidence Percentile (Low to High)')
			
 
				 plt.ylabel('F1')
			
 
				-plt.title('Coverage F1')
			
 
				+plt.title('Confidence F1 Coverage Plot')
			
 
				 plt.legend()
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				 plt.savefig(f'{V2_PATH}/coverage_f1_conf.png')
			
 
				 plt.close()
			
 
				 
			
@@ -243,37 +276,45 @@ for quantile in iter_stdev:
 
				 accuracies_stdev_df = pd.DataFrame(accuracies_stdev)
			
 
				 
			
 
				 # Plot the coverage
			
 
				+fig, ax = plt.subplots()
			
 
				 plt.plot(
			
 
				-    accuracies_stdev_df['percentile'], accuracies_stdev_df['accuracy'], label='Ensemble'
			
 
				+    accuracies_stdev_df['percentile'],
			
 
				+    accuracies_stdev_df['accuracy'],
			
 
				+    'ob',
			
 
				+    label='Ensemble',
			
 
				 )
			
 
				 plt.plot(
			
 
				     accuracies_stdev_df['percentile'],
			
 
				     [accuracy_indv] * len(accuracies_stdev_df['percentile']),
			
 
				-    label='Individual',
			
 
				-    linestyle='--',
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				 )
			
 
				-plt.xlabel('Percentile')
			
 
				+plt.xlabel('Maximum Standard Deviation Percentile (High to Low)')
			
 
				 plt.ylabel('Accuracy')
			
 
				-plt.title('Coverage Stdev')
			
 
				+plt.title('Standard Deviation Accuracy Coverage Plot')
			
 
				 plt.legend()
			
 
				 plt.gca().invert_xaxis()
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				 plt.savefig(f'{V2_PATH}/coverage_stdev.png')
			
 
				 plt.close()
			
 
				 
			
 
				 # Plot coverage vs F1 for standard deviation
			
 
				-plt.plot(accuracies_stdev_df['percentile'], accuracies_stdev_df['f1'], label='Ensemble')
			
 
				+fig, ax = plt.subplots()
			
 
				+plt.plot(
			
 
				+    accuracies_stdev_df['percentile'], accuracies_stdev_df['f1'], 'ob', label='Ensemble'
			
 
				+)
			
 
				 plt.plot(
			
 
				     accuracies_stdev_df['percentile'],
			
 
				     [f1_indv] * len(accuracies_stdev_df['percentile']),
			
 
				-    label='Individual',
			
 
				-    linestyle='--',
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				 )
			
 
				-plt.xlabel('Percentile')
			
 
				+plt.xlabel('Maximum Standard Deviation Percentile (High to Low)')
			
 
				 plt.ylabel('F1')
			
 
				-plt.title('Coverage F1 Stdev')
			
 
				+plt.title('Standard Deviation F1 Coverage Plot')
			
 
				 plt.legend()
			
 
				 plt.gca().invert_xaxis()
			
 
				-
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				 plt.savefig(f'{V2_PATH}/coverage_f1_stdev.png')
			
 
				 
			
 
				 plt.close()
			
@@ -287,5 +328,91 @@ overall_accuracy = (
 
				 overall_f1 = met.F1(
			
 
				     confs_df['predicted_class'].to_numpy(), confs_df['true_label'].to_numpy()
			
 
				 )
			
 
				+# Calculate ECE and MCE
			
 
				+conf_ece = met.ECE(
			
 
				+    confs_df['predicted_class'].to_numpy(),
			
 
				+    confs_df['confidence'].to_numpy(),
			
 
				+    confs_df['true_label'].to_numpy(),
			
 
				+)
			
 
				+
			
 
				+stdev_ece = met.ECE(
			
 
				+    stdevs_df['predicted_class'].to_numpy(),
			
 
				+    stdevs_df['stdev'].to_numpy(),
			
 
				+    stdevs_df['true_label'].to_numpy(),
			
 
				+)
			
 
				+
			
 
				+
			
 
				+print(f'Overall accuracy: {overall_accuracy}, Overall F1: {overall_f1},')
			
 
				+print(f'Confidence ECE: {conf_ece}')
			
 
				+print(f'Standard Deviation ECE: {stdev_ece}')
			
 
				+
			
 
				+
			
 
				+# Repeat for entropy
			
 
				+quantiles_entropy = entropies_df.quantile(np.linspace(0, 1, 11), interpolation='lower')[
			
 
				+    'entropy'
			
 
				+]
			
 
				+
			
 
				+accuracies_entropy = []
			
 
				+iter_entropy = it.islice(quantiles_entropy.items(), 0, None)
			
 
				+for quantile in iter_entropy:
			
 
				+    percentile = quantile[0]
			
 
				+
			
 
				+    filt = entropies_df[entropies_df['entropy'] <= quantile[1]]
			
 
				+    accuracy = (
			
 
				+        filt[filt['predicted_class'] == filt['true_label']].shape[0] / filt.shape[0]
			
 
				+    )
			
 
				+    f1 = met.F1(filt['predicted_class'].to_numpy(), filt['true_label'].to_numpy())
			
 
				+
			
 
				+    accuracies_entropy.append(
			
 
				+        {'percentile': percentile, 'accuracy': accuracy, 'f1': f1}
			
 
				+    )
			
 
				+
			
 
				+accuracies_entropy_df = pd.DataFrame(accuracies_entropy)
			
 
				+
			
 
				+# Plot the coverage
			
 
				+fig, ax = plt.subplots()
			
 
				+plt.plot(
			
 
				+    accuracies_entropy_df['percentile'],
			
 
				+    accuracies_entropy_df['accuracy'],
			
 
				+    'ob',
			
 
				+    label='Ensemble',
			
 
				+)
			
 
				+plt.plot(
			
 
				+    accuracies_entropy_df['percentile'],
			
 
				+    [accuracy_indv] * len(accuracies_entropy_df['percentile']),
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				+)
			
 
				+plt.xlabel('Maximum Entropy Percentile (High to Low)')
			
 
				+plt.ylabel('Accuracy')
			
 
				+plt.title('Entropy Accuracy Coverage Plot')
			
 
				+plt.legend()
			
 
				+plt.gca().invert_xaxis()
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				+plt.savefig(f'{V2_PATH}/coverage_entropy.png')
			
 
				+plt.close()
			
 
				+
			
 
				+# Plot coverage vs F1 for entropy
			
 
				+fig, ax = plt.subplots()
			
 
				+plt.plot(
			
 
				+    accuracies_entropy_df['percentile'],
			
 
				+    accuracies_entropy_df['f1'],
			
 
				+    'ob',
			
 
				+    label='Ensemble',
			
 
				+)
			
 
				+plt.plot(
			
 
				+    accuracies_entropy_df['percentile'],
			
 
				+    [f1_indv] * len(accuracies_entropy_df['percentile']),
			
 
				+    'xr',
			
 
				+    label='Individual (on entire dataset)',
			
 
				+)
			
 
				+plt.xlabel('Maximum Entropy Percentile (High to Low)')
			
 
				+plt.ylabel('F1')
			
 
				+plt.title('Entropy F1 Coverage Plot')
			
 
				+plt.legend()
			
 
				+plt.gca().invert_xaxis()
			
 
				+ax.xaxis.set_major_formatter(ticker.PercentFormatter(xmax=1.0))
			
 
				+plt.savefig(f'{V2_PATH}/coverage_f1_entropy.png')
			
 
				+
			
 
				+plt.close()
			
 
				 
			
 
				-print(f'Overall accuracy: {overall_accuracy}, Overall F1: {overall_f1}')