Increasing the robustness of deep neural networks for text classification by examining adversarial examples

Adversarial examples'' sind speziell erstellte Daten, bei denen Rauschen zu einem gegebenen Datenpunkt so hinzugefugt wird, dass ein neue Datenpunkt ersteht, welcher von neuralen Netzerken falsch kassifiziert wird. Gleichzeitig soll das Rauschen von Menschen nicht erkannt werden. In dieser Masterarbeit werden drei Expeimente durchgefuhrt mit dem Ziel, die Robustheit von neuralen Netzen zu erhohen. Im ersten Experiment wird gezeigt, dass diese adversarial examples leicht generiert werden konnen und auf andere Modelle ubertragen werden konnen. Das zweite Experiment zeigt, dass defensive distillation die Robustheit gegen adversarial examples nicht erhohen kann. Im dritten Experiment wird gezeigt, dass das Hinzufugen von adversarial examples zum Trainingsdatensatz nicht die Robustheit von neuralen Netzen insgesamt erhoht. Fur alle Experimente wurden 1-dimensionale Convolutional Neural Networks mit einer einzigen Filterschicht verwendet. Adversarial examples are specially crafted samples, where noise is added onto regular samples to make neural networks misclassify the sample despite having no detectable noise for humans. This thesis will explore adversarial examples in the text domain by conducting three experiments with the goal of increasing the robustness of neural networks. The first experiment shows that adversarial examples are easy to craft for text classification tasks and that these adversarial examples transfer between different models. The second experiment shows that defensive distillation does not increase the robustness of a model to adversarial examples. The third experiment shows that adding adversarial examples to the trainings set of a neural network will not increase the overall accuracy of that network. All neural networks tested have a simple architecture based on a single 1-dimensional convolutional layer.