replace newline character before word tokenization

nournia · nournia · commit a8dddd9ddc74 · 2014-11-27T14:01:01.000+03:30
diff --git a/hazm/WordTokenizer.py b/hazm/WordTokenizer.py
@@ -40,7 +40,7 @@ def tokenize(self, text):
 		['این', 'جمله', '(', 'خیلی', ')', 'پیچیده', 'نیست', '!!!']
 		"""
 
-		text = self.pattern.sub(r' \1 ', text)
+		text = self.pattern.sub(r' \1 ', text.replace('\n', ' '))
 		tokens = [word for word in text.split(' ') if word]
 		if self._join_verb_parts:
 			tokens = self.join_verb_parts(tokens)