In [1]:
from nltk.corpus.reader import TaggedCorpusReader
from nltk.tag import tnt
import pickle
In [2]:
# trainer
reader = TaggedCorpusReader('.', 'greek_training_set.pos')
train_sents = reader.tagged_sents()
In [3]:
# tester
test_reader = TaggedCorpusReader('.', 'greek_testing_set.pos')
test_sents = reader.tagged_sents()
In [4]:
tnt_tagger = tnt.TnT()
tnt_tagger.train(train_sents)
In [5]:
with open('greek_tnt_tagger.pickle', 'wb') as f:
    pickle.dump(tnt_tagger, f)
In [6]:
# evaluate() won't complete!
# tnt_tagger.evaluate(test_sents)
In [7]:
# See Greek TnT tagger in action
from nltk.tokenize import wordpunct_tokenize
In [8]:
untagged_string = 'τὴν μὲν δὴ τυραννίδα οὕτω ἔσχον οἱ Μερμνάδαι τοὺς Ἡρακλείδας ἀπελόμενοι, Γύγης δὲ τυραννεύσας ἀπέπεμψε ἀναθήματα ἐς Δελφοὺς οὐκ ὀλίγα, ἀλλ᾽ ὅσα μὲν ἀργύρου ἀναθήματα, ἔστι οἱ πλεῖστα ἐν Δελφοῖσι, πάρεξ δὲ τοῦ ἀργύρου χρυσὸν ἄπλετον ἀνέθηκε ἄλλον τε καὶ τοῦ μάλιστα μνήμην ἄξιον ἔχειν ἐστί, κρητῆρες οἱ ἀριθμὸν ἓξ χρύσεοι ἀνακέαται. ἑστᾶσι δὲ οὗτοι ἐν τῷ Κορινθίων θησαυρῷ, σταθμὸν ἔχοντες τριήκοντα τάλαντα: ἀληθέι δὲ λόγῳ χρεωμένῳ οὐ Κορινθίων τοῦ δημοσίου ἐστὶ ὁ θησαυρός, ἀλλὰ Κυψέλου τοῦ Ἠετίωνος. οὗτος δὲ ὁ Γύγης πρῶτος βαρβάρων τῶν ἡμεῖς ἴδμεν ἐς Δελφοὺς ἀνέθηκε ἀναθήματα μετὰ Μίδην τὸν Γορδίεω Φρυγίης βασιλέα. ἀνέθηκε γὰρ δὴ καὶ Μίδης τὸν βασιλήιον θρόνον ἐς τὸν προκατίζων ἐδίκαζε, ἐόντα ἀξιοθέητον: κεῖται δὲ ὁ θρόνος οὗτος ἔνθα περ οἱ τοῦ Γύγεω κρητῆρες. ὁ δὲ χρυσός οὗτος καὶ ὁ ἄργυρος τὸν ὁ Γύγης ἀνέθηκε, ὑπὸ Δελφῶν καλέεται Γυγάδας ἐπὶ τοῦ ἀναθέντος ἐπωνυμίην.'
In [10]:
untagged_tokens = wordpunct_tokenize(untagged_string)
tagged_text = tnt_tagger.tag(untagged_tokens)
In [11]:
print(tagged_text)
[('τὴν', 'P-S---FA-'), ('μὲν', 'G--------'), ('δὴ', 'G--------'), ('τυραννίδα', 'N-S---FA-'), ('οὕτω', 'D--------'), ('ἔσχον', 'V1SAIA---'), ('οἱ', 'P-S---MD-'), ('Μερμνάδαι', 'Unk'), ('τοὺς', 'P-P---MA-'), ('Ἡρακλείδας', 'Unk'), ('ἀπελόμενοι', 'Unk'), (',', 'U--------'), ('Γύγης', 'Unk'), ('δὲ', 'G--------'), ('τυραννεύσας', 'Unk'), ('ἀπέπεμψε', 'V3SAIA---'), ('ἀναθήματα', 'N-P---NN-'), ('ἐς', 'R--------'), ('Δελφοὺς', 'Unk'), ('οὐκ', 'D--------'), ('ὀλίγα', 'Unk'), (',', 'U--------'), ('ἀλλ', 'Unk'), ('᾽', 'Unk'), ('ὅσα', 'A-P---NA-'), ('μὲν', 'G--------'), ('ἀργύρου', 'N-S---MG-'), ('ἀναθήματα', 'N-P---NN-'), (',', 'U--------'), ('ἔστι', 'V3SPIA---'), ('οἱ', 'P-S---MD-'), ('πλεῖστα', 'A-P---NA-'), ('ἐν', 'R--------'), ('Δελφοῖσι', 'Unk'), (',', 'U--------'), ('πάρεξ', 'Unk'), ('δὲ', 'G--------'), ('τοῦ', 'L-S---MG-'), ('ἀργύρου', 'N-S---MG-'), ('χρυσὸν', 'N-S---MA-'), ('ἄπλετον', 'A-S---NN-'), ('ἀνέθηκε', 'Unk'), ('ἄλλον', 'A-S---MA-'), ('τε', 'G--------'), ('καὶ', 'C--------'), ('τοῦ', 'L-S---MG-'), ('μάλιστα', 'D--------'), ('μνήμην', 'N-S---FA-'), ('ἄξιον', 'A-S---MA-'), ('ἔχειν', 'V--PNA---'), ('ἐστί', 'V3SPIA---'), (',', 'U--------'), ('κρητῆρες', 'Unk'), ('οἱ', 'P-S---MD-'), ('ἀριθμὸν', 'N-S---MA-'), ('ἓξ', 'M--------'), ('χρύσεοι', 'A-P---MN-'), ('ἀνακέαται', 'Unk'), ('.', 'U--------'), ('ἑστᾶσι', 'V3PRIA---'), ('δὲ', 'G--------'), ('οὗτοι', 'A-P---MN-'), ('ἐν', 'R--------'), ('τῷ', 'L-S---MD-'), ('Κορινθίων', 'Unk'), ('θησαυρῷ', 'Unk'), (',', 'U--------'), ('σταθμὸν', 'N-S---MA-'), ('ἔχοντες', 'T-PPPAMN-'), ('τριήκοντα', 'M--------'), ('τάλαντα', 'N-P---NA-'), (':', 'Unk'), ('ἀληθέι', 'Unk'), ('δὲ', 'G--------'), ('λόγῳ', 'N-S---MD-'), ('χρεωμένῳ', 'Unk'), ('οὐ', 'D--------'), ('Κορινθίων', 'Unk'), ('τοῦ', 'P-S---MG-'), ('δημοσίου', 'Unk'), ('ἐστὶ', 'V3SPIA---'), ('ὁ', 'L-S---MN-'), ('θησαυρός', 'Unk'), (',', 'U--------'), ('ἀλλὰ', 'C--------'), ('Κυψέλου', 'Unk'), ('τοῦ', 'L-S---MG-'), ('Ἠετίωνος', 'N-S---MG-'), ('.', 'U--------'), ('οὗτος', 'A-S---MN-'), ('δὲ', 'G--------'), ('ὁ', 'L-S---MN-'), ('Γύγης', 'Unk'), ('πρῶτος', 'A-S---MNS'), ('βαρβάρων', 'A-P---MG-'), ('τῶν', 'P-P---MG-'), ('ἡμεῖς', 'P-P---MN-'), ('ἴδμεν', 'V1PRIA---'), ('ἐς', 'R--------'), ('Δελφοὺς', 'Unk'), ('ἀνέθηκε', 'Unk'), ('ἀναθήματα', 'N-P---NN-'), ('μετὰ', 'R--------'), ('Μίδην', 'Unk'), ('τὸν', 'P-S---MA-'), ('Γορδίεω', 'Unk'), ('Φρυγίης', 'A-S---FG-'), ('βασιλέα', 'N-S---MA-'), ('.', 'U--------'), ('ἀνέθηκε', 'Unk'), ('γὰρ', 'G--------'), ('δὴ', 'G--------'), ('καὶ', 'C--------'), ('Μίδης', 'Unk'), ('τὸν', 'P-S---MA-'), ('βασιλήιον', 'A-S---NA-'), ('θρόνον', 'N-S---MA-'), ('ἐς', 'R--------'), ('τὸν', 'P-S---MA-'), ('προκατίζων', 'Unk'), ('ἐδίκαζε', 'Unk'), (',', 'U--------'), ('ἐόντα', 'T-SPPAMA-'), ('ἀξιοθέητον', 'Unk'), (':', 'Unk'), ('κεῖται', 'V3SPIE---'), ('δὲ', 'G--------'), ('ὁ', 'L-S---MN-'), ('θρόνος', 'N-S---MN-'), ('οὗτος', 'A-S---MN-'), ('ἔνθα', 'D--------'), ('περ', 'G--------'), ('οἱ', 'P-S---MD-'), ('τοῦ', 'P-S---MG-'), ('Γύγεω', 'Unk'), ('κρητῆρες', 'Unk'), ('.', 'U--------'), ('ὁ', 'L-S---MN-'), ('δὲ', 'G--------'), ('χρυσός', 'N-S---MN-'), ('οὗτος', 'A-S---MN-'), ('καὶ', 'D--------'), ('ὁ', 'L-S---MN-'), ('ἄργυρος', 'N-S---MN-'), ('τὸν', 'P-S---MA-'), ('ὁ', 'L-S---MN-'), ('Γύγης', 'Unk'), ('ἀνέθηκε', 'Unk'), (',', 'U--------'), ('ὑπὸ', 'R--------'), ('Δελφῶν', 'N-P---MG-'), ('καλέεται', 'Unk'), ('Γυγάδας', 'Unk'), ('ἐπὶ', 'R--------'), ('τοῦ', 'P-S---MG-'), ('ἀναθέντος', 'Unk'), ('ἐπωνυμίην', 'Unk'), ('.', 'U--------')]