RandomAPIApp/english-left3words-distsim.tagger.props at main · OurDotNetOrganization/RandomAPIApp · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
                   model = english-left3words-distsim.tagger
                    arch = left3words,wordshapes(-1,1),distsim(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1),distsimconjunction(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorUCase),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorCNumber),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorDash),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorLetterDigitDash),rareExtractor(edu.stanford.nlp.tagger.maxent.CompanyNameDetector),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorAllCapitalized),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorUpperDigitDash),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorStartSentenceCap),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorMidSentenceCapC),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorMidSentenceCap),prefix(10),suffix(10),unicodeshapes(0),rareExtractor(edu.stanford.nlp.tagger.maxent.ExtractorNonAlphanumeric)
            wordFunction = edu.stanford.nlp.process.AmericanizeFunction
               trainFile = /u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/wsj-train.tagged.txt;/u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/ewt-train.tagged.txt;/u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/ontonotes-train.tagged.txt;/u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/craft-train.tagged.txt;/u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/english-handparsed-train.tagged.txt;/u/nlp/software/CoreNLP-models/models/english-left3words-distsim-4.1.1-v5/data/questionbank-train.tagged.txt
         closedClassTags =
 closedClassTagThreshold = 40
 curWordMinFeatureThresh = 2
                   debug = false
             debugPrefix =
            tagSeparator = _
                encoding = UTF-8
              iterations = 100
                    lang = english
    learnClosedClassTags = false
        minFeatureThresh = 2
           openClassTags =
rareWordMinFeatureThresh = 5
          rareWordThresh = 5
                  search = owlqn
                    sgml = false
            sigmaSquared = 0.0
                   regL1 = 0.75
               tagInside =
                tokenize = true
        tokenizerFactory =
        tokenizerOptions =
                 verbose = false
          verboseResults = true
    veryCommonWordThresh = 250
                xmlInput =
              outputFile =
            outputFormat = slashTags
     outputFormatOptions =
                nthreads = 1
        minWordsLockTags = 1