Riskoprofil trainingsdaten erweitert

pull/34/head
s8613 2025-04-24 14:06:49 +02:00
parent 7cf96232e9
commit 3f71189f66
15 changed files with 702 additions and 1045 deletions

File diff suppressed because it is too large Load Diff

View File

@ -46,7 +46,7 @@
"f":1.0
}
},
"tok2vec_loss":0.000000011,
"ner_loss":0.0000000457
"tok2vec_loss":0.000000029,
"ner_loss":0.0000000614
}
}

View File

@ -1 +1 @@
ĄmovesŮx{"0":{},"1":{"RISIKOPROFIL":20},"2":{"RISIKOPROFIL":20},"3":{"RISIKOPROFIL":20},"4":{"RISIKOPROFIL":20,"":1},"5":{"":1}}Łcfg<66>§neg_keyŔ
ĄmovesŮx{"0":{},"1":{"RISIKOPROFIL":45},"2":{"RISIKOPROFIL":45},"3":{"RISIKOPROFIL":45},"4":{"RISIKOPROFIL":45,"":1},"5":{"":1}}Łcfg<66>§neg_keyŔ

View File

@ -4,6 +4,8 @@
" ",
" ",
"\"",
"$",
"%",
"'",
"''",
"'-(",
@ -46,6 +48,8 @@
")/\u00af",
"):",
"*",
"+",
",",
"-",
"-((",
"-))",
@ -100,16 +104,40 @@
".\u00e4.",
"/",
"/3",
"/Core+",
"/Xxxx+",
"/core+",
"/d",
"/xxxx+",
"0",
"0%+",
"0.0",
"0.o",
"022",
"032",
"034",
"0_0",
"0_o",
"1",
"1.",
"10",
"12",
"2",
"2.",
"20",
"2022",
"2032",
"2034",
"250",
"3",
"3.",
"33",
"333",
"35",
"5",
"50",
"7",
"7,50%+",
"8",
"8)",
"8-",
@ -234,9 +262,20 @@
"Abt.",
"Abteilung",
"Add",
"Aktueller",
"Allgemeine",
"Amsterdam",
"Anlagestrategien",
"Anlagevehikels",
"Ansprechpartners",
"Antagevehikels",
"Apr",
"Apr.",
"April",
"Art",
"Assets",
"Aufl\u00f6sung",
"Aufwertung",
"Aug",
"Aug.",
"August",
@ -250,6 +289,8 @@
"Bd",
"Bd.",
"Beispiel",
"Berlin",
"Bestandsentwicklungen",
"Betr",
"Betr.",
"Betreff",
@ -271,6 +312,8 @@
"Chr.",
"Cie",
"Cie.",
"Cities",
"Closings",
"Co",
"Co.",
"Core",
@ -279,12 +322,15 @@
"D",
"D.",
"D.C.",
"Deutschland",
"Deutschlands",
"Dez",
"Dez.",
"Dezember",
"Di",
"Di.",
"Dienstag",
"Different",
"Dipl",
"Dipl.",
"Dipl.-Ing",
@ -294,9 +340,14 @@
"Donnerstag",
"Dr",
"Dr.",
"D\u00e4nemark",
"E",
"E-Mail",
"E.",
"Einw",
"Europe",
"European",
"Exit",
"F",
"F.",
"FIL",
@ -310,20 +361,28 @@
"Februar",
"Firma",
"Fond",
"Fonds",
"Fr",
"Fr.",
"Frankreich",
"Frau",
"Frl",
"Frl.",
"Fr\u00e4ulein",
"Fu\u0308hrende",
"G",
"G.",
"G.m.b",
"G.m.b.H.",
"Gateway",
"Gebr",
"Gebr.",
"Geplantes",
"Gesamtrendite",
"H",
"H.",
"Halten",
"Halten-Strategie",
"Hauptbahnhof",
"Hbf",
"Hbf.",
@ -343,13 +402,21 @@
"II.",
"III",
"III.",
"INREV",
"IRR",
"IV",
"IV.",
"Immobilien",
"Immobilien-Spezialfonds",
"Inc",
"Inc.",
"Informationen",
"Ing",
"Ing.",
"Investmentmanagers",
"J",
"Jahr",
"Jahre",
"Jahrhundert",
"Jan",
"Jan.",
@ -369,16 +436,26 @@
"K",
"K.",
"K.O.",
"Kaufen",
"Key",
"L",
"L'",
"L.A.",
"LTV",
"LTY",
"Laufzeit",
"London",
"L\u00e4nderallokation",
"L\u2019",
"M",
"M.",
"M.A.",
"M.Sc",
"M.Sc.",
"Manager",
"Maximaler",
"Mehrwertsteuer",
"Metropolregionen",
"Mi",
"Mi.",
"Milliarde",
@ -403,6 +480,9 @@
"N",
"N.Y.",
"N.Y.C.",
"Nachvermietungsstrategie",
"Name",
"Niederlande",
"Nov",
"Nov.",
"November",
@ -416,14 +496,18 @@
"O.o",
"O_O",
"O_o",
"Offen",
"Offener",
"Okt",
"Okt.",
"Oktober",
"OpCo",
"Orig",
"Orig.",
"Original",
"P",
"P.S.",
"Paris",
"Pkt",
"Pkt.",
"Prof",
@ -434,32 +518,44 @@
"R.",
"R.I.P.",
"RE",
"REV",
"RISIKOPROFIL",
"ROOT",
"Rechtsform",
"Red",
"Red.",
"Redaktion",
"Risikoprofil",
"Risk",
"S",
"S'",
"Sa",
"Sa.",
"Samstag",
"Sc.",
"Schweden",
"Sep",
"Sep.",
"Sept",
"Sept.",
"September",
"Sitz",
"Skandinavien",
"So",
"So.",
"Sonntag",
"St",
"St.",
"Standortaufwertungsstrategie",
"Standorte",
"Std",
"Std.",
"Stil",
"Str",
"Str.",
"Strategie",
"Stra\u00dfe",
"Struktur",
"Stunde",
"S\u2019",
"T",
@ -468,6 +564,7 @@
"Tel",
"Tel.",
"Telefon",
"Telefonnummer",
"The",
"Tr",
"Tr.",
@ -488,8 +585,12 @@
"Value",
"Vol",
"Vol.",
"W",
"Wertstabile",
"Wohnimmobilien",
"X'",
"X++",
"X-Xxxx",
"X.",
"X.X",
"X.X.",
@ -518,13 +619,25 @@
"Xxxx",
"Xxxx+",
"Xxxx+/Xxxxx",
"Xxxx-XXX",
"Xxxx-Xxxxx-XXX",
"Xxxx.",
"Xxxx.-Xxx",
"Xxxx.-Xxx.",
"Xxxxx",
"Xxxxx)/Xxxx",
"Xxxxx-Xxxxx",
"Xx\u0308xxxx",
"X\u2019",
"Z",
"Z.",
"Ziel-LTY",
"Ziel-Netto-IRR",
"Zielanlagestrategie",
"Zielregionfen)/Jand",
"Zielsektoren",
"Zielvolumen",
"Ziirraiaein",
"Zt",
"Zt.",
"[",
@ -578,21 +691,41 @@
"add",
"adv",
"adv.",
"ahr",
"ail",
"aiming",
"aktueller",
"al",
"al.",
"allg",
"allg.",
"allgemein",
"allgemeine",
"am.",
"ame",
"amsterdam",
"an.",
"and",
"anlagestrategien",
"anlagevehikels",
"ansprechpartners",
"antagevehikels",
"apr",
"apr.",
"ark",
"art",
"asset",
"assets",
"at",
"at.",
"ath",
"auf",
"aufl\u00f6sung",
"aufwertung",
"auf\u2019m",
"aug",
"aug.",
"ausgew\u00e4hlte",
"ax.",
"b",
"b.",
@ -604,6 +737,8 @@
"bd.",
"beispielsweise",
"ber",
"berlin",
"bestandsentwicklungen",
"betr",
"betr.",
"beziehungsweise",
@ -632,23 +767,29 @@
"c/o",
"ca",
"ca.",
"cal",
"cdu",
"cdu/csu",
"ce>",
"chr",
"chr.",
"cht",
"cie",
"cie.",
"cities",
"cl.",
"closings",
"co",
"co.",
"core",
"core+",
"core+/value",
"csu",
"cts",
"d",
"d'",
"d)",
"d,dd%+",
"d-",
"d-)",
"d-X",
@ -661,30 +802,43 @@
"dX",
"d_d",
"d_x",
"dam",
"dd",
"ddd",
"dddd",
"de",
"ded",
"dem",
"den",
"der",
"dergleichen",
"des",
"deutschland",
"deutschlands",
"development",
"dez",
"dez.",
"dgl",
"dgl.",
"di",
"di.",
"different",
"dipl",
"dipl.",
"dipl.-ing",
"dipl.-ing.",
"do",
"do.",
"don",
"dr",
"dr.",
"du",
"du\u2019s",
"dv.",
"d\u00e4nemark",
"d\u2019",
"e",
"e-mail",
"e.",
"e.V.",
"e.d",
@ -699,6 +853,7 @@
"ebr",
"ed.",
"egr",
"egy",
"ehem",
"ehem.",
"eigentlich",
@ -708,12 +863,17 @@
"eine",
"einem",
"einen",
"einw",
"eit",
"el.",
"els",
"em.",
"en.",
"engl",
"engl.",
"englisch",
"enhancing",
"ent",
"entspr",
"entspr.",
"ep.",
@ -724,18 +884,23 @@
"erm.",
"err",
"ers",
"ersten",
"er\u2019s",
"es",
"etc",
"etc.",
"etr",
"ets",
"europe",
"european",
"ev",
"ev.",
"eventuell",
"evtl",
"evtl.",
"exit",
"expertise",
"exposure",
"ez.",
"e\u2019s",
"f",
@ -746,9 +911,14 @@
"fam.",
"feb",
"feb.",
"fen",
"festgelegter",
"fil",
"fond",
"fonds",
"fr",
"fr.",
"frankreich",
"franz\u00f6sisch",
"frl",
"frl.",
@ -756,11 +926,13 @@
"frz.",
"fs.",
"fund",
"fu\u0308hrende",
"f\u2019m",
"g",
"g.",
"g.m.b",
"g.m.b.h.",
"gateway",
"geb",
"geb.",
"gebr",
@ -772,6 +944,10 @@
"gegr\u00fcndet",
"gem",
"gem.",
"gen",
"geplantes",
"ger",
"gesamtrendite",
"gf.",
"gfs",
"ggf",
@ -780,6 +956,7 @@
"ggfs.",
"gg\u00fc",
"gg\u00fc.",
"gie",
"gl.",
"good",
"gr.",
@ -789,9 +966,12 @@
"h.",
"h.c",
"h.c.",
"halten",
"halten-strategie",
"hbf",
"hbf.",
"hd.",
"hed",
"hem",
"hf.",
"hg",
@ -799,8 +979,10 @@
"hil",
"hinter",
"hinter\u2019m",
"hotels",
"hr",
"hr.",
"hre",
"hrn",
"hrn.",
"hrsg",
@ -826,6 +1008,8 @@
"ich",
"ich\u2019s",
"ie.",
"ien",
"ies",
"ig.",
"ihr",
"ihr\u2019s",
@ -834,7 +1018,11 @@
"iii",
"iii.",
"il.",
"ile",
"illustration",
"ime",
"immobilien",
"immobilien-spezialfonds",
"in",
"in.",
"inc",
@ -842,26 +1030,41 @@
"incl",
"incl.",
"ind",
"ine",
"informationen",
"ing",
"ing.",
"initiatives",
"inkl",
"inkl.",
"inklusive",
"inrev",
"insb",
"insb.",
"insbesondere",
"investmentmanagers",
"investments",
"inw",
"io.",
"iol",
"ion",
"ipl",
"irr",
"is",
"ise",
"isk",
"iss",
"ite",
"ith",
"ity",
"itz",
"ium",
"iv",
"iv.",
"j",
"j.",
"jahr",
"jahre",
"jan",
"jan.",
"jh",
@ -882,24 +1085,38 @@
"kath",
"kath.",
"katholisch",
"kaufen",
"ket",
"key",
"kl.",
"kt.",
"l",
"l'",
"l.",
"l.a.",
"langfristig",
"lat",
"lat.",
"laufzeit",
"laut",
"le.g",
"ler",
"level",
"lg.",
"lin",
"lio",
"llg",
"llt",
"llv",
"london",
"lt",
"lt.",
"lte",
"ltv",
"lty",
"lue",
"lv.",
"l\u00e4nderallokation",
"l\u2019",
"m",
"m.",
@ -911,19 +1128,30 @@
"m.m.",
"m.sc",
"m.sc.",
"mal",
"management",
"manager",
"market",
"max",
"max.",
"maximal",
"maximaler",
"men",
"mer",
"metropolregionen",
"mi",
"mi.",
"million",
"min",
"min.",
"mind",
"mind.",
"mindestens",
"minimal",
"minor",
"mio",
"mio.",
"mit",
"mo",
"mo.",
"monatlich",
@ -946,18 +1174,26 @@
"n.r",
"n.y.",
"n.y.c.",
"nachvermietungsstrategie",
"name",
"nat",
"nat.",
"nc.",
"ncl",
"nd.",
"nde",
"nds",
"ne",
"nem",
"nen",
"ner",
"ng.",
"ngl",
"ngs",
"niederlande",
"niv",
"nkl",
"nor",
"nov",
"nov.",
"nr",
@ -982,23 +1218,32 @@
"o_o",
"of",
"of.",
"offen",
"offener",
"og.",
"okt",
"okt.",
"ol.",
"ond",
"ood",
"opco",
"ope",
"ore",
"orig",
"orig.",
"original",
"orm",
"ov.",
"over",
"p",
"p.",
"p.a",
"p.a.",
"p.s",
"p.s.",
"pCo",
"paris",
"pco",
"pers",
"pers.",
"phil",
@ -1008,26 +1253,35 @@
"pl.",
"portfolio",
"pr.",
"premium",
"prof",
"prof.",
"profile",
"projects",
"pt.",
"pw.",
"q",
"q.",
"q.e.d",
"q.e.d.",
"quality",
"r",
"r.",
"r.i.p.",
"rd.",
"re",
"re+",
"rechtsform",
"red",
"red.",
"ren",
"rer",
"rer.",
"rev",
"rig",
"ris",
"risikoprofil",
"risk",
"rl.",
"rm.",
"rn.",
@ -1035,6 +1289,7 @@
"rr.",
"rs.",
"rsg",
"rte",
"rz.",
"r\u00f6m",
"r\u00f6m.",
@ -1050,6 +1305,7 @@
"sa",
"sa.",
"sb.",
"schweden",
"sd.",
"sen",
"sen.",
@ -1057,10 +1313,13 @@
"sep.",
"sept",
"sept.",
"set",
"sf.",
"sg.",
"sie",
"sie\u2019s",
"sitz",
"skandinavien",
"so",
"so.",
"sog",
@ -1072,28 +1331,43 @@
"ss.",
"st",
"st.",
"standortaufwertungsstrategie",
"standorte",
"std",
"std.",
"stellv",
"stellv.",
"stil",
"str",
"str.",
"strategie",
"strategy",
"struktur",
"sw.",
"s\u2019",
"t",
"t.",
"tactical",
"tc.",
"td.",
"tel",
"tel.",
"telefonnummer",
"ten",
"ter",
"tes",
"th.",
"the",
"tig",
"til",
"time",
"tl.",
"to",
"tr",
"tr.",
"tsd",
"tsd.",
"tur",
"t\u00e4gl",
"t\u00e4gl.",
"t\u00e4glich",
@ -1114,11 +1388,13 @@
"ul.",
"un.",
"und",
"ung",
"univ",
"univ.",
"unter",
"unter\u2019m",
"ur.",
"ure",
"usf",
"usf.",
"usw",
@ -1138,7 +1414,11 @@
"v.v",
"v_v",
"value",
"value-added",
"vel",
"ver",
"vergleiche",
"ves",
"vgl",
"vgl.",
"vielleicht",
@ -1149,6 +1429,7 @@
"vm.",
"vol",
"vol.",
"vom",
"vor",
"vor\u2019m",
"vs",
@ -1157,12 +1438,18 @@
"w",
"w.",
"wSt",
"way",
"well-established",
"wertstabile",
"wir",
"wir\u2019s",
"wiss",
"wiss.",
"with",
"wohnimmobilien",
"x",
"x'",
"x-xxxx",
"x.",
"x.X",
"x.X.",
@ -1186,16 +1473,23 @@
"x_x",
"xd",
"xdd",
"xit",
"xx",
"xx.",
"xx.x",
"xxx",
"xxx.",
"xxxx",
"xxxx)/xxxx",
"xxxx+",
"xxxx+/xxxx",
"xxxx-xxx",
"xxxx-xxxx",
"xxxx-xxxx-xxx",
"xxxx.",
"xxxx\u2019x",
"xxx\u2019x",
"xx\u0308xxxx",
"xx\u2019x",
"x\u2019",
"x\ufe35x",
@ -1215,6 +1509,13 @@
"z.z.",
"z.zt.",
"zgl",
"ziel-lty",
"ziel-netto-irr",
"zielanlagestrategie",
"zielregionfen)/jand",
"zielsektoren",
"zielvolumen",
"ziirraiaein",
"zt",
"zw.",
"zzgl",
@ -1236,6 +1537,8 @@
"\u00b0f.",
"\u00b0k.",
"\u00b0x.",
"\u00dc",
"\u00dcbersicht",
"\u00e4",
"\u00e4.",
"\u00e4gl",
@ -1249,6 +1552,7 @@
"\u00fc",
"\u00fc.",
"\u00fcber",
"\u00fcbersicht",
"\u00fcber\u2019m",
"\u0ca0",
"\u0ca0_\u0ca0",
@ -1269,6 +1573,8 @@
"\u2019xx",
"\u2019xxx",
"\u2019\u2019",
"\u201a",
"\u20ac",
"\u2501",
"\u253b",
"\u253b\u2501\u253b",

View File

@ -46,7 +46,7 @@
"f":1.0
}
},
"tok2vec_loss":0.000000011,
"ner_loss":0.0000000457
"tok2vec_loss":0.000000029,
"ner_loss":0.0000000614
}
}

View File

@ -1 +1 @@
ĄmovesŮx{"0":{},"1":{"RISIKOPROFIL":20},"2":{"RISIKOPROFIL":20},"3":{"RISIKOPROFIL":20},"4":{"RISIKOPROFIL":20,"":1},"5":{"":1}}Łcfg<66>§neg_keyŔ
ĄmovesŮx{"0":{},"1":{"RISIKOPROFIL":45},"2":{"RISIKOPROFIL":45},"3":{"RISIKOPROFIL":45},"4":{"RISIKOPROFIL":45,"":1},"5":{"":1}}Łcfg<66>§neg_keyŔ

View File

@ -4,6 +4,8 @@
" ",
" ",
"\"",
"$",
"%",
"'",
"''",
"'-(",
@ -46,6 +48,8 @@
")/\u00af",
"):",
"*",
"+",
",",
"-",
"-((",
"-))",
@ -100,16 +104,40 @@
".\u00e4.",
"/",
"/3",
"/Core+",
"/Xxxx+",
"/core+",
"/d",
"/xxxx+",
"0",
"0%+",
"0.0",
"0.o",
"022",
"032",
"034",
"0_0",
"0_o",
"1",
"1.",
"10",
"12",
"2",
"2.",
"20",
"2022",
"2032",
"2034",
"250",
"3",
"3.",
"33",
"333",
"35",
"5",
"50",
"7",
"7,50%+",
"8",
"8)",
"8-",
@ -234,9 +262,20 @@
"Abt.",
"Abteilung",
"Add",
"Aktueller",
"Allgemeine",
"Amsterdam",
"Anlagestrategien",
"Anlagevehikels",
"Ansprechpartners",
"Antagevehikels",
"Apr",
"Apr.",
"April",
"Art",
"Assets",
"Aufl\u00f6sung",
"Aufwertung",
"Aug",
"Aug.",
"August",
@ -250,6 +289,8 @@
"Bd",
"Bd.",
"Beispiel",
"Berlin",
"Bestandsentwicklungen",
"Betr",
"Betr.",
"Betreff",
@ -271,6 +312,8 @@
"Chr.",
"Cie",
"Cie.",
"Cities",
"Closings",
"Co",
"Co.",
"Core",
@ -279,12 +322,15 @@
"D",
"D.",
"D.C.",
"Deutschland",
"Deutschlands",
"Dez",
"Dez.",
"Dezember",
"Di",
"Di.",
"Dienstag",
"Different",
"Dipl",
"Dipl.",
"Dipl.-Ing",
@ -294,9 +340,14 @@
"Donnerstag",
"Dr",
"Dr.",
"D\u00e4nemark",
"E",
"E-Mail",
"E.",
"Einw",
"Europe",
"European",
"Exit",
"F",
"F.",
"FIL",
@ -310,20 +361,28 @@
"Februar",
"Firma",
"Fond",
"Fonds",
"Fr",
"Fr.",
"Frankreich",
"Frau",
"Frl",
"Frl.",
"Fr\u00e4ulein",
"Fu\u0308hrende",
"G",
"G.",
"G.m.b",
"G.m.b.H.",
"Gateway",
"Gebr",
"Gebr.",
"Geplantes",
"Gesamtrendite",
"H",
"H.",
"Halten",
"Halten-Strategie",
"Hauptbahnhof",
"Hbf",
"Hbf.",
@ -343,13 +402,21 @@
"II.",
"III",
"III.",
"INREV",
"IRR",
"IV",
"IV.",
"Immobilien",
"Immobilien-Spezialfonds",
"Inc",
"Inc.",
"Informationen",
"Ing",
"Ing.",
"Investmentmanagers",
"J",
"Jahr",
"Jahre",
"Jahrhundert",
"Jan",
"Jan.",
@ -369,16 +436,26 @@
"K",
"K.",
"K.O.",
"Kaufen",
"Key",
"L",
"L'",
"L.A.",
"LTV",
"LTY",
"Laufzeit",
"London",
"L\u00e4nderallokation",
"L\u2019",
"M",
"M.",
"M.A.",
"M.Sc",
"M.Sc.",
"Manager",
"Maximaler",
"Mehrwertsteuer",
"Metropolregionen",
"Mi",
"Mi.",
"Milliarde",
@ -403,6 +480,9 @@
"N",
"N.Y.",
"N.Y.C.",
"Nachvermietungsstrategie",
"Name",
"Niederlande",
"Nov",
"Nov.",
"November",
@ -416,14 +496,18 @@
"O.o",
"O_O",
"O_o",
"Offen",
"Offener",
"Okt",
"Okt.",
"Oktober",
"OpCo",
"Orig",
"Orig.",
"Original",
"P",
"P.S.",
"Paris",
"Pkt",
"Pkt.",
"Prof",
@ -434,32 +518,44 @@
"R.",
"R.I.P.",
"RE",
"REV",
"RISIKOPROFIL",
"ROOT",
"Rechtsform",
"Red",
"Red.",
"Redaktion",
"Risikoprofil",
"Risk",
"S",
"S'",
"Sa",
"Sa.",
"Samstag",
"Sc.",
"Schweden",
"Sep",
"Sep.",
"Sept",
"Sept.",
"September",
"Sitz",
"Skandinavien",
"So",
"So.",
"Sonntag",
"St",
"St.",
"Standortaufwertungsstrategie",
"Standorte",
"Std",
"Std.",
"Stil",
"Str",
"Str.",
"Strategie",
"Stra\u00dfe",
"Struktur",
"Stunde",
"S\u2019",
"T",
@ -468,6 +564,7 @@
"Tel",
"Tel.",
"Telefon",
"Telefonnummer",
"The",
"Tr",
"Tr.",
@ -488,8 +585,12 @@
"Value",
"Vol",
"Vol.",
"W",
"Wertstabile",
"Wohnimmobilien",
"X'",
"X++",
"X-Xxxx",
"X.",
"X.X",
"X.X.",
@ -518,13 +619,25 @@
"Xxxx",
"Xxxx+",
"Xxxx+/Xxxxx",
"Xxxx-XXX",
"Xxxx-Xxxxx-XXX",
"Xxxx.",
"Xxxx.-Xxx",
"Xxxx.-Xxx.",
"Xxxxx",
"Xxxxx)/Xxxx",
"Xxxxx-Xxxxx",
"Xx\u0308xxxx",
"X\u2019",
"Z",
"Z.",
"Ziel-LTY",
"Ziel-Netto-IRR",
"Zielanlagestrategie",
"Zielregionfen)/Jand",
"Zielsektoren",
"Zielvolumen",
"Ziirraiaein",
"Zt",
"Zt.",
"[",
@ -578,21 +691,41 @@
"add",
"adv",
"adv.",
"ahr",
"ail",
"aiming",
"aktueller",
"al",
"al.",
"allg",
"allg.",
"allgemein",
"allgemeine",
"am.",
"ame",
"amsterdam",
"an.",
"and",
"anlagestrategien",
"anlagevehikels",
"ansprechpartners",
"antagevehikels",
"apr",
"apr.",
"ark",
"art",
"asset",
"assets",
"at",
"at.",
"ath",
"auf",
"aufl\u00f6sung",
"aufwertung",
"auf\u2019m",
"aug",
"aug.",
"ausgew\u00e4hlte",
"ax.",
"b",
"b.",
@ -604,6 +737,8 @@
"bd.",
"beispielsweise",
"ber",
"berlin",
"bestandsentwicklungen",
"betr",
"betr.",
"beziehungsweise",
@ -632,23 +767,29 @@
"c/o",
"ca",
"ca.",
"cal",
"cdu",
"cdu/csu",
"ce>",
"chr",
"chr.",
"cht",
"cie",
"cie.",
"cities",
"cl.",
"closings",
"co",
"co.",
"core",
"core+",
"core+/value",
"csu",
"cts",
"d",
"d'",
"d)",
"d,dd%+",
"d-",
"d-)",
"d-X",
@ -661,30 +802,43 @@
"dX",
"d_d",
"d_x",
"dam",
"dd",
"ddd",
"dddd",
"de",
"ded",
"dem",
"den",
"der",
"dergleichen",
"des",
"deutschland",
"deutschlands",
"development",
"dez",
"dez.",
"dgl",
"dgl.",
"di",
"di.",
"different",
"dipl",
"dipl.",
"dipl.-ing",
"dipl.-ing.",
"do",
"do.",
"don",
"dr",
"dr.",
"du",
"du\u2019s",
"dv.",
"d\u00e4nemark",
"d\u2019",
"e",
"e-mail",
"e.",
"e.V.",
"e.d",
@ -699,6 +853,7 @@
"ebr",
"ed.",
"egr",
"egy",
"ehem",
"ehem.",
"eigentlich",
@ -708,12 +863,17 @@
"eine",
"einem",
"einen",
"einw",
"eit",
"el.",
"els",
"em.",
"en.",
"engl",
"engl.",
"englisch",
"enhancing",
"ent",
"entspr",
"entspr.",
"ep.",
@ -724,18 +884,23 @@
"erm.",
"err",
"ers",
"ersten",
"er\u2019s",
"es",
"etc",
"etc.",
"etr",
"ets",
"europe",
"european",
"ev",
"ev.",
"eventuell",
"evtl",
"evtl.",
"exit",
"expertise",
"exposure",
"ez.",
"e\u2019s",
"f",
@ -746,9 +911,14 @@
"fam.",
"feb",
"feb.",
"fen",
"festgelegter",
"fil",
"fond",
"fonds",
"fr",
"fr.",
"frankreich",
"franz\u00f6sisch",
"frl",
"frl.",
@ -756,11 +926,13 @@
"frz.",
"fs.",
"fund",
"fu\u0308hrende",
"f\u2019m",
"g",
"g.",
"g.m.b",
"g.m.b.h.",
"gateway",
"geb",
"geb.",
"gebr",
@ -772,6 +944,10 @@
"gegr\u00fcndet",
"gem",
"gem.",
"gen",
"geplantes",
"ger",
"gesamtrendite",
"gf.",
"gfs",
"ggf",
@ -780,6 +956,7 @@
"ggfs.",
"gg\u00fc",
"gg\u00fc.",
"gie",
"gl.",
"good",
"gr.",
@ -789,9 +966,12 @@
"h.",
"h.c",
"h.c.",
"halten",
"halten-strategie",
"hbf",
"hbf.",
"hd.",
"hed",
"hem",
"hf.",
"hg",
@ -799,8 +979,10 @@
"hil",
"hinter",
"hinter\u2019m",
"hotels",
"hr",
"hr.",
"hre",
"hrn",
"hrn.",
"hrsg",
@ -826,6 +1008,8 @@
"ich",
"ich\u2019s",
"ie.",
"ien",
"ies",
"ig.",
"ihr",
"ihr\u2019s",
@ -834,7 +1018,11 @@
"iii",
"iii.",
"il.",
"ile",
"illustration",
"ime",
"immobilien",
"immobilien-spezialfonds",
"in",
"in.",
"inc",
@ -842,26 +1030,41 @@
"incl",
"incl.",
"ind",
"ine",
"informationen",
"ing",
"ing.",
"initiatives",
"inkl",
"inkl.",
"inklusive",
"inrev",
"insb",
"insb.",
"insbesondere",
"investmentmanagers",
"investments",
"inw",
"io.",
"iol",
"ion",
"ipl",
"irr",
"is",
"ise",
"isk",
"iss",
"ite",
"ith",
"ity",
"itz",
"ium",
"iv",
"iv.",
"j",
"j.",
"jahr",
"jahre",
"jan",
"jan.",
"jh",
@ -882,24 +1085,38 @@
"kath",
"kath.",
"katholisch",
"kaufen",
"ket",
"key",
"kl.",
"kt.",
"l",
"l'",
"l.",
"l.a.",
"langfristig",
"lat",
"lat.",
"laufzeit",
"laut",
"le.g",
"ler",
"level",
"lg.",
"lin",
"lio",
"llg",
"llt",
"llv",
"london",
"lt",
"lt.",
"lte",
"ltv",
"lty",
"lue",
"lv.",
"l\u00e4nderallokation",
"l\u2019",
"m",
"m.",
@ -911,19 +1128,30 @@
"m.m.",
"m.sc",
"m.sc.",
"mal",
"management",
"manager",
"market",
"max",
"max.",
"maximal",
"maximaler",
"men",
"mer",
"metropolregionen",
"mi",
"mi.",
"million",
"min",
"min.",
"mind",
"mind.",
"mindestens",
"minimal",
"minor",
"mio",
"mio.",
"mit",
"mo",
"mo.",
"monatlich",
@ -946,18 +1174,26 @@
"n.r",
"n.y.",
"n.y.c.",
"nachvermietungsstrategie",
"name",
"nat",
"nat.",
"nc.",
"ncl",
"nd.",
"nde",
"nds",
"ne",
"nem",
"nen",
"ner",
"ng.",
"ngl",
"ngs",
"niederlande",
"niv",
"nkl",
"nor",
"nov",
"nov.",
"nr",
@ -982,23 +1218,32 @@
"o_o",
"of",
"of.",
"offen",
"offener",
"og.",
"okt",
"okt.",
"ol.",
"ond",
"ood",
"opco",
"ope",
"ore",
"orig",
"orig.",
"original",
"orm",
"ov.",
"over",
"p",
"p.",
"p.a",
"p.a.",
"p.s",
"p.s.",
"pCo",
"paris",
"pco",
"pers",
"pers.",
"phil",
@ -1008,26 +1253,35 @@
"pl.",
"portfolio",
"pr.",
"premium",
"prof",
"prof.",
"profile",
"projects",
"pt.",
"pw.",
"q",
"q.",
"q.e.d",
"q.e.d.",
"quality",
"r",
"r.",
"r.i.p.",
"rd.",
"re",
"re+",
"rechtsform",
"red",
"red.",
"ren",
"rer",
"rer.",
"rev",
"rig",
"ris",
"risikoprofil",
"risk",
"rl.",
"rm.",
"rn.",
@ -1035,6 +1289,7 @@
"rr.",
"rs.",
"rsg",
"rte",
"rz.",
"r\u00f6m",
"r\u00f6m.",
@ -1050,6 +1305,7 @@
"sa",
"sa.",
"sb.",
"schweden",
"sd.",
"sen",
"sen.",
@ -1057,10 +1313,13 @@
"sep.",
"sept",
"sept.",
"set",
"sf.",
"sg.",
"sie",
"sie\u2019s",
"sitz",
"skandinavien",
"so",
"so.",
"sog",
@ -1072,28 +1331,43 @@
"ss.",
"st",
"st.",
"standortaufwertungsstrategie",
"standorte",
"std",
"std.",
"stellv",
"stellv.",
"stil",
"str",
"str.",
"strategie",
"strategy",
"struktur",
"sw.",
"s\u2019",
"t",
"t.",
"tactical",
"tc.",
"td.",
"tel",
"tel.",
"telefonnummer",
"ten",
"ter",
"tes",
"th.",
"the",
"tig",
"til",
"time",
"tl.",
"to",
"tr",
"tr.",
"tsd",
"tsd.",
"tur",
"t\u00e4gl",
"t\u00e4gl.",
"t\u00e4glich",
@ -1114,11 +1388,13 @@
"ul.",
"un.",
"und",
"ung",
"univ",
"univ.",
"unter",
"unter\u2019m",
"ur.",
"ure",
"usf",
"usf.",
"usw",
@ -1138,7 +1414,11 @@
"v.v",
"v_v",
"value",
"value-added",
"vel",
"ver",
"vergleiche",
"ves",
"vgl",
"vgl.",
"vielleicht",
@ -1149,6 +1429,7 @@
"vm.",
"vol",
"vol.",
"vom",
"vor",
"vor\u2019m",
"vs",
@ -1157,12 +1438,18 @@
"w",
"w.",
"wSt",
"way",
"well-established",
"wertstabile",
"wir",
"wir\u2019s",
"wiss",
"wiss.",
"with",
"wohnimmobilien",
"x",
"x'",
"x-xxxx",
"x.",
"x.X",
"x.X.",
@ -1186,16 +1473,23 @@
"x_x",
"xd",
"xdd",
"xit",
"xx",
"xx.",
"xx.x",
"xxx",
"xxx.",
"xxxx",
"xxxx)/xxxx",
"xxxx+",
"xxxx+/xxxx",
"xxxx-xxx",
"xxxx-xxxx",
"xxxx-xxxx-xxx",
"xxxx.",
"xxxx\u2019x",
"xxx\u2019x",
"xx\u0308xxxx",
"xx\u2019x",
"x\u2019",
"x\ufe35x",
@ -1215,6 +1509,13 @@
"z.z.",
"z.zt.",
"zgl",
"ziel-lty",
"ziel-netto-irr",
"zielanlagestrategie",
"zielregionfen)/jand",
"zielsektoren",
"zielvolumen",
"ziirraiaein",
"zt",
"zw.",
"zzgl",
@ -1236,6 +1537,8 @@
"\u00b0f.",
"\u00b0k.",
"\u00b0x.",
"\u00dc",
"\u00dcbersicht",
"\u00e4",
"\u00e4.",
"\u00e4gl",
@ -1249,6 +1552,7 @@
"\u00fc",
"\u00fc.",
"\u00fcber",
"\u00fcbersicht",
"\u00fcber\u2019m",
"\u0ca0",
"\u0ca0_\u0ca0",
@ -1269,6 +1573,8 @@
"\u2019xx",
"\u2019xxx",
"\u2019\u2019",
"\u201a",
"\u20ac",
"\u2501",
"\u253b",
"\u253b\u2501\u253b",

View File

@ -4,7 +4,7 @@ import json
from pathlib import Path
nlp = spacy.load("output/model-last")
input_pdf = Path("../../pitch-books/Pitchbook 1.pdf")
input_pdf = Path("../ocr/output/Pitchbook 1-OCR.pdf")
doc = fitz.open(input_pdf)

View File

@ -1,26 +1,66 @@
TRAINING_DATA = [
(
"Core",{"entities":[[0,4,"RISIKOPROFIL"]]},
"Core",
{"entities":[[0,4,"RISIKOPROFIL"]]},
),
(
"Core+",{"entities":[[0,5,"RISIKOPROFIL"]]},
"Core+",
{"entities":[[0,5,"RISIKOPROFIL"]]},
),
(
"Core/Core+",{"entities":[[0,10,"RISIKOPROFIL"]]},
"Core/Core+",
{"entities":[[0,10,"RISIKOPROFIL"]]},
),
(
"Value Add",{"entities":[[0,9,"RISIKOPROFIL"]]},
"Value Add",
{"entities":[[0,9,"RISIKOPROFIL"]]},
),
(
"Core/Value Add",{"entities":[[0,14,"RISIKOPROFIL"]]},
"Core/Value Add",
{"entities":[[0,14,"RISIKOPROFIL"]]},
),
(
"Core+/Value Add",{"entities":[[0,15,"RISIKOPROFIL"]]},
"Core+/Value Add",
{"entities":[[0,15,"RISIKOPROFIL"]]},
),
(
"Core/Core+/Value Add",{"entities":[[0,20,"RISIKOPROFIL"]]},
"Core/Core+/Value Add",
{"entities":[[0,20,"RISIKOPROFIL"]]},
),
(
"The RE portfolio of the fund is a good illustration of Fond expertise in European core/core+ investments .",{"entities":[[82,92,"RISIKOPROFIL"]]},
"The RE portfolio of the fund is a good illustration of Fond expertise in European core/core+ investments .",
{"entities":[[82,92,"RISIKOPROFIL"]]},
),
(
"Risk level: Core/Core+",
{"entities":[[12,22,"RISIKOPROFIL"]]},
),
(
"Different risk profile (core, core+, value-added)",
{"entities":[[24,48,"RISIKOPROFIL"]]},
),
(
"Core/Core+ with OpCo premium",
{"entities":[[0,10,"RISIKOPROFIL"]]},
),
(
"Core /Core+ Assets, well-established = Key Gateway Cities in Europe le.g. hotels in the market with minor asset London, Paris, Amsterdam, Berlin] management initiatives",
{"entities":[[0,11,"RISIKOPROFIL"]]},
),
(
"Risikoprofil: Core, Core +",
{"entities":[[14,26,"RISIKOPROFIL"]]},
),
(
"Name des Fonds Name des Investmentmanagers Allgemeine Informationen Name des Ansprechpartners Telefonnummer des Ansprechpartners E-Mail des Ansprechpartners Art des Anlagevehikels Struktur des Anlagevehikels Sitz des Anlagevehikels Struktur des Antagevehikels vom Manager festgelegter Stil Rechtsform Jahr des ersten Closings Laufzeit Geplantes Jahr der Auflösung Ziel-Netto-IRR / Gesamtrendite* Zielvolumen des Anlagevehikels Ziel-LTY Aktueller LTV Ziirraiaein Maximaler LTV Zielregionfen)/Jand Zielsektoren Zielanlagestrategie INREV Fonds Offen Deutschland Core, Core + Offener Immobilien-Spezialfonds 2022 10 - 12 Jahre 2032 - 2034 7,50%+ 250 Mio. € 20% 0% 20% Führende Metropolregionen Deutschlands und ausgewählte Standorte >50T Einw. Wohnimmobilien Wertstabile Wohnimmobilien (mit Bestandsentwicklungen)",
{"entities":[[560,572,"RISIKOPROFIL"]]},
),
(
"Core/Core+ strategy, with tactical exposure to development projects aiming at enhancing the quality of the portfolio over time",
{"entities":[[0,10,"RISIKOPROFIL"]]},
),
(
"Strategie - Übersicht Risikoprofil Core+ Halten-Strategie Kaufen — Halten (langfristig) — Exit 1. Nachvermietungsstrategie Anlagestrategien 2. Standortaufwertungsstrategie 3. Strategie der Aufwertung der Immobilien Niederlande (max. 35 %) Länderallokation Frankreich (max. 35 %) (in % vom Zielvolumen) Skandinavien (Schweden, Dänemark) (max. 35 %) Deutschland (<= 10 %)",
{"entities":[[35,40,"RISIKOPROFIL"]]},
)
]