Skip to content
Snippets Groups Projects
Commit 741636e4 authored by Martin Mareš's avatar Martin Mareš
Browse files

Všechny datové soubory ležící mimo repo přesunuty do extra/

Takže nám konečně nemíchají do celého db/.
parent 194e2062
Branches
No related tags found
No related merge requests found
__pycache__
.mypy_cache
/db/ruian
/db/skoly/html
/db/skoly/parsed
/data
/extra
/mo/config.py
/osmo.egg-info
/venv
......@@ -46,7 +46,7 @@
setfacl -m u:www-data:x /akce/mo/osmo-test /akce/mo/osmo-test/var
# Inicializovat regiony v DB
# Obstarat si db/ruian/ a db/schools/parsed/ z jiné instance (nebo je znovu stáhnout)
# Obstarat si extra/ruian/ a extra/schools/parsed/ z jiné instance (nebo je znovu stáhnout)
. ../venv/bin/activate
bin/test-init # případně podmnožinu
......
#!/usr/bin/env python3
# Naplní databázi školami a obcemi, v nichž školy sídlí
# Používá db/skoly/parsed/*.tsv
# Používá extra/skoly/parsed/*.tsv
#
# Pozor, zrada: rejstřík škol je sice rozdělený do okresů dle NUTS/LAU,
# ale školy tam řadí podle úřadu, u nějž je škole registrovaná, což vůbec
......@@ -182,14 +182,14 @@ ruian_obec_to_okres_nuts: DefaultDict[str, List[str]] = defaultdict(list)
def load_ruian():
ocols, okresy = load_ruian_csv('db/ruian/UI_OKRES.csv')
ocols, okresy = load_ruian_csv('extra/ruian/UI_OKRES.csv')
okres_by_id: Dict[int, List[str]] = {}
for o in okresy:
id = int(o[ocols['KOD']])
assert id not in okres_by_id
okres_by_id[id] = o
mcols, mesta = load_ruian_csv('db/ruian/UI_OBEC.csv')
mcols, mesta = load_ruian_csv('extra/ruian/UI_OBEC.csv')
for m in mesta:
jmeno = m[mcols['NAZEV']]
oid = int(m[mcols['OKRES_KOD']])
......@@ -204,7 +204,7 @@ args = parser.parse_args()
load_ruian()
for path in Path('db/skoly/parsed').glob('*.tsv'):
for path in Path('extra/skoly/parsed').glob('*.tsv'):
m = re.fullmatch(r'^[A-Z]-(CZ\w+)\.tsv', path.name)
assert m is not None
nuts = m[1]
......
......@@ -10,7 +10,7 @@ class Garant(mo.csv.Row):
jmeno: str = ""
email: str = ""
f = open('garanti.csv')
f = open('data/garanti/garanti.csv')
rows = mo.csv.read(f, mo.csv.FileFormat.en_csv, Garant)
for g in rows:
......
#!/bin/bash
set -e
rm -rf parsed
mkdir parsed
rm -rf extra/parsed
mkdir extra/parsed
for src in html/*.html ; do
dst=parsed/$(basename $src .html).tsv
for src in extra/html/*.html ; do
dst=extra/parsed/$(basename $src .html).tsv
echo -n "$src -> "
./rejskol-parse <$src >$dst
wc -l $dst
......
......@@ -8,7 +8,7 @@ my $mech = WWW::Mechanize->new(autocheck => 1, strict_forms => 1);
$mech->get('https://rejstriky.msmt.cz/rejskol/VREJVerejne/VerejneRozhrani.aspx');
$mech->form_id('form1');
mkdir 'html';
mkdir 'extra/html';
download_type('B'); # Základní školy
download_type('C'); # Střední školy
exit 0;
......@@ -59,7 +59,7 @@ sub download_region {
sleep 1;
my $resp = $mech->click_button(id => 'btnVybrat');
open my $f, '>:utf8', "html/$type-$nuts.html";
open my $f, '>:utf8', "extra/html/$type-$nuts.html";
print $f $resp->decoded_content;
close $f;
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment