# GeoSeek Dataset Nasional Folder ini adalah pondasi dataset GeoSeek untuk target **CSV 1.000.000 baris** dan import database skala nasional. ## File - `geo_places_template.csv` — header CSV standar. - `geo_places_sample.csv` — data awal realistis kota besar Indonesia untuk demo/dev. - `geo_categories.csv` — kategori utama dan target distribusi kategori. - `geo_city_targets.csv` — target distribusi kota dari blueprint GeoSeek. - `geo_api_schema.json` — draft schema response API pencarian. - `geo_database.sql` — draft schema SQL mandiri untuk GeoSeek. ## Struktur CSV utama ```csv id,nama_tempat,kategori,subkategori,alamat,kecamatan,kota,provinsi,latitude,longitude,no_telp,jam_operasional,rating,jumlah_review,sumber_data,status_verifikasi ``` ## Generate CSV 1 juta baris Script generator ada di: ```txt backend/src/scripts/geoseek/generateGeoPlacesCsv.js ``` Contoh membuat 10.000 baris untuk uji cepat: ```bash node backend/src/scripts/geoseek/generateGeoPlacesCsv.js --rows=10000 --output=data/geoseek/generated/geo_places_10k.csv ``` Contoh membuat 1.000.000 baris: ```bash node backend/src/scripts/geoseek/generateGeoPlacesCsv.js --rows=1000000 --output=data/geoseek/generated/geo_places_1M.csv ``` > Catatan: target kota pada blueprint berjumlah 1.030.000 jika dijumlah mentah. Generator otomatis melakukan scaling proporsional agar hasil tepat sesuai `--rows`, misalnya tepat 1.000.000 baris. ## Status data - `geo_places_sample.csv` adalah seed awal untuk development/demo dan masih perlu verifikasi sebelum dianggap data produksi. - CSV hasil generator memakai `sumber_data=GeoSeekSynthetic` dan `status_verifikasi=unverified`, karena data dibuat sintetis untuk load test, demo, dan pengembangan ranking/search. - Untuk produksi, gabungkan dengan sumber legal seperti data internal, data publik resmi, atau OpenStreetMap/penyedia POI lain dengan kolom sumber dan lisensi yang jelas.