[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 12:40
в кронесе данная база наверное будет бесполезна,т.к. потеряются "местные" символы в ФИО и найти человека будет проблематично
Часть имен потеряется, если не конвертировать с заменой на что-то подходящее. Там можно искать по номеру документа, телефону, в моей версии отдельно по email, можно по адресу, но база конечно сложная, не каждому подойдет. Многое оправдывает то что таких объемов базы по КЗ редко встречаются.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 08:39
Казахстан, записей 32кк, текст UTF8, поля: ФИО, ДР, Документ, телефон (оч мало), Адрес.
Убрал явный мусор, имеются дубли %15-20, оставил, как правило это совпадение не полное (но по одному человеку), разница по полям - откуда прибыл (часто Афганистан) и адрес регистрации (возможно временная).
Актуальность, ХЗ, есть даты рождения и 2021г и 2015г, думайте сами, но в основном гораздо раннее.
Единственное, кто спец, прошу выправить и развернуть дату рождения в привычный вид.
рекомендованный
[External Link Removed for Guests]
Жесткий файл

Это сборка из разных баз, частично экспорт из кроноса из-за чего там уже есть испорченные записи, которые были с символами юникода до кроноса.
Что сделано:
-Убрал около тысячи строк начинающихся с/и содержащих только знак вопроса и цифры
-Убрал часть строк испорченных кроносом и перенесенных в этот сборник {надо искать, там есть еще испорченные}
-Нормализовал даты рождения
-Немного нормализовал записи о документах {убрал пробелы и разделители}
-Постарался нормализовать часть номеров телефонов, но там беспорядок
-Изменил разделитель на вертикальную черту
-Устранил уехавшие поля {не везде правильно размещены данные, телефоны могут пересекаться с документами}
-Вывел в отдельный столбец Email {в некоторых строках там также может встретиться телефон или сайт}
-Удалил чуть менее 25 тысяч строк, в которых были только ФИО и больше ничего
-Удалил лишние пробелы, кавычки, знаки переноса строки и т.д.
-Удалил несколько десятков тысяч полных дублей {это стало возможным после приведения записей к единому формату}
Конечно работы в этой базе еще горы и она до сих пор сложна для обработки и использования.
Ссылка:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
тот же, который в источнике.