Re: Прочие базы данных
Добавлено: 10 янв 2025, 19:50
спасибо за работу, сам занимаюсь чисткой,но т.к. опередил меня,не буду дальше чистить( да ленивый))), но я не удалял ID, если вдруг понадобятся недочищенные (убрал мусор(не весь), пустые столбцы, объеденил некоторые столбцы и т.д) с ID- обращайся)[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]10 янв 2025, 10:32Оооооперный театр... как эту прелесть развидеть теперь?[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 янв 2025, 12:40 Ахаха, это что-то типо Right version?))![]()
![]()
![]()
охх лучше не октрывайте этот лютый треш, я предупреждал)))
Но наказание мощное, пусть к плохим мальчикам приходит престарелый Юлий Савичев с большим микрофоном, а к нормальным нормальная Юленька.
А я тут не просто так пофлудить заглянул. Уважаемые братья и сестры, молились ли вы этим утром неистово за упокоение души тех, кто не дает нашему любимому форуму работать?
В честь ваших молитв делюсь своей версией конверта того, что называют Росреестром.
Что сделано:
-Сокращена часть аббревиатур {закрытое акционерное общество - ЗАО}
-Убраны кавычки, излишние пробелы и прочий мусор
-Знаки вертикальной черты заменены на латинскую I {для установки разделителя}
-Нормализованы номера телефонов и даты рождения
-Убраны не представляющие интереса для меня столбцы {ИД - это я сделал зря, ОКОПФ, пустые столбцы, столбцы с одинаковыми кодами}
-Сведены в один столбец адреса, предварительно отсеяны дублирующиеся в разных столбцах адреса
-Сведены номера и серии документов, из них убраны всяческие тире и пробелы, в свидетельствах о рождении вертикальная черта в римских цифрах заменена на латинскую i
-Извлечены физические адреса из столбца с электронной почтой
-Извлечены почти все коды подразделений выдавших паспорт из столбца с электронной почтой {не имею понятия как они там оказались}
-Исправлены некоторые ошибки в данных, но не все {мечтами скакали столбцы с ФИО, перемешивались с паспортом и тп}
-Отсеяны дубли
ВНИМАНИЕ!
В столбце E-MAIL размещены данные о семейном положении и некоторые другие дополнения, что-то вроде постановлений ФССП, пометки об оповещении в отказе в регистрации и подобное. Советую отсортировать столбец по ширине или символам и насладиться этим.
Переносить в другие столбцы не стал, там в довольно свободной форме это все указано.
К тому же это может быть ключем к разгадке источника данных. Сейчас из-за этого столбца я склонен считать, что это не сам Росреестр утек, а что-то вспомогательное. Если есть кто-то из этой конторы, может подскажете что там и как у них?
Еще в столбце E-MAIL довольно много указано телефонных номеров, мобильные я постарался привести к единому виду, но переносить в столбец с телефонами не стал, для нашей поисковой системы это не проблема. Если для вас это важно - проводите дообработку столбца и вычленяйте телефоны и семейное положение.
Параметры файла:
Количество строк - 36 295 449 {с учетом шапки}
Вес файла в архиве/распакованного - 1.31ГБ/8.25ГБ
Кодировка - Кириллица Win1251
Разделитель - вертикальная черта |
СЭМПЛ: Ссылка:Пароль:Спойлер
Скрытый текст
phreaker.info
Наслаждайтесь и с наступившим вас Рождеством!