Отличная мысль на счет разных регистров букв в имени, особенно про заглавные после строчных[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]11 авг 2023, 02:49 Конкретно твою строку я бы очистил по не валидному для мобильного телефону, если много подобных записей еще и по регулярке заглавные буквы после строчных в слове.
К каждой базе свои подходы. Например в базе Согаза (если память не изменяет) вычистил несколько сотен тысяч записей от страховых агентов с одноразовыми телефонами. Их выдавали определенные домены почты + муты с точками и плюсами в адресах почты для использования одного ящика на несколько аккаунтов, но там надо было аккуратнее - я например убирал точки, то что после плюса, смотрел если ящик встречается более X раз сносил строку. Понятно что на 7М записей всё это только программно. Если сильно заморачиваться можно вычислять и пулы одноразовых телефонов в базе.
Что касается чистки по IP в твоем примере их нет, а вот допустим в Кассах.ру достаточно пересечений IP тупо из-за того что это выходы с телефонов. А таких выходов, смотря из специфики сервиса, может быть под 70%.
С моей колокольни - достать любую слитую базу не самая проблема, это тупо вопрос времени. А вот привести большинство баз в потребный вид та еще задача. Собственно это можно сказать и есть основной мой вид деятельности в этой сфере.

Это, пожалуй, самый мягкий и эффективный способ.
Согласен, везде свой подход, везде тренировка для мозгов

В Согазе были записи с припиской типа фейкмаил, сначала их тоже полностью удалил, потом оставил как есть, потом переделал и вернул обратно, но убрав приписку, возможно там часть адресов была реальная, решил что так будет лучше.
В кассах одинаковый IP может быть у тех, кто покупал не через сайт/приложение, а придя лично в одно из отделений, плюс там могут быть одинаковые записи, но с разными датами, это важно если хочешь сохранить данные о том, когда человек ходил на какое-то мероприятие.
Можно в EmEditor, немного муторно, но проще чем по кускам в Эксель переносить.[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]11 авг 2023, 23:14 Нет, не границы.
Да в экселе понятное можно без проблем. Только в эксель разом больше 1млн строк не запихнуть, придеться резать.
Думал по идее в кроносе должна же быть подобная формула.
В личку напишу.