Прочие базы данных ч.2 -АРХИВ

ВСЕ СТАРЫЕ И ЗАКРЫТЫЕ ТЕМЫ

Модераторы: konkar, deicide

Закрыто
Аватара пользователя
Burg0mister
профи
Сообщения: 326
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1794 раза
Поблагодарили: 697 раз

Re: Прочие базы данных

Сообщение Burg0mister »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:11 в открытый доступ попал файл, содержащий данные клиентов предположительно сети клинико-диагностических лабораторий «KDL» (kdl.ru).
Продолжение…

[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
Просто красавчик! Столько времени сэкономили, мог бы десять благодарностей отправить - отправил бы.
Чем извлекали? Вручную или каким-то инструментом?
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
theduck
новый пользователь
Сообщения: 20
Зарегистрирован: 27 янв 2022, 17:48
Благодарил (а): 13 раз
Поблагодарили: 77 раз

Re: Прочие базы данных

Сообщение theduck »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 10:14
Просто красавчик! Столько времени сэкономили, мог бы десять благодарностей отправить - отправил бы.
Чем извлекали? Вручную или каким-то инструментом?
SQL:

Код: [Local Link Removed for Guests]

SELECT distinct
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
    regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
    wf_preorder
stdrom
профи
Сообщения: 54
Зарегистрирован: 29 июл 2022, 12:38
Благодарил (а): 1 раз
Поблагодарили: 26 раз

Re: Прочие базы данных

Сообщение stdrom »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18 SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
Аватара пользователя
Burg0mister
профи
Сообщения: 326
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1794 раза
Поблагодарили: 697 раз

Re: Прочие базы данных

Сообщение Burg0mister »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 16:52
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18 SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
Вот же ты неутомимый :mrgreen:
Так-то можно регуляркой такое и в EmEditor сделать, или в Питоне каком-нибудь {наверное даже и в Кроносе, но я без понятия как оно там и долго наверное},
Но не спорю, круто и удобно!

theduck благодарю за подсказку!
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
Аватара пользователя
sergeiii
профи
Сообщения: 211
Зарегистрирован: 30 ноя 2021, 15:23
Благодарил (а): 201 раз
Поблагодарили: 492 раза

Re: Прочие базы данных

Сообщение sergeiii »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:11 в открытый доступ попал файл, содержащий данные клиентов предположительно сети клинико-диагностических лабораторий «KDL» (kdl.ru).
Продолжение…

[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
у меня не открывается... :shock:
Аватара пользователя
Burg0mister
профи
Сообщения: 326
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1794 раза
Поблагодарили: 697 раз

Re: Прочие базы данных

Сообщение Burg0mister »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 19:39
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29

Продолжение…

[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
у меня не открывается... :shock:
Скорее всего имя у файла слишком длинное.
Опубликую свой сборник.

В нём:
1-файл обработанный theduck, но там изменил даты на общепринятый формат {и вроде разделители ещё поменял на вертикальную черту};
2-Папка Order, а в ней куча файликов - это первая слитая таблица KDL, которую здесь опубликовал sergeiii ;)

Обрабатывал на скорую руку, поэтому оставил только самое важное: ФИО, телефон, почту, местами комментарии, но они где-то обрезаны, где-то потерялись, даты, города, подробности о резюме и опыте работы соискателей тоже не сохранил, уж больно там всё прыгающее.

В оформлении всё стандартно
-дубли и мусор основные убраны
-телефоны и даты подчищены и приведены к одному виду
-кодировка кириллица Win-1251

Разделители только не везде менял на вертикальную черту.

Ссылка:
Спойлер
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
Рекомендованный

Постараюсь на днях исправленную версию добросить, с заголовками, разделителями, с меньшим количеством мусора.
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
theduck
новый пользователь
Сообщения: 20
Зарегистрирован: 27 янв 2022, 17:48
Благодарил (а): 13 раз
Поблагодарили: 77 раз

Re: Прочие базы данных

Сообщение theduck »

kdl.ru order.sql конвертировано в kdl.ru order.sql - tableX.csv

[External Link Removed for Guests]
theduck
новый пользователь
Сообщения: 20
Зарегистрирован: 27 янв 2022, 17:48
Благодарил (а): 13 раз
Поблагодарили: 77 раз

Re: Прочие базы данных

Сообщение theduck »

kdl.ru order.sql - tableX - home-order.csv
-извлечен home-order (phone, fio, region, email_to, request_number, source, date) 84707
-дубли убраны
-телефоны подчищены
-кодировка кириллица Win-1251

[External Link Removed for Guests]
theduck
новый пользователь
Сообщения: 20
Зарегистрирован: 27 янв 2022, 17:48
Благодарил (а): 13 раз
Поблагодарили: 77 раз

Re: Прочие базы данных

Сообщение theduck »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 16:52
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18 SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
1М строк?
Пришлите, я попробую.
Аватара пользователя
Lakmus
местный
Сообщения: 45
Зарегистрирован: 20 июл 2023, 07:51
Благодарил (а): 58 раз
Поблагодарили: 194 раза

Re: Прочие базы данных

Сообщение Lakmus »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 20:18 Вот же ты неутомимый :mrgreen:
Так-то можно регуляркой такое и в EmEditor сделать, или в Питоне каком-нибудь {наверное даже и в Кроносе, но я без понятия как оно там и долго наверное},
Но не спорю, круто и удобно!
theduck благодарю за подсказку!
Друзья, подскажите как в SQL дубли можно удалить? У меня есть базы 100М+ на постгресе, но запрос по типу
Delete FROM table
Where id not in
(
select min(id) as MinRowID
FROM table
group by column1, column2, column3, column4, column5
)
пробовал запускать и за три дня так и не дождался ответа от БД, а каждый раз выкачивать и удалять дубли это не лучшая идея как по мне. Хотя тот же EmEditor за несколько секунд всё чистит
Закрыто