Запись связи - Record linkage
Запись связи (также известный как сопоставление данных, разрешение сущности, и многие другие термины) - задача найти записи в наборе данных, которые относятся к тому же юридическое лицо из разных источников данных (например, файлы данных, книги, веб-сайты и базы данных). Привязка записей необходима, когда присоединение различные наборы данных, основанные на объектах, которые могут иметь или не иметь общий идентификатор (например, ключ базы данных, URI, Национальный идентификационный номер ), что может быть связано с различиями в форме записи, месте хранения, а также в стиле или предпочтениях куратора. Набор данных, который прошел согласование с ориентацией на RL, можно назвать сшитый. Связь с записями называется связь данных во многих юрисдикциях, но это один и тот же процесс.
Соглашения об именах
«Связь записей» - это термин, используемый статистиками, эпидемиологами и историками, среди прочего, для описания процесса объединения записей из одного источника данных с другим, которые описывают одну и ту же сущность. Однако для этого процесса используется много других терминов. К сожалению, такое обилие терминологии привело к небольшому количеству перекрестных ссылок между этими исследовательскими сообществами.[1][2]
Компьютерные ученые часто называют это «сопоставлением данных» или «проблемой идентичности объекта». Коммерческие почтовые приложения и приложения баз данных называют это «обработкой слияния / очистки» или «промывкой списка». Другие имена, используемые для описания той же концепции, включают: «сопоставление / сущность / идентичность / имя / разрешение записи», «устранение неоднозначности / связывание сущности», «нечеткое сопоставление», «обнаружение дубликатов», «дедупликация», «сопоставление записей», » (ссылка) согласование »,« идентификация объекта »,« интеграция данных / информации »и« сопоставление ».[3]
Хотя они имеют схожие имена, связь записей и Связанные данные это два разных подхода к обработке и структурированию данных. Хотя оба включают идентификацию совпадающих сущностей в разных наборах данных, связь записей стандартно приравнивает «сущности» к людям; напротив, связанные данные основаны на возможности связывания любых веб-ресурс между наборами данных, используя соответственно более широкую концепцию идентификатора, а именно URI.
История
Первоначальная идея связывания записей восходит к Халберт Л. Данн в его статье 1946 года под названием «Record Linkage», опубликованной в Американский журнал общественного здравоохранения.[4]
Затем Говард Борден Ньюкомб заложил вероятностные основы современной теории связи записей в статье 1959 г. Наука[5]. Они были формализованы в 1969 г. Иван Феллеги и Алан Сантер в своей новаторской работе «Теория связи записей», где они доказали, что описанное ими вероятностное правило принятия решений было оптимальным, когда атрибуты сравнения были условно независимыми.[6] В своей работе они признали растущий интерес к применению достижений в области вычислений и автоматизации для больших коллекций административные данные, а Теория Феллеги-Сунтера остается математической основой для многих приложений по связыванию записей.
С конца 1990-х годов различные машинное обучение были разработаны методы, которые при благоприятных условиях могут использоваться для оценки условных вероятностей, требуемых теорией Феллеги-Сантера. Некоторые исследователи сообщили, что предположение об условной независимости алгоритма Феллеги-Сантера часто нарушается на практике; однако опубликованные попытки явно смоделировать условные зависимости между атрибутами сравнения не привели к улучшению качества связи записей.[нужна цитата ] С другой стороны, алгоритмы машинного обучения или нейронной сети, которые не полагаются на эти предположения, часто обеспечивают гораздо более высокую точность, когда доступно достаточно размеченных данных обучения.[7]
Связывание записей может быть выполнено полностью без помощи компьютера, но основные причины, по которым компьютеры часто используются для завершения связывания записей, заключаются в том, чтобы уменьшить или исключить просмотр вручную и сделать результаты более легко воспроизводимыми. Компьютерное сопоставление имеет преимущества, позволяющие централизованно контролировать обработку, лучший контроль качества, скорость, согласованность и лучшую воспроизводимость результатов.[8]
Методы
Предварительная обработка данных
Связывание записей очень чувствительно к качеству связываемых данных, поэтому все рассматриваемые наборы данных (особенно поля их ключевых идентификаторов) в идеале должны пройти оценка качества данных перед связыванием записи. Многие ключевые идентификаторы для одной и той же сущности могут быть представлены совершенно по-разному в наборах данных (и даже внутри), что может значительно усложнить связывание записей, если их не понять заранее. Например, ключевые идентификаторы человека по имени Уильям Дж. Смит могут появиться в трех разных наборах данных следующим образом:
Набор данных | Имя | Дата рождения | Город проживания |
---|---|---|---|
Набор данных 1 | Уильям Дж. Смит | 1/2/73 | Беркли, Калифорния |
Набор данных 2 | Смит, В. Дж. | 1973.1.2 | Беркли, Калифорния |
Набор данных 3 | Билл Смит | 02 янв.1973 г. | Беркли, Калифорния. |
В этом примере разные стили форматирования приводят к тому, что записи выглядят по-разному, но на самом деле все относятся к одному и тому же объекту с одинаковыми значениями логических идентификаторов. Большинство, если не все, стратегии привязки записей привели бы к более точной привязке, если бы эти значения были первыми. нормализованный или же стандартизированный в согласованный формат (например, все имена - «Фамилия, имя», а все даты - «ГГГГ / ММ / ДД»). Стандартизация может быть достигнута с помощью простых правил на основе преобразования данных или более сложные процедуры, такие как основанные на лексике токенизация и вероятностные скрытые марковские модели.[9] Некоторые из пакетов, перечисленных в Программные реализации В разделе представлены некоторые из этих функций для упрощения процесса стандартизации данных.
Разрешение сущности
Разрешение сущности это оперативный интеллект процесс, обычно поддерживаемый механизмом разрешения сущностей или промежуточное ПО, благодаря чему организации могут соединять разрозненные источники данных с Посмотреть для понимания возможных совпадений сущностей и неочевидных отношений между несколькими разрозненные хранилища данных. Он анализирует все Информация относящиеся к отдельным лицам и / или организациям из нескольких источников данных, а затем применяет оценку правдоподобия и вероятности, чтобы определить, какие идентичности совпадают и какие, если таковые имеются, неочевидные отношения существуют между этими идентичностями.
Механизмы разрешения сущностей обычно используются для обнаружения рисковать, мошенничество, и конфликты интересов, но также являются полезными инструментами для использования в интеграция данных клиентов (CDI) и управление основными данными (MDM) требования. Типичные применения механизмов разрешения сущностей включают выявление террористов, обнаружение страхового мошенничества, Патриотический акт США согласие, организованная розничная преступность выявление звонков и проверка заявителей.
Например: в разных хранилищах данных - записи сотрудников, данные поставщиков, списки наблюдения и т. Д. - организация может иметь несколько вариантов сущности с именем ABC, которая может быть или не быть одним и тем же лицом. Эти записи могут фактически отображаться в этих источниках данных как ABC1, ABC2 или ABC3. Путем сравнения сходства между базовыми атрибутами, такими как адрес, Дата рождения, или же ИНН, пользователь может исключить некоторые возможные совпадения и подтвердить другие как наиболее вероятные совпадения.
Затем механизмы разрешения сущностей применяют правила, основанные на логике здравого смысла, для выявления скрытых взаимосвязей между данными. В приведенном выше примере, возможно, ABC1 и ABC2 не одно и то же лицо, а скорее два разных человека, которые имеют общие атрибуты, такие как адрес или номер телефона.
Соответствие данных
Хотя решения по разрешению сущностей включают технологию сопоставления данных, многие предложения по сопоставлению данных не подходят под определение разрешения сущностей. Вот четыре фактора, которые отличают разрешение сущностей от сопоставления данных, по словам Джона Талберта, директора UALR Центр перспективных исследований в области разрешения юридических лиц и качества информации:
- Работает как со структурированными, так и с неструктурированными записями, и это влечет за собой процесс извлечения ссылок, когда источники неструктурированы или частично структурированы.
- Использует сложные бизнес-правила и концептуальные модели для работы с отсутствующей, противоречивой и поврежденной информацией.
- В дополнение к прямому сопоставлению использует несоответствующую, утвержденную информацию о связывании (ассоциировании)
- Выявляет неочевидные отношения и сети ассоциаций (то есть кто с кем связан)
В отличие от продуктов для обеспечения качества данных, более мощные механизмы разрешения идентификации также включают механизм правил и рабочий процесс, которые применяют бизнес-аналитику к разрешенным идентификаторам и их отношениям. Эти передовые технологии принимают автоматизированные решения и влияют на бизнес-процессы в режиме реального времени, ограничивая необходимость вмешательства человека.
Детерминированная привязка записей
Простейший вид связывания записей, называемый детерминированный или же связывание записей на основе правил, создает ссылки на основе количества индивидуальных идентификаторов, которые совпадают среди доступных наборов данных.[10] Считается, что две записи совпадают с помощью процедуры детерминированного связывания записей, если все или некоторые идентификаторы (выше определенного порога) идентичны. Детерминированная привязка записей - хороший вариант, когда объекты в наборах данных идентифицируются общим идентификатором или когда есть несколько репрезентативных идентификаторов (например, имя, дата рождения и пол при идентификации человека), качество данных которых является относительно низким. высоко.
В качестве примера рассмотрим два стандартизированных набора данных, набор A и набор B, которые содержат разные биты информации о пациентах в больничной системе. Два набора данных идентифицируют пациентов с помощью различных идентификаторов: ИНН (SSN), имя, дата рождения (DOB), пол и почтовый индекс (ZIP). Записи в двух наборах данных (обозначенных столбцом «#») показаны ниже:
Набор данных | # | SSN | Имя | Дата рождения | Секс | ZIP |
---|---|---|---|---|---|---|
Установите A | 1 | 000956723 | Смит, Уильям | 1973/01/02 | Мужской | 94701 |
2 | 000956723 | Смит, Уильям | 1973/01/02 | Мужской | 94703 | |
3 | 000005555 | Джонс, Роберт | 1942/08/14 | Мужской | 94701 | |
4 | 123001234 | Сью, Мэри | 1972/11/19 | женский | 94109 | |
Установить B | 1 | 000005555 | Джонс, Боб | 1942/08/14 | ||
2 | Смит, Билл | 1973/01/02 | Мужской | 94701 |
Самая простая детерминированная стратегия связывания записей состоит в том, чтобы выбрать один идентификатор, который, как предполагается, однозначно идентифицирует, например SSN, и объявить, что записи, имеющие одно и то же значение, идентифицируют одного и того же человека, в то время как записи, не имеющие одинакового значения, идентифицируют разных людей. В этом примере детерминированная связь на основе SSN создаст объекты на основе A1 и A2; A3 и B1; и A4. Хотя A1, A2 и B2, похоже, представляют одну и ту же сущность, B2 не будет включен в соответствие, потому что в нем отсутствует значение для SSN.
Обработка исключений, таких как отсутствующие идентификаторы, включает создание дополнительных правил связывания записей. Одним из таких правил в случае отсутствия SSN может быть сравнение имени, даты рождения, пола и почтового индекса с другими записями в надежде найти совпадение. В приведенном выше примере это правило все равно не будет соответствовать A1 / A2 с B2, потому что имена все еще немного отличаются: стандартизация поместила имена в правильный формат (Фамилия, Имя), но не смогла распознать "Bill" как псевдоним для " Уильям ". Запуск имен через фонетический алгоритм Такие как Soundex, NYSIIS, или же метафон, может помочь решить эти типы проблем (хотя он все еще может споткнуться об изменении фамилии в результате брака или развода), но тогда B2 будет сопоставляться только с A1, поскольку почтовый индекс в A2 отличается. Таким образом, необходимо создать другое правило, чтобы определить, допустимы ли различия в конкретных идентификаторах (например, почтовый индекс), а какие нет (например, в дате рождения).
Как показывает этот пример, даже небольшое снижение качества данных или небольшое увеличение сложности данных может привести к очень большому увеличению количества правил, необходимых для правильного связывания записей. В конце концов, этих правил связывания станет слишком много и они будут взаимосвязаны, чтобы их можно было создавать без помощи специализированных программных инструментов. Кроме того, правила связывания часто зависят от характера наборов данных, которые они призваны связывать вместе. Одно исследование смогло связать социальное обеспечение Файл Death Master с двумя больничными кассами из Средний Запад США с использованием SSN, имени, месяца рождения и пола в кодировке NYSIIS, но эти правила могут не работать также с наборами данных из других географических регионов или с данными, собранными по более молодому населению.[11] Таким образом, необходимо непрерывное техническое обслуживание этих правил, чтобы гарантировать, что они продолжают функционировать, как ожидалось, по мере поступления новых данных в систему и необходимости связывания. Новые данные, которые демонстрируют характеристики, отличные от первоначально ожидаемых, могут потребовать полной перестройки набора правил связывания записей, что может потребовать очень много времени и средств.
Вероятностная связь записи
Вероятностная связь записииногда называют нечеткое соответствие (также вероятностное слияние или же нечеткое слияние в контексте объединения баз данных), использует другой подход к проблеме связывания записей, принимая во внимание более широкий диапазон потенциальных идентификаторов, вычисляя веса для каждого идентификатора на основе его предполагаемой способности правильно идентифицировать совпадение или несоответствие, и использование этих весов для расчета вероятности того, что две заданные записи относятся к одному и тому же объекту. Пары записей с вероятностями выше определенного порога считаются совпадениями, а пары с вероятностями ниже другого порога считаются несовпадениями; пары, которые попадают между этими двумя пороговыми значениями, считаются «возможными совпадениями» и могут обрабатываться соответствующим образом (например, проверены человеком, связаны или не связаны, в зависимости от требований). В то время как для детерминированного связывания записей требуется заранее запрограммировать ряд потенциально сложных правил, вероятностные методы связывания записей можно «обучить», чтобы они работали хорошо при гораздо меньшем вмешательстве человека.
Многие вероятностные алгоритмы связывания записей присваивают идентификаторам веса совпадения / несоответствия с помощью двух вероятностей, называемых ты и м. В ты вероятность - это вероятность того, что идентификатор в двух несоответствие записи согласятся чисто случайно. Например, ты вероятность месяца рождения (где имеется двенадцать значений, которые примерно равномерно распределены) составляет 1/12 ≈ 0,083; идентификаторы со значениями, которые распределены неравномерно, будут иметь разные ты вероятности для разных значений (возможно, включая пропущенные значения). В м вероятность - это вероятность того, что идентификатор в соответствие пары согласятся (или будут достаточно похожими, например, строки с низким Яро-Винклер или же Левенштейн расстояние). В случае точных данных это значение будет 1,0, но, учитывая, что это редко (если вообще когда-либо) верно, его можно оценить. Эта оценка может быть сделана на основе предварительных знаний о наборах данных, путем ручного определения большого количества совпадающих и несовпадающих пар для «обучения» вероятностного алгоритма связи записей или путем итеративного запуска алгоритма для получения более точных оценок м вероятность. Если бы значение 0,95 было оценено для м вероятность, то веса совпадения / несоответствия для идентификатора месяца рождения будут:
Исход | Доля ссылок | Доля не связанных ссылок | Соотношение частот | Масса |
---|---|---|---|---|
Матч | м = 0.95 | ты ≈ 0.083 | м/ты ≈ 11.4 | ln (м/ты) / ln (2) ≈ 3,51 |
Несовпадение | 1−м = 0.05 | 1-ты ≈ 0.917 | (1-м)/(1-ты) ≈ 0.0545 | ln ((1-м)/(1-ты)) / ln (2) ≈ -4,20 |
Такие же расчеты будут выполнены для всех других рассматриваемых идентификаторов, чтобы найти их веса совпадения / несоответствия. Затем каждый идентификатор одной записи будет сравниваться с соответствующим идентификатором другой записи для вычисления общего веса пары: матч вес добавляется к промежуточной сумме, когда пара идентификаторов согласуется, в то время как несоответствие вес добавляется (т. е. общая сумма уменьшается) всякий раз, когда пара идентификаторов расходится. Затем полученный общий вес сравнивается с вышеупомянутыми пороговыми значениями, чтобы определить, должна ли пара быть связана, не связана или отложена для особого рассмотрения (например, ручная проверка).[12]
Определение места установки пороговых значений соответствия / несоответствия - это баланс между получением приемлемого чувствительность (или же отзывать, доля действительно совпадающих записей, связанных алгоритмом) и положительная прогностическая ценность (или же точность, доля действительно совпадающих записей, связанных алгоритмом). Для прогнозирования наилучших пороговых значений доступны различные ручные и автоматизированные методы, а некоторые программные пакеты для связывания записей имеют встроенные инструменты, помогающие пользователю найти наиболее приемлемые значения. Поскольку это может быть очень трудоемкой задачей, особенно для больших наборов данных, метод, известный как блокировка часто используется для повышения эффективности. Блокировка пытается ограничить сравнения только теми записями, для которых совпадают один или несколько особенно различающих идентификаторов, что приводит к увеличению положительной прогностической ценности (точности) за счет чувствительности (отзыва).[12] Например, блокировка на основе фонетически закодированной фамилии и почтового индекса уменьшит общее количество требуемых сравнений и повысит шансы, что связанные записи будут правильными (поскольку два идентификатора уже согласны), но потенциально может пропустить записи, относящиеся к одному и тому же человеку чья фамилия или почтовый индекс были другими (например, из-за брака или переезда). Блокировка на основе месяца рождения, более стабильного идентификатора, который, как ожидается, изменится только в случае ошибки данных, обеспечит более скромный выигрыш в положительной прогностической ценности и потере чувствительности, но создаст только двенадцать отдельных групп, которые для чрезвычайно большие наборы данных, возможно, не принесут значительного увеличения скорости вычислений. Таким образом, надежные системы связи записей часто используют несколько блокирующих проходов для группировки данных различными способами, чтобы получить группы записей, которые следует сравнивать друг с другом.
Машинное обучение
В последние годы для связывания записей использовались различные методы машинного обучения. Это было признано[7] что классический алгоритм вероятностной связи записей, описанный выше, эквивалентен Наивный байесовский алгоритм в области машинного обучения,[13] и страдает от того же предположения о независимости его функций (предположение, которое обычно неверно).[14][15] Более высокой точности часто можно добиться, используя различные другие методы машинного обучения, включая однослойное перцептрон.[7]. В сочетании с распределенными технологиями[16], точность и масштаб для связи записей могут быть дополнительно улучшены.
Математическая модель
В приложении с двумя файлами, A и B, обозначьте строки (записи) к в файле A и в файле B. Назначить характеристики к каждой записи. Набор записей, представляющих идентичные сущности, определяется
и дополнение набора , а именно установить представление различных сущностей определяется как
.
Вектор, определено, что содержит закодированные соглашения и разногласия по каждой характеристике:
куда - это индекс для характеристик (пол, возраст, семейное положение и т. д.) в файлах. Условные вероятности наблюдения определенного вектора данный , определены как
и
соответственно.[6]
Приложения
Управление основными данными
Наиболее Управление основными данными (MDM) продукты используют процесс связывания записей для идентификации записей из разных источников, представляющих одну и ту же реальную сущность. Эта связь используется для создания «золотой основной записи», содержащей очищенные согласованные данные об объекте. Методы, используемые в MDM, такие же, как и для связывания записей в целом. MDM расширяет это сопоставление не только для создания «золотой основной записи», но и для вывода взаимосвязей. (т. е. у человека одинаковая / похожая фамилия и одинаковый / похожий адрес, это может означать, что у него есть семейные отношения).
Хранилище данных и бизнес-аналитика
Связь с записями играет ключевую роль в хранилище данных и бизнес-аналитика. Хранилища данных служат для объединения данных из множества различных операционных систем в одну. логическая модель данных, которые затем могут быть переданы в систему бизнес-аналитики для отчетности и аналитики. Каждая операционная исходная система может иметь свой собственный метод идентификации одних и тех же объектов, используемых в логической модели данных, поэтому становится необходимой связь записей между различными источниками, чтобы гарантировать, что информацию о конкретном объекте в одной исходной системе можно легко сравнить с информацией о тот же объект из другой исходной системы. Стандартизация данных и последующее связывание записей часто происходят в части «преобразования» извлечь, преобразовать, загрузить (ETL) процесс.
Историческое исследование
Связь записей важна для исследования социальной истории, поскольку большинство наборов данных, таких как записи переписи и приходские книги были записаны задолго до изобретения Национальные идентификационные номера. Когда старые источники оцифровываются, связывание наборов данных является предварительным условием для длительное обучение. Этот процесс часто дополнительно осложняется отсутствием стандартного написания имен, фамилий, которые меняются в зависимости от места проживания, изменения административных границ и проблем с проверкой данных по другим источникам. Связь с записями была одной из самых ярких тем в История и вычисления области в 1980-х годах, но с тех пор ей уделялось меньше внимания в исследованиях.[нужна цитата ]
Медицинская практика и исследования
Связь с записями - важный инструмент в создании данных, необходимых для изучения здоровья населения и самой системы здравоохранения. Его можно использовать для улучшения хранения данных, сбора данных, оценки качества и распространения информации. Источники данных могут быть изучены для устранения дублирующих записей, выявления случаев неполной отчетности и пропущенных случаев (например, подсчет населения при переписи населения), для создания статистики здоровья, ориентированной на человека, а также для создания реестров заболеваний и систем наблюдения за здоровьем. Некоторые реестры рака связывают различные источники данных (например, данные о госпитализации, патологии и клинические отчеты, а также регистрации смертей) для создания своих реестров. Связь с записями также используется для создания показателей здоровья. Например, внутриутробная и младенческая смертность является общим показателем социально-экономического развития страны, общественного здравоохранения, а также услуг по охране здоровья матери и ребенка. Если записи о младенческой смерти сопоставляются с записями о рождении, при анализе данных можно использовать переменные рождения, такие как вес при рождении и гестационный возраст, а также данные о смертности, такие как причина смерти. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или результаты для здоровья. Отслеживание часто требуется для последующего наблюдения за промышленными когортами, клиническими испытаниями и лонгитюдными опросами для выяснения причины смерти и / или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, является Рочестерский эпидемиологический проект основанный в Рочестер, Миннесота.[17]
Критика существующих программных реализаций
Приводятся следующие основные причины:[нужна цитата ]
- Стоимость проекта: обычно стоит сотни тысяч долларов
- Время: не хватает времени для крупномасштабных очистка данных программного обеспечения
- Безопасность: озабоченность по поводу обмена информацией, предоставления приложению доступа к разным системам и влияния на унаследованные системы
- Масштабируемость: Из-за отсутствия уникальных идентификаторов в записях связывание записей требует больших вычислительных ресурсов и трудностей для масштабирования. [18]
- Точность: Изменение бизнес-данных и сбор всех правил для связывания - сложная и обширная задача.
Смотрите также
- Оптимизация мощности
- Контент-адресное хранилище
- Дедупликация данных
- Дельта-кодирование
- Связывание сущностей
- Модель сущность-атрибут-значение
- Разрешение личности
- Связанные данные
- Признание именной организации
- Открытые данные
- Соответствие схемы
- Одноэкземплярное хранилище
- Имя автора Значение
Примечания и ссылки
- ^ Cristen, P&T: Febrl - Свободно расширяемая связь биомедицинских записей (Руководство, выпуск 0.3) стр.9
- ^ Эльмагармид, Ахмед; Панайотис Г. Ипейротис; Василиос Верикиос (январь 2007 г.). «Обнаружение повторяющейся записи: опрос» (PDF). IEEE Transactions по разработке знаний и данных. 19 (1): стр. 1–16. Дои:10.1109 / tkde.2007.250581. S2CID 386036. Получено 2009-03-30.
- ^ http://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf
- ^ Данн, Халберт Л. (Декабрь 1946 г.). "Запись связи" (PDF). Американский журнал общественного здравоохранения. 36 (12): стр. 1412–1416. Дои:10.2105 / AJPH.36.12.1412. ЧВК 1624512. PMID 18016455. Получено 2008-05-31.
- ^ Newcombe, H.B .; Дж. М. Кеннеди; С.Дж. Аксфорд; А. П. Джеймс (октябрь 1959 г.). «Автоматическая привязка основных записей». Наука. 130 (3381): 954–959. Дои:10.1126 / science.130.3381.954. PMID 14426783.
- ^ а б Феллеги, Иван; Сантер, Алан (декабрь 1969 г.). "Теория связи записей" (PDF). Журнал Американской статистической ассоциации. 64 (328): стр. 1183–1210. Дои:10.2307/2286061. JSTOR 2286061.
- ^ а б c Уилсон, Д. Рэндалл, Д. Рэндалл (31 июля - 5 августа 2011 г.). Помимо вероятностной связи записей: использование нейронных сетей и сложных функций для улучшения генеалогической связи записей (PDF). Труды международной совместной конференции по нейронным сетям. Сан-Хосе, Калифорния, США.
- ^ Винклер, Уильям Э. «Сопоставление и связь записи» (PDF). Бюро переписи населения США. Получено 12 ноября 2011.
- ^ Церкви, Тим; Питер Кристен; Ким Лим; Джастин Си Чжу (13 декабря 2002 г.). «Подготовка именных и адресных данных для связывания записей с использованием скрытых марковских моделей». BMC Медицинская информатика и принятие решений. 2: 9. Дои:10.1186/1472-6947-2-9. ЧВК 140019. PMID 12482326.
- ^ Роос, LL; Вайда А. (апрель 1991 г.). «Запишите стратегии связи. Часть I: Оценка информации и подходы к оценке». Методы информации в медицине. 30 (2): 117–123. Дои:10.1055 / с-0038-1634828. PMID 1857246.
- ^ Граннис, SJ; Overhage JM; Макдональд CJ (2002). «Анализ эффективности идентификатора с использованием детерминированного алгоритма связывания». Proc AMIA Symp.: 305–9. ЧВК 2244404. PMID 12463836.
- ^ а б Блейкли, Тони; Салмонд, Клэр (декабрь 2002 г.). «Вероятностная связь записей и метод расчета положительной прогнозной ценности». Международный журнал эпидемиологии. 31 (6): 1246–1252. Дои:10.1093 / ije / 31.6.1246. PMID 12540730.
- ^ Квасс, Даллан, и Старки, Пол. «Связь записей для генеалогических баз данных, ”ACM SIGKDD ’03 Семинар по очистке данных, связыванию записей и консолидации объектов, 24–27 августа 2003 г., Вашингтон, округ Колумбия.
- ^ Лэнгли, Пэт, Уэйн Иба и Кевин Томпсон. «Анализ байесовских классификаторов, ”В материалах 10-й Национальной конференции по искусственному интеллекту (AAAI-92), AAAI Press / MIT Press, Кембридж, Массачусетс, стр. 223-228, 1992.
- ^ Мичи, Д., Д. Шпигельхальтер и К. Тейлор. Машинное обучение, нейронная и статистическая классификация, Эллис Хорвуд, Хартфордшир, Англия. Книга 19, 1994.
- ^ «Нечеткое совпадение с искрой». Саммит Spark.
- ^ Сент-Совер JL; Grossardt BR; Зевать БП; Мелтон LJ 3-й; Панкрац JJ; Брю С.М.; Рокка WA (2012). «Профиль ресурсов данных: система связи медицинских записей Рочестерского эпидемиологического проекта (REP)». Int J Epidemiol. 41 (6): 1614–24. Дои:10.1093 / ije / dys195. ЧВК 3535751. PMID 23159830.
- ^ https://observablehq.com/@nubetech/entity-resolution-at-scale
внешняя ссылка
- Проект передачи данных в Пенсильвании, США
- Стэнфордская система разрешения проблем юридических лиц
- Dedoop - дедупликация с помощью Hadoop
- BlockingFramework Платформа для разрешения сущностей на основе блокировки
- Интерактивная связь с записями с улучшенной конфиденциальностью в Техасском университете A&M